機率與貝葉氏機器學習_學習筆記系列(01):貝氏推斷(Bayesian Inference)
相信大家在大學修統計學的時候,一定有碰過所謂的Bayesian Inference,而在介紹之前,我們先來看一個例子,假使我們今天玩抽鬼牌,而對方手上有12張牌,其中1張是鬼牌,然後我們合理推斷抽到鬼牌的機率為1/12。
但是有玩過抽鬼牌的朋友都知道,我們可以藉由對方的表情來看出,我們摸的牌是不是鬼牌,所以說我們最後抽到鬼牌的機率就不再是1/12了。
Likelihood、Prior、Evidence、Posterior
而在上述的這個情況,雖然我們已經知道了抽到的機率,但是顯然有些外在的因素影響了我們的結果,所以我們必須一定要引入其他的function來描述這個現象。
而在機器學習上,同樣也會碰到類似的問題。首先我們有一筆資料集D,我們知道對於一個model來說,我們有所謂的model權重參數𝜃,所以我們的問題為
其意思就是我希望找到一組權重參數𝜃,使我們出現這個資料集D的機率達到最大。
不過在上述方法中,我們是假設所有可能的權重參數𝜃出現的機率全部一樣,舉例來說今天我們求解出來,有三個解可以達到非常大的likelihood
以我們對於機器學習的直覺來說,大家一定會選擇第一組,因為其他兩組變數太大,所以只要我們的輸入資料有點改變,其變化就會非常大。
但是我們用一般的機器學習讓所有情況出現的機率相同的話,會使得我們也有可能得到後面兩個結果。所以在這裡我們必須加入調整𝜃的方程式。
另外一個問題就是,在我們拿到的資料集當中,很有可能這個資料是有bias的,舉例來說,我們今天想調查一個城市所有人對於市長施政的滿意度,而我們知道這個城市有100萬人口,但是不可能對這100萬人全部調查,所以一定是用抽樣的方式來進行。
在這裡大家看到抽樣,應該就會知道,當抽樣數量越少,就越有可能偏離實際的總體施政滿意度,所以在這裡,我們一樣必須加上考慮資料集D的分布方程式。
綜合上述,我們就可以把它寫成
而在這邊的每個項目
Likelihood
代表使用𝜃下可以出現資料集D的機率。
Prior
代表𝜃和𝛼出現的機率
Evidence
代表此資料D出現的機率
Posterior
代表給定此資料後出現𝜃的機率。
而對於機器學習的問題中,如果我們一般的方法,就是最大化likelihood值,而這就是所謂的Maximum Likelihood Estimation (MLE):
而使用Bayesian的方法在機器學習上,就是最大化posterior值,而這就是所謂的Maximum a Posterior (MAP):
而這兩個方法在統計學上可以對應到頻率學派和貝氏學派,而關於MLE和MAP我們會在之後有更詳細的解說。
Reference
[1] Barber, D. (2012). Bayesian reasoning and machine learning. Cambridge University Press.
[2] Murphy, K. P. (2012). Machine learning: a probabilistic perspective. MIT press.