機率與貝葉氏機器學習_學習筆記系列(01):貝氏推斷(Bayesian Inference)

--

相信大家在大學修統計學的時候,一定有碰過所謂的Bayesian Inference,而在介紹之前,我們先來看一個例子,假使我們今天玩抽鬼牌,而對方手上有12張牌,其中1張是鬼牌,然後我們合理推斷抽到鬼牌的機率為1/12。

但是有玩過抽鬼牌的朋友都知道,我們可以藉由對方的表情來看出,我們摸的牌是不是鬼牌,所以說我們最後抽到鬼牌的機率就不再是1/12了。

Likelihood、Prior、Evidence、Posterior

而在上述的這個情況,雖然我們已經知道了抽到的機率,但是顯然有些外在的因素影響了我們的結果,所以我們必須一定要引入其他的function來描述這個現象。

而在機器學習上,同樣也會碰到類似的問題。首先我們有一筆資料集D,我們知道對於一個model來說,我們有所謂的model權重參數𝜃,所以我們的問題為

其意思就是我希望找到一組權重參數𝜃,使我們出現這個資料集D的機率達到最大。

不過在上述方法中,我們是假設所有可能的權重參數𝜃出現的機率全部一樣,舉例來說今天我們求解出來,有三個解可以達到非常大的likelihood

以我們對於機器學習的直覺來說,大家一定會選擇第一組,因為其他兩組變數太大,所以只要我們的輸入資料有點改變,其變化就會非常大。

但是我們用一般的機器學習讓所有情況出現的機率相同的話,會使得我們也有可能得到後面兩個結果。所以在這裡我們必須加入調整𝜃的方程式。

另外一個問題就是,在我們拿到的資料集當中,很有可能這個資料是有bias的,舉例來說,我們今天想調查一個城市所有人對於市長施政的滿意度,而我們知道這個城市有100萬人口,但是不可能對這100萬人全部調查,所以一定是用抽樣的方式來進行。

在這裡大家看到抽樣,應該就會知道,當抽樣數量越少,就越有可能偏離實際的總體施政滿意度,所以在這裡,我們一樣必須加上考慮資料集D的分布方程式。

綜合上述,我們就可以把它寫成

而在這邊的每個項目

Likelihood

代表使用𝜃下可以出現資料集D的機率。

Prior

代表𝜃和𝛼出現的機率

Evidence

代表此資料D出現的機率

Posterior

代表給定此資料後出現𝜃的機率。

而對於機器學習的問題中,如果我們一般的方法,就是最大化likelihood值,而這就是所謂的Maximum Likelihood Estimation (MLE):

而使用Bayesian的方法在機器學習上,就是最大化posterior值,而這就是所謂的Maximum a Posterior (MAP):

而這兩個方法在統計學上可以對應到頻率學派和貝氏學派,而關於MLE和MAP我們會在之後有更詳細的解說。

Reference

[1] Barber, D. (2012). Bayesian reasoning and machine learning. Cambridge University Press.

[2] Murphy, K. P. (2012). Machine learning: a probabilistic perspective. MIT press.

--

--

劉智皓 (Chih-Hao Liu)
劉智皓 (Chih-Hao Liu)

Written by 劉智皓 (Chih-Hao Liu)

豬屎屋AI RD,熱愛AI研究、LLM/SD模型、RAG應用、CUDA/HIP加速運算、訓練推論加速,同時也是5G技術愛好者,研讀過3GPP/ETSI/O-RAN Spec和O-RAN/ONAP/OAI開源軟體。

Responses (1)