機率與貝葉氏機器學習_學習筆記系列(01)：貝氏推斷(Bayesian Inference) - 劉智皓 (Chih-Hao Liu) - Medium

機率與貝葉氏機器學習_學習筆記系列(01)：貝氏推斷(Bayesian Inference)
劉智皓 (Chih-Hao Liu)
·Follow
Aug 23, 2021
--
相信大家在大學修統計學的時候，一定有碰過所謂的Bayesian Inference，而在介紹之前，我們先來看一個例子，假使我們今天玩抽鬼牌，而對方手上有12張牌，其中1張是鬼牌，然後我們合理推斷抽到鬼牌的機率為1/12。
但是有玩過抽鬼牌的朋友都知道，我們可以藉由對方的表情來看出，我們摸的牌是不是鬼牌，所以說我們最後抽到鬼牌的機率就不再是1/12了。
Likelihood、Prior、Evidence、Posterior而在上述的這個情況，雖然我們已經知道了抽到的機率，但是顯然有些外在的因素影響了我們的結果，所以我們必須一定要引入其他的function來描述這個現象。
而在機器學習上，同樣也會碰到類似的問題。首先我們有一筆資料集D，我們知道對於一個model來說，我們有所謂的model權重參數𝜃，所以我們的問題為
其意思就是我希望找到一組權重參數𝜃，使我們出現這個資料集D的機率達到最大。
不過在上述方法中，我們是假設所有可能的權重參數𝜃出現的機率全部一樣，舉例來說今天我們求解出來，有三個解可以達到非常大的likelihood
以我們對於機器學習的直覺來說，大家一定會選擇第一組，因為其他兩組變數太大，所以只要我們的輸入資料有點改變，其變化就會非常大。
但是我們用一般的機器學習讓所有情況出現的機率相同的話，會使得我們也有可能得到後面兩個結果。所以在這裡我們必須加入調整𝜃的方程式。
另外一個問題就是，在我們拿到的資料集當中，很有可能這個資料是有bias的，舉例來說，我們今天想調查一個城市所有人對於市長施政的滿意度，而我們知道這個城市有100萬人口，但是不可能對這100萬人全部調查，所以一定是用抽樣的方式來進行。
在這裡大家看到抽樣，應該就會知道，當抽樣數量越少，就越有可能偏離實際的總體施政滿意度，所以在這裡，我們一樣必須加上考慮資料集D的分布方程式。
綜合上述，我們就可以把它寫成
而在這邊的每個項目
Likelihood
代表使用𝜃下可以出現資料集D的機率。
Prior
代表𝜃和𝛼出現的機率
Evidence
代表此資料D出現的機率
Posterior
代表給定此資料後出現𝜃的機率。
而對於機器學習的問題中，如果我們一般的方法，就是最大化likelihood值，而這就是所謂的Maximum Likelihood Estimation (MLE)：
而使用Bayesian的方法在機器學習上，就是最大化posterior值，而這就是所謂的Maximum a Posterior (MAP)：
而這兩個方法在統計學上可以對應到頻率學派和貝氏學派，而關於MLE和MAP我們會在之後有更詳細的解說。
Reference[1] Barber, D. (2012). Bayesian reasoning and machine learning. Cambridge University Press.
[2] Murphy, K. P. (2012). Machine learning: a probabilistic perspective. MIT press.
--
--
Written by 劉智皓 (Chih-Hao Liu)1K Followers
·4 Following
豬屎屋AI RD，熱愛AI研究、LLM/SD模型、RAG應用、CUDA/HIP加速運算、訓練推論加速，同時也是5G技術愛好者，研讀過3GPP/ETSI/O-RAN Spec和O-RAN/ONAP/OAI開源軟體。
Responses (1)
Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams