機器學習_學習筆記系列(60)：主成分分析-最小化平方差觀點 (Principal Component Analysis — Minimum MSE Prospective) - 劉智皓 (Chih-Hao Liu) - Medium

機器學習_學習筆記系列(60)：主成分分析-最小化平方差觀點 (Principal Component Analysis — Minimum MSE Prospective)
劉智皓 (Chih-Hao Liu)
·Follow
Jun 11, 2021
--
上一回我們介紹完最大化變異數的觀點，接下來我們用另一個Minimum MSE Prospective去解釋PCA。
回到上一次外星人降維打擊的例子，假使地球上所有人都從3D降維到了2D，不過好險，我們研發了一個可以把人類從2D變回去3D的技術。而在這裡我們當然希望還原回去的時候，我們能回到一開始被降維前的地方，而不是說，我之前人在台灣，被降維後還原回去，我跑到喜馬拉雅山上。
所以套用到數據上，Minimum MSE Prospective就是希望，降維再還原後的位置和原始數據的位置，能相差越小越好。現在我們以比較嚴謹的數學形式來闡述
首先我們一樣設我們的資料集為X總共有N筆、D個特徵、轉換矩陣為B，我們想要將其降到K維、轉換後的資料為Z，其中
若我們今天一個數據點被降維再還原，他的值會為
所以我們的最佳化問題可寫成
其目標就是找到最佳的投影位置zn，當還原成原來的數據後誤差值可以達到最小。所以說這裡我們對方程式微分
所以
所以我們可以推出
也就是說今天我們把x_n投影後再還原為
而我們知道原本的數據
所以說訊息損失量，也就是原始數據和降維再重組數據的差為
接著我們把他帶入J_K
由於b_j構成了正交基底
又因為我們上面推導過
所以
套回去原本的最佳化問題
所以化簡到這裡我們一樣用Lagrange的方式去解
也就是說
所以我們可以透過找S的eigenvector和eigenvalue，並挑選出最小的D-K個就可以得到我們最佳化問題的解。
對於降維後再重組回來的數據，我們就可以寫成
Example接下來我們以實際例子看看，我們用sin函數產生資料X，然後總共六個特徵
K=1
K=2
K=3
K=4
K=5
K=6
我們可以看到在PCA上，用另外一個觀點去做其效果幾乎一樣
Python Sample Code:
Github:
tomohiroliu22/Machine-Learning-AlgorithmContribute to tomohiroliu22/Machine-Learning-Algorithm development by creating an account on GitHub.
github.com
Reference:[1] Deisenroth, M. P., Faisal, A. A., & Ong, C. S. (2020). Mathematics for machine learning. Cambridge University Press.
--
--
Written by 劉智皓 (Chih-Hao Liu)1K Followers
·4 Following
豬屎屋AI RD，熱愛AI研究、LLM/SD模型、RAG應用、CUDA/HIP加速運算、訓練推論加速，同時也是5G技術愛好者，研讀過3GPP/ETSI/O-RAN Spec和O-RAN/ONAP/OAI開源軟體。
No responses yet
Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams