機器學習_學習筆記系列(37)：隨機森林回歸(Random Forest Regressor)

May 19, 2021

上一回我們介紹Random Forest演算法來解決分類上的問題，接下來我們要來講其如何解決回歸上的問題。

Random Forest Regressor

其實概念上來說，其實也是太同小異啦，就是用Bagging方法，隨機抽取資料後再訓練一個regression tree，最後再把這些base learner結合起來。

關於詳細的步驟，我們先假設我們有N筆資料，其輸入資料為x輸出資料為y。然後我們所設定的迴圈數有M個，也就是說最後我們會得到M個Regression Tree Models。

接著我們從這N筆資料裡面隨機抽樣N筆，抽取的資料是可以重複的。然後我們就用這些抽出來的資料訓練出一個Regression Tree。結束後就進入下一個迴圈，然後用相同的方式訓練出另一個Regression Tree，直到迴圈執行完M次為止。

而在最後我們得到M個Regression Tree Models後，我們就將這些資料在這M個models的預測結果取平均，最後得出來的就是我們Random Forest Regressor所預測的數值。

接下來我們實際以Python來實現我們的Random Forest Regressor。在這裡我們刻意設計我們的數據點，為二次函數加上sin函數。順帶一提在先前Decision Tree Regressor的章節我們提到過，像是這種加上sin或cos的趨勢，如果用一般的Polynomial Regression訓練出來的model會效能非常差，因為他大概只能抓到二次函數的趨勢，而Decision Tree Regressor可以很好的擬合到sin和cos的周期性變化。

所以我們先來看一下Decision Tree Regressor其樹層樹等於3的表現