機器學習_學習筆記系列(95)：孤立森林(Isolation Forest)

Jul 30, 2021

上一回我們介紹如何用One Class Support Vector Machine來做anomaly detection，而對於異常值檢測的演算法，我們依樣也可以用Decision Tree的架構來做，而這也是我們今天要來介紹的演算法「isolation forest」。

Isolation Forest

關於isolation forest其是由Fei Tony Liu、Kai Ming Ting和Zhi-Hua Zhou所提出，論文稱叫做

Isolation-based Anomaly Detection

對於isolation forest他的架構很有演算法的流程，跟我們之前所介紹的radom forest很像，會由多個tree的結構來構成。

而在資料當中，我們可以看到異常的點通常具備一個特點，就是他們很多特徵跟其他大部分的數據差非常多。所以說isolation forest做的事情就是把這些差距非常大的點分離出來。

而isolation的演算法如下

我們會透過執行迴圈，然後每次從資料集X取樣一些資料X’，帶入isolation tree演算法，並把我們的結果連集到isolation forest裡面。

而對於isolation tree的作法就是我們從取樣的資料集X’隨機挑一個feature，並從挑到的feature其所對應X’的最小值和最大值間，隨機挑一個值p，如果X’所對應這個被挑到的feature數值小於p就會被分到左邊，如果大於等於就會被分到右邊。

然後接下來的步驟就和decision tree做的事一樣，build up左右兩邊的subtree，然後繼續隨機挑一個feature並隨機設定一個值，再分成左右兩邊subtree，直到不能再分，也就是只剩下一筆資料為止。

而今天我們用這樣的方式分的話，我們可以發現，通常異常點在深度還很淺的時候，就會被分開了。所以我們可以透過執行以下演算法，找到tree某個leaf到root的距離

而最後我們得到多的isolation tree後，我們會給定深度限制，在這個限制深度以上的leaf就是我們isolation tree的異常值。所以最後我們再用ensemble learning的方式把多個isolation tree的結果合併起來，就是我們isolation預測異常值的結果。

接下來我們來看Isolation Forest的表現

我們可以看到，isolation forest可以將離群點標示出來達到我們anomaly detection的效果。

Python Sample Code:

Github:

Machine-Learning-Algorithm/孤立森林(Isolation Forest).ipynb at main ·…

Contribute to tomohiroliu22/Machine-Learning-Algorithm development by creating an account on GitHub.

github.com

Reference:

[1] Liu, F. T., Ting, K. M., & Zhou, Z. H. (2012). Isolation-based anomaly detection. ACM Transactions on Knowledge Discovery from Data (TKDD), 6(1), 1–39.

機器學習_學習筆記系列(95)：孤立森林(Isolation Forest)

Isolation Forest

Python Sample Code:

Machine-Learning-Algorithm/孤立森林(Isolation Forest).ipynb at main ·…

Contribute to tomohiroliu22/Machine-Learning-Algorithm development by creating an account on GitHub.

Reference:

Sign up to discover human stories that deepen your understanding of the world.

Free

Membership

Written by 劉智皓 (Chih-Hao Liu)

No responses yet