機器學習_學習筆記系列(02)：怎麼知道機器有在學習?

劉智皓 (Chih-Hao Liu)

Dec 27, 2020

在機器學習當中，我們也提到了，我的目標是想從輸入資料x和輸出資料y中，找出一個規則f。

但當我們的數據有限，而且我們真的不知道這個規則f的時候，我們怎麼知道這個f是對的。

舉個例子，假如小名，禮拜一和四，晚上待在家裡打電動，禮拜二和五，晚上去健身，禮拜三和六，晚上去逛街，那他禮拜天到底會在家打電動還是去健身還是去逛街呢？

那我們現在就要來告訴大家，要怎麼讓機器真正學習到，能推敲出其中的一些規則，還有推敲規則時，有哪些條件限制。

以下內容引用來源在[1]

首先我們要先引入一個統計實驗為例子，假設有一袋彈珠，裡面只有黑和白兩種顏色，黑色彈珠在袋子裡面的比例為u，白色為1-u，但是我們現在不知道實際比例，所以我們從彈珠裡面拿N個彈珠，算算看黑色幾個，白色幾個，所以我們算出

估計值v=黑色彈珠數量/所有抽出彈珠數量N。

我們也知道當我們抽得越多次，v就會越接近真實比例u，但我們永遠還是不知道u是多少。

所以我們在這裡引入一個式子叫做霍夫丁不等式(Hoeffding's inequality)

這裡的ϵ是我們自己的定義的值。

那這個式子的意義是什麼？首先看到左邊，這裡的意思就是我們實驗的值v和實際值u，相差的大小大於我們所定義的值ϵ的機率。

具體來說，可以把ϵ當成實驗的品質，如果今天ϵ很大，假如|v-u|>ϵ成立，那代表我們的實驗v超級不準，但是超級不準的情況機率很低，所以可以看到當ϵ越大，右邊的值也會越小。當然如果我們將抽彈珠的次數增加，發生超級不準情況的機率就會降低，所以可以看到N增加右邊數值也會減少。

霍夫丁不等式 VS機器學習

那這個不等式和機器能不能學習有什麼關係??

在彈珠的例子套用在機器學習上，我們可以把我們不知道真正的黑色彈珠比例u類比成我們不知道的規則f。

我們現在有一個資料庫D，從裡面挑N個資料，就像我們從袋子抽出N個彈珠一樣，如果抽出的輸入資料x套入假設公式h(x)=f(x)，代表其為白色彈珠，反之不等於，代表黑色彈珠，那機率v代表我們抽出的資料，會有多少比例當我們套入x到假設公式h和實際公式f後他們不相等。

這裡解惑一下，雖然不知道f，但是我們知道f(x)，想起來了嗎f(x)=y，就是輸出資料。

而套入霍夫丁不等式裡，如果ϵ很大，|v-u|>ϵ成立，代表v和u差很多，意思就是我們從資料庫裡面抽出來的這N個資料，得出h(x)不等於f(x)的比例，和實際上h(x)不等於f(x)的比例差很多。

那這裡大家就會想，假如v非常接近0，那不就代表我們的假設h(x)=f(x)的比例很大，我們的假設非常成功嗎?

但是這裡還有一個問題就是實際狀況是這麼一回事嗎？雖然v很接近0，但是實際上這個假設h可能很失敗，也就是u很接近1。

回到剛剛霍夫丁不等式，|v-u|>ϵ

假如我們選的N筆資料看起來很成功，讓v=0.01，但是實際上u=0.9，那他超過ϵ的機率就很大，意義上不就是我們取的數量N太少，才會讓v跟u差那麼多嗎?
換個例子，假如v=0.01，u=0.02，那麼他超過ϵ的機率就會很小，這代表我們選的N筆資料夠多，而且我們的假設h很好非常接近f。
另一個極端的例子就是v=0.9，u=0.91，雖然這代表我們取的資料非常接近實際狀況，但是他的v很大，表示我們的假設h很差。

而在這邊我們定義一些符號，把他寫得更直接一點。我們把我們取樣的錯誤率v定義為