1. 程式人生 > >機器學習基石筆記-Lecture 4 Learning is possible

機器學習基石筆記-Lecture 4 Learning is possible

odi ima ffd containe 概率 count lin comm learning

hoeffding 不等式 說明了在樣本量足夠大時,抽樣估計能夠接近真實值。

技術分享

技術分享

類比到ml中,對給定的一個假設空間中的h, 它在整個樣本空間中的表現可以由在部分樣本點上的表現來近似。也就是說樣本足夠多的時候,Ein與Eout近似相等。

技術分享

現在已經知道對任意給定的h,在N足夠大時,Ein近似於Eout,如果 Ein 非常小,那麽Eout也就小,就說明這個 h 和 真實的 f 在很大概率上是很接近的。

技術分享

現在的一個問題是,如果在多個假設中,其中一個假設h針對訓練數據的輸出都是正確的,也就是Ein為0,是不是就應該選擇這個h作為算法A的輸出?

這裏提出一個 bad data的概念,對一個數據集D,h的Ein和Eout差別很大,那麽這個數據集D就是不好的。

hoeffding不等式其實是對樣本空間的一個“抽樣”窮舉,然後在很多次的抽樣中,只有很少次的抽樣是bad data,也就是讓Ein和Eout差別比較大。所有說很大概率上Ein和Eout近似。

技術分享

對多個假設函數而言的bad data定義:

技術分享

對每一行h,根據hoeffding不等式,bad data的概率是很小的

對每一列Di,如果在某些h上是bad data,那麽A就不能自由的選擇。

像D1126就是對整個假設空間H或者說算法A是一個好的數據集(個人理解)

技術分享

對有M個h的假設空間,bad data出現的概率被限制住

技術分享

至此,對有限基數的假設空間,只要N足夠大,不管A如何選g,訓練數據如何選取,g的訓練錯誤率和真實的錯誤率都很接近。

只要算法A找到一個Ein很小的g,那麽就能夠用來接近真實f。這樣算法就有可能學到有用的知識。

技術分享

機器學習基石筆記-Lecture 4 Learning is possible