機器學習筆記（四）機器學習可行性分析

阿新 • • 發佈：2017-05-09

資料表示 image 隨機訓練樣本 -s mage 例如 lin

技術分享

從大量數據中抽取出一些樣本，例如，從大量彈珠中隨機抽取出一些樣本，總的樣本中橘色彈珠的比例為技術分享，抽取出的樣本中橘色彈珠的比例為，這兩個比例的值相差很大的幾率很小，數學公式表示為：

技術分享

用抽取到的樣本作為訓練樣本集（in-sample），可以求得一個最佳的假設g，該假設最大可能的接近目標函數f，但是在訓練樣本集之外的其他樣本（out-of-sample）中，假設g和目標函數f可能差別很遠，不能說抽取樣本分布等同於所有樣本的分布，只是大致相近。

二者的錯誤幾率相差為：

技術分享

當數據資料足夠多，且模型H集合有有限個的選擇，可以得到Ein和Eout是大致相等的

技術分享

機器學習筆記（四）機器學習可行性分析

資料表示 image 隨機訓練樣本 -s mage 例如 lin 從大量數據中抽取出一些樣本，例如，從大量彈珠中隨機抽取出一些樣本，總的樣本中橘色彈珠的比例為，抽取出的樣本中橘色彈珠的比例為，這兩個比例的值相差很大的幾率很小，數學公式表示為：用抽取到的樣本作為訓練