機器學習中的偏差和方差
阿新 • • 發佈:2018-12-13
當一個模型確定時,我們需要對其進行診斷,判斷這個模型是否存在過擬合或者欠擬合。通過偏差與方差我們可以很快捷的評價當前的模型。
偏差與方差的直觀理解
偏差:就是偏離的意思,與“標準”之間的差距。 方差:是離散程度,波動程度的意識。
圖1,2的偏差都比較小(都能在靶心的範圍內),但是圖1的方差更小(資料集中),而圖2則方差更大(資料發散)。 圖3,4的偏差都比較大(已經脫離了靶心位置)
從機器學習方面理解:
偏差:反映的是模型的擬合能力 方差:反映的是模型的泛化能力
在機器學習中評價模型通常用代價函式,表示訓練的誤差,表示驗證時誤差,通過、可以得出模型的偏差與方差情況。
高偏差對應著、都大,並且約等於,這意味著欠擬合。
高偏差對應著較小,而遠大於,這意味著過擬合。
當模型屬於高偏差(欠擬合)時,不斷增大訓練的資料規模,模型效能不會有什麼改善,因為欠擬合一般是模型比較簡單,不能準確描述資料的特徵,因此盲目增大資料量是沒什麼用。 當模型資料低偏差,高方差(過擬合),不斷增大訓練資料模型,過擬合誤差會逐漸減少,因為過擬合是因為模型複雜,描述資料的特徵過於精準,所以增大資料量能減少過擬合。