1. 程式人生 > >機器學習中的偏差和方差

機器學習中的偏差和方差

當一個模型確定時,我們需要對其進行診斷,判斷這個模型是否存在過擬合或者欠擬合。通過偏差與方差我們可以很快捷的評價當前的模型。

偏差與方差的直觀理解

偏差:就是偏離的意思,與“標準”之間的差距。 方差:是離散程度,波動程度的意識。

在這裡插入圖片描述

圖1,2的偏差都比較小(都能在靶心的範圍內),但是圖1的方差更小(資料集中),而圖2則方差更大(資料發散)。 圖3,4的偏差都比較大(已經脫離了靶心位置)

從機器學習方面理解:

偏差:反映的是模型的擬合能力 方差:反映的是模型的泛化能力

在機器學習中評價模型通常用代價函式JJ,JtrainJ_{train}表示訓練的誤差,JvalJ_{val}

val表示驗證時誤差,通過JtrainJ_{train}JvalJ_{val}可以得出模型的偏差與方差情況。

高偏差對應著JtrainJ_{train}JvalJ_{val}都大,並且JtrainJ_{train}約等於JvalJ_{val},這意味著欠擬合。 高偏差對應著JtrainJ_{train}較小,而JvalJ_{val}遠大於JtrainJ_{train},這意味著過擬合。 在這裡插入圖片描述

當模型屬於高偏差(欠擬合)時,不斷增大訓練的資料規模,模型效能不會有什麼改善,因為欠擬合一般是模型比較簡單,不能準確描述資料的特徵,因此盲目增大資料量是沒什麼用。 當模型資料低偏差,高方差(過擬合),不斷增大訓練資料模型,過擬合誤差會逐漸減少,因為過擬合是因為模型複雜,描述資料的特徵過於精準,所以增大資料量能減少過擬合。