1. 程式人生 > >機器學習:模型評估和選擇

機器學習:模型評估和選擇

val 上一個 bootstrap 自助法 break all 誤差 rec 數據集

2.1 經驗誤差與擬合

精度(accuracy)和錯誤率(error rate):精度=1-錯誤率

訓練誤差(training error)或經驗誤差(empirical error)

泛化誤差(generalization error)

過擬合(overfitting)和欠擬合(underfitting)

過擬合:小明臉上一個傷口,機器人為沒上傷口才是小明,過分在意無關細節,導致該篩的沒篩到

欠擬合:身高170就是小明,結果小明好幾個

2.2 評估方法

2.2.1 留出法(hold-out)

常用做法是將大學2/3~4/5的樣本用於訓練,剩余樣本用於訓練

為同時保證訓練集和測試集的準確性,所占比例都不能過大或者過小

2.2.2 交叉驗證法(cross validation)

將數據集分為n份,n次選編號n的集合作為測試集,其余為訓練集驗證,求平均

常用的有“10次10折交叉驗證”

特例 :留一法(Leave-One-Out) m個樣品m個子集,則1個子集1個樣品;相對精確,可是計算量可能會比較大

2.2.3 自助法(bootstrapping)

為了彌補前兩種方法訓練集均小於數據集的缺陷

基於自助取樣(有放回取樣)

2.3 性能度量

2.3.1 錯誤率和精度

2.3.2 查準率(precision)和查全率(recall)

P-R圖,如果A曲線包住B曲線,則A好;如果有交叉,看平衡點(Break-Even point)大小

2.3.3 ROC和AUC

機器學習:模型評估和選擇