機器學習:模型評估和選擇
阿新 • • 發佈:2017-06-30
val 上一個 bootstrap 自助法 break all 誤差 rec 數據集
2.1 經驗誤差與擬合
精度(accuracy)和錯誤率(error rate):精度=1-錯誤率
訓練誤差(training error)或經驗誤差(empirical error)
泛化誤差(generalization error)
過擬合(overfitting)和欠擬合(underfitting)
過擬合:小明臉上一個傷口,機器人為沒上傷口才是小明,過分在意無關細節,導致該篩的沒篩到
欠擬合:身高170就是小明,結果小明好幾個
2.2 評估方法
2.2.1 留出法(hold-out)
常用做法是將大學2/3~4/5的樣本用於訓練,剩余樣本用於訓練
為同時保證訓練集和測試集的準確性,所占比例都不能過大或者過小
2.2.2 交叉驗證法(cross validation)
將數據集分為n份,n次選編號n的集合作為測試集,其余為訓練集驗證,求平均
常用的有“10次10折交叉驗證”
特例 :留一法(Leave-One-Out) m個樣品m個子集,則1個子集1個樣品;相對精確,可是計算量可能會比較大
2.2.3 自助法(bootstrapping)
為了彌補前兩種方法訓練集均小於數據集的缺陷
基於自助取樣(有放回取樣)
2.3 性能度量
2.3.1 錯誤率和精度
2.3.2 查準率(precision)和查全率(recall)
P-R圖,如果A曲線包住B曲線,則A好;如果有交叉,看平衡點(Break-Even point)大小
2.3.3 ROC和AUC
機器學習:模型評估和選擇