訓練模型：交叉驗證

阿新 • • 發佈：2018-06-23

計算其余 CI ron 包括樣本中大 IE justify

一.基本概述

用交叉驗證的目的是為了得到可靠穩定的模型。

消除測試集與訓練集選擇的不好，導致訓練的模型不好。

二.k折交叉驗證

K折交叉驗證，初始采樣分割成K個子樣本，一個單獨的子樣本被保留作為驗證模型的數據，其他K-1個樣本用來訓練。交叉驗證重復K次，每個子樣本驗證一次，平均K次的結果或者使用其它結合方式，最終得到一個單一估測。

這個方法的優勢在於，同時重復運用隨機產生的子樣本進行訓練和驗證，每次的結果驗證一次，10折交叉驗證是最常用的。

技術分享圖片

k 折交叉驗證通過對 k 個不同分組訓練的結果進行平均來減少方差，因此模型的性能對數據的劃分就不那麽敏感。

k 一般取 10，
數據量小的時候，k 可以設大一點，這樣訓練集占整體比例就比較大，不過同時訓練的模型個數也增多。
數據量大的時候，k 可以設小一點。

當 k＝m 即樣本總數時，叫做 3. 留一法（Leave one out cross validation）

，每次的測試集都只有一個樣本，要進行 m 次訓練和預測。
這個方法用於訓練的數據只比整體數據集少了一個樣本，因此最接近原始樣本的分布。
但是訓練復雜度增加了，因為模型的數量與原始數據樣本數量相同。
一般在數據缺乏時使用。

此外：

還有一種比較特殊的交叉驗證方式，Bootstrapping： 通過自助采樣法，即在含有 m 個樣本的數據集中，每次隨機挑選一個樣本，再放回到數據集中，再隨機挑選一個樣本，這樣有放回地進行抽樣 m 次，組成了新的數據集作為訓練集。

這裏會有重復多次的樣本，也會有一次都沒有出現的樣本，原數據集中大概有 36.8% 的樣本不會出現在新組數據集中。

優點是訓練集的樣本總數和原數據集一樣都是 m，並且仍有約 1/3 的數據不被訓練而可以作為測試集。
缺點是這樣產生的訓練集的數據分布和原數據集的不一樣了，會引入估計偏差。
此種方法不是很常用，除非數據量真的很少。

訓練模型：交叉驗證

計算其余 CI ron 包括樣本中大 IE justify 一.基本概述用交叉驗證的目的是為了得到可靠穩定的模型。消除測試集與訓練集選擇的不好，導致訓練的模型不好。二.k折交叉驗證 K折交叉驗證，初始采樣分割成K個子樣本，一個單獨的子樣本被保留作為驗證模型的