機器學習演算法：交叉驗證——（監督）學習器效能評估方法 [ sklearn.model_selection.cross_val_score()官方翻譯 ]

阿新 • • 發佈：2018-12-17

交叉驗證——（監督）學習器效能評估方法

一、思考：交叉驗證有什麼好值得我們使用的？

每個演算法模型都需要經過兩個階段：訓練和驗證。

1）一般情況下的，我們用的方法是：將原始資料集分為訓練資料集 & 測試資料集。

優點：是，但僅僅是思路正確。

缺點：思路正確，但是方法不夠高明。

分析：一方面，如果不把原始資料集劃分為訓練資料集&測試資料集，而是直接使用，結果會是過擬合、泛化能力極低（即模型完美於預測原始資料，完敗於預測原始樣本集之外的任何資料）；而劃分之後，就可以用訓練資料集訓練模型，得到演算法引數；

但是我們得到的這個演算法引數，其實是從一系列引數中對比的來的

，這意味著測試資料集的資訊會被間接地洩露出來，引數調整的越多、洩露得越多，測試資料集的意義越低；

所以為了防止這個問題，一個好的方法是從訓練資料集中劃出一部門資料我們稱之為“validation set”（驗證資料集），在用它評估得到的模型進行驗證；

最後再用測試資料集對標模型的輸出，檢驗演算法的泛化能力

——這即是它的優點；

2）另一方面，把原始資料集分割之後，用來訓練模型的資料集大大減小，同時訓練結果也更大的依賴於訓練資料集和測試資料集佔原始資料集的比重。

一個解決方法就是cross-validation（交叉檢驗），縮寫CV。

此時，任然需要一個測試資料集以進行最終評估，但是“validation set”

就不需要了。在名為k-fold CV的基本方法中，訓練集被分成k個較小的集合/k-folds（還有其他方法，但通常遵循相同的原則），然後如圖進行一下操作：

分別讓一個fold作為測試集，餘下部分作為訓練集，進行k次訓練，共計得到k個引數。最終使用均值作為最終的模型引數。

缺點：相同大小的資料集，需要進行更多的運算。

優點：最大特點是不再浪費validation set大小的資料，尤其是在樣本集不夠大的情況下。

二、如果我想在python使用cross-validation，怎麼操作呢？

一個簡單的方法就是引用cross_val_score()函式。官方文件連結。

1）首先認識一下CV函式：

sklearn.model_selection.cross_val_score(
estimator, 
X, 
y=None, 
groups=None, 
scoring=None, 
cv=’warn’, 
n_jobs=None, 
verbose=0, 
fit_params=None, 
pre_dispatch=‘2*n_jobs’, 
error_score=’raise-deprecating’)

2）舉個栗子：

我們用SVM()/support vector machines（支援向量機）中的SVC分類演算法為例：

from sklearn.model_selection import cross_val_score
clf = svm.SVC(kernal='linear', C=1)
scores = cross_val_score(clf, iris.data, iris.target, cv =5)
print(scores)

array([0.96..., 1.  ..., 0.96..., 0.96..., 1.        ])

3）認識常用引數：

3.1 必選引數部分：

estimator：就是自己選定的模型；

X：array型別資料。訓練集（自變數部分）；

3.2）可選引數部分：y：array型別資料。訓練集（因變數部分）；

cv：int型別。設定cross-validation的維度。輸入可以是：

· 測試最優k-fold值的 & 迭代產生的序列，

· 整數：自行設定k-fold的值，

· 不設定cv：使用預設值3，即k-fold=3，

· 用作交叉驗證迭代器的物件，

機器學習演算法：交叉驗證——（監督）學習器效能評估方法 [ sklearn.model_selection.cross_val_score()官方翻譯 ]

交叉驗證——（監督）學習器效能評估方法一、思考：交叉驗證有什麼好值得我們使用的？每個演算法模型都需要經過兩個階段：訓練和驗證。 1）一般情況下的，我們用的方法是：將原始資料集分為訓練資料集 & 測試資料集。優點：是，但僅僅是思路正確。缺點：思

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：多引數尋優

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：多引數尋優一、網格搜尋原理二、網格搜尋+交叉驗證用於多引數尋優的python實現 1、訓練模型及待尋優引數 2、直接迴圈巢狀實現網格搜尋 + cros

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：單一引數尋優

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：單一引數尋優一、交叉驗證的意義二、常用的交叉驗證方法 1、Hold one method 2、K-flod CV 3、Leave-One-Ou

機器學習演算法總結之XGBoost（下）實戰與調參

寫在前面當時想學習XGBoost這個演算法就是因為研究生課題需要，現在終於可以試一試啦，希望真的像大家說的那麼強（據說是很多資料科學家的ultimate weapon）。XGBoost原理已在前一篇有過說明：機器學習演算法總結之XGBoost（上） 1.

機器學習演算法之隨機森林（1）pyspark.mllib中的RF

spark的persist操作可以使得資料常駐記憶體，而機器學習最主要的工作——迭代，需要頻繁地存取資料，這樣相比hadoop來說，天然地有利於機器學習。 ———- 單機版。至於叢集的搭建——現在手頭最多兩臺電腦，後面再折騰。 1、安裝pysaprk

機器學習演算法原理與實踐（三）、卡爾曼濾波器演算法淺析及matlab實戰

卡爾曼濾波器是一種利用線性系統狀態方程，通過系統輸入輸出觀測資料，對系統狀態進行最優估計的演算法。而且由於觀測包含系統的噪聲和干擾的影響，所以最優估計也可看做是濾波過程。卡爾曼濾波器的核心

機器學習演算法原理與實踐（六）、感知機演算法

感知機感知機是二分類的線性分類模型，輸入為例項的特徵向量，輸出為例項的類別（取+1和-1）。感知機對應於輸入空間中將例項劃分為兩類的分離超平面。感知機旨在求出該超平面，為求得超平面匯入了基於誤分類的損失函式，利用梯度下降法對損失函式進行最優化（最優

Vue 2.0學習筆記：事件匯流排（EventBus）

許多現代JavaScript框架和庫的核心概念是能夠將資料和UI封裝在模組化、可重用的元件中。這對於開發人員可以在開發整個應用程式時避免使用編寫大量重複的程式碼。雖然這樣做非常有用，但也涉及到元件之間的資料通訊。在Vue中同樣有這樣的概念存在。通過前面一段時間的學習，Vue元件資料通訊常常會有父子元

AI產品經理必懂演算法：k-近鄰（KNN）演算法

我們之所以要了解演算法，不僅僅有利於和演算法同學的溝通，更能深入的理解人工智慧為產品賦能的過程，只有將這個過程瞭解透徹，才能清晰明確的把握產品的方向，挖掘產品的亮點。那麼，今天我們就從一個最為簡單、易懂的“k-近鄰（KNN）演算法”聊起，KNN屬於監督學習演算法，即可以用於分類，也可以用於迴歸，後續還會逐

python科學計算學習二：matplotlib繪圖（1）

matplotlib繪圖（1）部落格地址：http://blog.csdn.net/ikerpeng/article/details/20370041 matplotlib是python另一個非常重要的工具包。使用它可以繪製精美的圖表。它學起來也是非常容易。下

uCOS-II學習筆記：實時作業系統（一）

1.前後臺系統：前後臺系統的架構用一句話來形容的話，就是一個大的迴圈，加上中斷，就形成了一個整的體系。假設來了中斷需要處理模組3，如果模組3的處理是最緊迫的，但是當前cpu 只執行到模組1，這樣的話，必須還要承受模組2的執行時間延遲，才能輪到模組3的處理，當模組越多的

設計模式學習總結：外觀模式（Facade）

1.場景分析如下圖所示，我們有一個家庭影院系統，其中包含了調音器、擴音器、播放器、劇場光、爆米花機等部分：然後我們模擬使用這個系統來播放一部電影，則我們需要進行一下操作： //開啟爆米花機，開始爆米花 popper.on() popper.pop(

Azure學習筆記：Cloud Service（4）

<asp:Content ID="Content1" ContentPlaceHolderID="MainContent" runat="server"> <h1>Customer Information Management</h1> <p>

廣義交叉驗證（GCV）

廣義交叉驗證（Generalized Cross-Validation ,GCV） GCV=1N∑Nn=1[yn−f(Xn)]2[1−df/N]2=1NRSS[1−df/N]2GCV=1N∑n=1N[yn−f(Xn)]2[1−df/N]2=1NRSS[1−df

檢視動畫學習演算法和資料結構（一）（）

轉載請註明原出處：http://blog.csdn.net/lrs123123/article/details/43114619 這是一個寫給自己複習溫習的博文，不喜勿噴一、排序板塊 ①氣泡排序（BubbleSort）動畫展示： java程式碼： public

Tensorflow學習筆記：基礎篇（7）——Mnist手寫集改進版（Tensorboard視覺化）

Tensorflow學習筆記：基礎篇（7）——Mnist手寫集改進版（Tensorboard視覺化介面）前序 — 前文中，我們在三層全連線神經網路中使用了學習率隨迭代次數增加而逐漸衰減的AdamOptimizer優化器來完成MNIST資料的分類問題，最

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

規則化和模型選擇（Regularization and model selection）——機器學習：交叉驗證Cross validation

零問題提出在機器學習中的偏差與方差一文中提到了偏差與方差。那麼在多種預測模型，如線性迴歸(y=θTx)，多項式迴歸(y=θTx^(1~m))等，應使用那種模型才能達到偏差與方差的平衡最優？形式化定義：假設可選的模型集合是M={M1,M2,...,Md}，比如SVM，

【機器學習】交叉驗證（cross-validation）

1、什麼是交叉驗證交叉驗證（Cross validation)，交叉驗證用於防止模型過於複雜而引起的過擬合。有時亦稱迴圈估計，是一種統計學上將資料樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析，而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱

Udacity機器學習入門——交叉驗證（cross-validation）

測試資料可以讓你評估你的分類器或迴歸在獨立資料集上的效能，還能幫助你避免過度擬合在sklearn中訓練/測試分離載入資料集以適應線性SVM：from sklearn import datasets from sklearn.svm import SVC iris = dat

機器學習演算法：交叉驗證——（監督）學習器效能評估方法 [ sklearn.model_selection.cross_val_score()官方翻譯 ]

交叉驗證——（監督）學習器效能評估方法

一、思考：交叉驗證有什麼好值得我們使用的？

1） 一般情況下的，我們用的方法是：將原始資料集分為 訓練資料集 & 測試資料集。

2）另一方面，把原始資料集分割之後，用來訓練模型的資料集大大減小，同時訓練結果也更大的依賴於訓練資料集和測試資料集佔原始資料集的比重。

一個解決方法就是cross-validation（交叉檢驗），縮寫CV。

二、如果我想在python使用cross-validation，怎麼操作呢？

1）首先認識一下CV函式：

2）舉個栗子：

3）認識常用引數：

相關推薦

1）一般情況下的，我們用的方法是：將原始資料集分為訓練資料集 & 測試資料集。