交叉驗證法及Bootstrap取樣

阿新 • • 發佈：2019-01-31

一、Cross Validation（交叉驗證）

1. 解決的問題

用於驗證分類器的效能的資料分析方法，可以抽樣（抽取合適的訓練集和測試集）、可以評估模型（計算模型的預測誤差）。

2. 如何解決

基本原理：將原始資料分組，一部分做訓練集，一部分做測試集。如k-fold cross validation均分成n組，抽取一組為測試集，剩下n-1組為訓練集，依次抽遍，測試結果取預測誤差平均值。

演算法步驟：

Step1: 將學習樣本空間 C分為大小相等的 K份

Step2: fori =1 to K：

取第i份作為測試集

forj =1 to K:

ifi !=j:

將第j份加到訓練集中，作為訓練集的一部分

endif

endfor

Step3: fori in (K-1訓練集)：

訓練第i個訓練集，得到一個分類模型

使用該模型在第N個數據集上測試，計算並儲存模型評估指標

endfor

Step4: 計算模型的平均效能

Step5: 用這K個模型在最終驗證集的分類準確率平均值作為此K-CV下分類器的效能指標.

實現抽樣：（matlab/python裡的scikit-learn庫sklearn.cross_validation）

（1）K-fold（K組）

from sklearn.model_selection import KFold

X=["a","b","c","d"]

kf=KFold(n_splits=4)//分成四組，訓練四次

for train,test in kf.split(X):

print("%s %s" % (train,test))

>>>

[1 2 3] [0]

[0 2 3] [1]

[0 1 3] [2]

[0 1 2] [3]

（2）Repeated K-Fold（隨機分組n次，每次按K組分）

import numpy as np

from sklearn.model_selection import RepeatedKFold

X=np.array([[1,2],[3,4],[1,2],[3,4]])

random_state=12883823

rkf=RepeatedKFold(n_splits=2,n_repeats=2,random_state=random_state)//隨機分成兩組，隨機分組兩次

for train,test in rkf.split(X):

print("%s %s" % (train,test))

>>>

[2 3] [0 1]

[0 1] [2 3]

[0 2] [1 3]

[1 3] [0 2]

（3）LeaveOneOut/LeavePOut（隨機拿出P個數據作為測試集）

from sklearn.model_selection import LeavePOut/LeaveOneOut

X=[1,2,3,4]

lpo=LeavePOut(p=2)/LeaveOneOut()

for train,test in lpo.split(X):

print("%s %s" % (train,test))

>>>

[2 3] [0 1]

[1 3] [0 2]

[1 2] [0 3]

[0 3] [1 2]

[0 2] [1 3]

[0 1] [2 3]

（4）ShuffleSplit（洗牌加隨機抽樣）

import numpy as np

from sklearn.model_selection import ShuffleSplit

X=np.arange(5)

ss=ShuffleSplit(n_splits=3,test_size=2/5,random_state=0)//隨機抽三次，每次抽出測試資料佔2/5）

for train_index,test_index in ss.split(X):

print("%s %s" % (train_index,test_index))

>>>

[1 3 4] [2 0]

[1 4 3] [0 2]

[4 0 2] [1 3]

PS:一個不均衡樣本的例項：http://blog.csdn.net/dream_angel_z/article/details/47110077

3. 優缺點

優點：幾乎能夠訓練到所有資料

缺點：如何確定K的最佳取值（也許碰運氣吧）

二、自助法(Bootstrap)

1. 可以解決的問題

是一種統計方法，適用於小樣本抽樣，可以劃分train/test，可以通過方差估計構造置信區間。（整合學習中的bagging有運用）。

2. 如何解決

基本原理：其實就是利用樣本再生成自助樣本，自助樣本估計樣本，樣本再估計總體。在原始資料中有放回的隨機抽樣，樣本容量仍為n，所得樣本稱為bootstrap樣本。

演算法步驟：

#這個虛擬碼自己寫的，希望可以得到改正

fori =1 to K：

第i次取樣

iflen(train) < m:

隨機抽取一個數據新增到train

endfor

Python實現：(用bootstrap抽樣)

import random

#抽樣物件

class Sampling(object):

def__init__(self):

pass

defsampling(self):

pass

#bootstrap抽樣

class BootStrap(Sampling):

def __init__(self,n_samples):

self.n_samples=n_samples

def sampling(self):

_slice=[]

whilelen(_slice)<self.n_samples:

p=random.randrange(0,self.n_samples)

_slice.append(p)

return _slice

if __name__ == '__main__':

bootstrap=BootStrap(10)//樣本數十個，則bootstrap樣本容量也為10

for i inrange(5)://bootstrap抽樣次數為5，即抽出五組

_slice=bootstrap.sampling()

print(_slice)

>>>

[8, 0, 6, 2, 8, 7, 2, 6, 7, 1]

[7, 1, 4, 6, 6, 0, 5, 1, 3, 8]

[2, 1, 2, 6, 1, 0, 0, 1, 3, 8]

[1, 4, 4, 2, 5, 9, 4, 6, 0, 1]

[8, 7, 3, 5, 4, 9, 3, 9, 4, 3]

PS:資料前處理例項

https://github.com/Lehyu/pyml/tree/9bcb213b5bd5702f9b7df5d03f3fedcad32e08ae/preprocessing

3. 優缺點

優點：在資料集較小時適合使用；可以從原始資料中產生多個訓練集。

缺點：改變了原始資料的分佈，會引入估計偏差。

如何劃分訓練集/驗證集/測試集？

交叉驗證法及Bootstrap取樣

一、Cross Validation（交叉驗證） 1. 解決的問題用於驗證分類器的效能的資料分析方法，可以抽樣（抽取合適的訓練集和測試集）、可以評估模型（計算模型的預測誤差）。 2. 如何解決

第七章經驗誤差，過擬合與評估方法（留出法，交叉驗證法，自助法）

過擬合：完美實際希望的，在新樣本上表現的很好的學習器。為了達到這個目的，應該從訓練樣本中學習出適用於所有潛在樣本的普遍規律，然而，學習器把樣本學的太好，會把訓練樣本自身的一些特點當前潛在樣本會有的特質，這樣會導致泛化效能下降。與之相反的是欠擬合，對訓練樣本一般性質尚未學好評估方法

模型評估：交叉驗證法

K折交叉驗證(K-fold cross-validation): 將樣本分成K份，每份數量大致相等，然後用其他的某一份作為測試，其他樣本作為訓練集，得到一個模型和一組預測值及模型評估值；迴圈這個過程K次，得到K組模型評估值，對其取平均值即得到最終的評估結果 from skle

Jquery Validate 默認校驗規則及常用的自定義驗證規則

字符 eth ber exp string amp 手機 zip 子郵件 Jquery Validate 相關參數及常用的自定義驗證規則一、官網地址：http://bassistance.de/jquery-plugins/jquery-plugin-validatio

CRC校驗原理及步驟

ext 是把 nsf 其它結果 aci 發送二進制 padding 什麽是CRC校驗？ CRC即循環冗余校驗碼：是數據通信領域中最常用的一種查錯校驗碼，其特征是信息字段和校驗字段的長度可以任意選定。循環冗余檢查（CRC）是一種數據傳輸檢錯功能，對數據進行多項式計算，並將

CRC校驗原理及步驟（轉載只是為了查閱方便，若侵權立刪）

什麼是CRC校驗？ CRC即迴圈冗餘校驗碼：是資料通訊領域中最常用的一種查錯校驗碼，其特徵是資訊欄位和校驗欄位的長度可以任意選定。迴圈冗餘檢查（CRC）是一種資料傳輸檢錯功能，對資料進行多項式計算，並將得到的結果附在幀的後面，接收裝置也執行類似的演算法，以保證資料傳輸的正確性和完整性。 &n

樹莓派交叉編譯環境及wiringPi庫

首先，我的硬體是樹莓派3b+，需求是： 1.在主機上使用樹莓派的編譯器，生成樹莓派可執行檔案 2.在主機上使用樹莓派的動態連結庫，如pthread、wiringPi等樹莓派的交叉編譯環境還算好弄的，解壓 ->

Python和PyTorch對比實現多標籤softmax + cross-entropy交叉熵損失及反向傳播

相關關於 softmax + cross-entropy 的詳細介紹, 請參考 : BrightLamp. 多標籤softmax + cross-entropy交叉熵損失函式詳解及反向傳播中的梯度求導[EB/OL]. https://blog.csdn.net

交叉驗證原理及Spark MLlib使用例項(Scala/Java/Python)

交叉驗證方法思想： CrossValidator將資料集劃分為若干子集分別地進行訓練和測試。如當k＝3時，CrossValidator產生3個訓練資料與測試資料對，每個資料對使用2/3的資料來訓練，1/3的資料來測試。對於一組特定的引數表，CrossVali

CRC校驗演算法及實現 C

標準CRC生成多項式如下表：名稱生成多項式簡記式* 標準引用 CRC-4 x4+x+1 3 ITU G.704 CRC-8 x8+x5+x

Jquery Validate 預設校驗規則及常用的自定義驗證規則

二、預設校驗規則 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 (1)、required:true

CRC的校驗原理及硬體、軟體演算法實現

轉自：http://blog.163.com/yucheng_xiao/blog/static/76600192201393092918776/ 一、基本原理 CRC檢驗原理實際上就是在一個p位二進位制資料序列之後附加一個r位二進位制檢驗碼(序列)，從而構成一個總長為n＝p＋r位的二進位制序

MODBUS CRC校驗原理及C語言實現

MODBUS通訊協議的CRC校驗原理多項式為8005的逆序A001列01的CRC校驗原理：1111111111111111 初始化CRC寄存機0000000000000

先驗概率與後驗概率及貝葉斯公式

轉自：http://blog.csdn.net/passball/article/details/5859878 先驗概率與後驗概率事情還沒有發生,要求這件事情發生的可能性的大小,是先驗概率. 事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小,是

PHP中使用Luhn演算法校驗信用卡及借記卡卡號

Luhn演算法會通過校驗碼對一串數字進行驗證，校驗碼通常會被加到這串數字的末尾處，從而得到一個完整的身份識別碼。我們以數字“7992739871”為例，計算其校驗位：從校驗位開始，從右往左，偶數位乘2（例如，7*2=14），然後將兩位數字的個位與十位相

IMEI校驗思路及程式碼

<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> </head> <b

CRC迴圈冗餘校驗學習及總結

一、什麼是CRC冗餘校驗？迴圈冗餘校驗(Cyclic Redundancy Check, CRC)是一種根據網路資料包或電腦檔案等資料產生簡短固定位數校驗碼的一種雜湊函式，主要用來檢測或校驗資料傳輸

CRC32校驗原理及實現

CRC即迴圈冗餘校驗(Cyclic Redundancy Check)：是資料通訊領域中最常用的一種差錯校驗碼，其特徵是資訊欄位和校驗欄位的長度可以任意選定。 CRC校驗實用程式庫：在資料儲存和資料通訊領域，為了保證資料的正確性，就不得不採用檢錯的手段。 CRC碼校驗原理：

混淆矩陣（交叉表）及Kappa係數的計算

　　交叉分類表，是以兩個不同時期的地理實體型別為橫縱座標的表格。 ①用於參照的時期的型別位於表格的上方，按照橫方向排列 ②用以比較的時期的型別位於表格的左方，垂直排列 ③在橫縱座標上型別的排列順序一致 ④位於對角線上的方格中記錄的是兩個時期的資料集中

jquery表單校驗規則及示例

jquery表單校驗，必須引入jquery.validator.js檔案。 1、js的$(function(){}中初始化校驗引數及校驗規則； $(function () { var $form = $('#addJobInfo'); var $form =

交叉驗證法及Bootstrap取樣

相關推薦