整合學習以及分類樣本不均衡問題

阿新 • • 發佈：2019-01-20

整合學習簡介參考如下：
整合學習簡介

1 如何提高整合學習方法的泛化效能

整合學習是由多個基學習器通過一定方式形成，多個基學習器可以同類型也可以不同型別，當基學習器具有較大差異性時，形成互補，做到“好而不同”可以提高整合學習的泛化效能。如何增強整合學習的差異性（多樣性）？答案是，引入隨機性。常見做法如下所示：
1）加入資料樣本擾動：例如bagging演算法的輸入樣本重取樣（有放回的取樣出與原始樣本容量相同的新樣本），對輸入樣本擾動敏感的不穩定學習器例如決策樹、神經網路等適合此種方式，但是要注意，有的基學習器對該擾動不敏感，例如，線性迴歸、支援向量機、樸素貝葉斯、K近鄰該類學習器稱為穩定學習器。
2）輸入屬性擾動：最經典的例子是隨機森林，傳統的決策樹是從某個特徵所有的屬性值中選出最優的切分點進行資料樣本劃分，但是隨機森林是，隨機選取某個特徵部分屬性值作為屬性子集，並從該子集中選出最優的切分點；此外較為注著名的是隨機子空間演算法，依賴於輸入屬性擾動。
3）輸出表示擾動：（1）翻轉法：改變一些訓練樣本的標籤；（2）輸出調製法：分類輸出轉化成迴歸輸出；（3）將原任務拆分為多個子任務同時執行，例如利用糾錯碼將多分類任務拆解為一系列二分類任務來訓練基學習器。
4）演算法引數擾動：例如改變神經網路的隱層節點數，初始權重，學習率等。

2 分類不均衡問題解決方案

在這裡，分類不均衡問題是指：分類任務中不同類別的訓練樣例數目差別很大的情況。同時，注意區分 非均等類別代價問題，即將正例誤分為反例的代價與將反例誤分為正例的代價不同。

2.1 針對分類不均衡問題主要技術
1）對樣例數目較多的類別進行欠抽樣（undersampling）

代表性演算法EasyEnsemble，利用整合學習機制，將該類別劃分為若干個集合共不同學習器使用，對於每個學習器來說都是欠取樣，但從全域性來看卻不會丟失重要資訊。

2）對樣例數目較少的類別進行過抽樣（oversampling）

過抽樣不是簡單的對樣本進行重複抽樣，否則會招致嚴重過擬合，過取樣的代表演算法是SMOTE，是通過對訓練集中的樣例進行插值來產生額外的樣例。

3）再縮放（再平衡）技術

該技術也可解決非均等類別代價問題，即給較少類給多的權重，較多類更少的權重，縮放因子可以為，類別樣例數目的比值或者誤判代價的比值。

3 參考文獻
機器學習第三章———-周東華
機器學習實踐第七章—–李銳、李鵬譯

整合學習以及分類樣本不均衡問題

1 如何提高整合學習方法的泛化效能

2 分類不均衡問題解決方案

整合學習以及分類樣本不均衡問題

如何解決機器學習深度學習訓練集樣本不均衡的問題！

機器學習中訓練樣本不均衡問題

機器學習——樣本不均衡的處理方式

CSDN機器學習筆記七實戰樣本不均衡資料解決方法

如何解決分類問題中樣本不均衡問題

深度學習樣本不均衡問題解決

機器學習-10：MachineLN之樣本不均衡

如何解決樣本不均衡問題

Sklearn-LogisticRegression邏輯迴歸(有處理樣本不均衡時設定引數的方法)

AiChallenger比賽記錄之樣本不均衡

樣本不均衡解決辦法

文字分類 - 樣本不平衡的解決思路與交叉驗證CV的有效性

13.解決樣本不均衡問題

處理樣本不均衡數據

解決樣本不均衡問題-SMOTE

樣本不均衡問題--過擬合欠擬合抽樣

連續值、缺失值、正負樣本不均衡處理方法

為什麼ROC曲線不受樣本不均衡問題的影響

整合學習-弱分類器與AdaBoost簡介西瓜書

整合學習以及分類樣本不均衡問題

1 如何提高整合學習方法的泛化效能

2 分類不均衡問題解決方案

相關推薦