1. 程式人生 > >整合學習以及分類樣本不均衡問題

整合學習以及分類樣本不均衡問題

整合學習簡介參考如下:
整合學習簡介

1 如何提高整合學習方法的泛化效能

整合學習是由多個基學習器通過一定方式形成,多個基學習器可以同類型也可以不同型別,當基學習器具有較大差異性時,形成互補,做到“好而不同”可以提高整合學習的泛化效能。如何增強整合學習的差異性(多樣性)?答案是,引入隨機性。常見做法如下所示:
1)加入資料樣本擾動:例如bagging演算法的輸入樣本重取樣(有放回的取樣出與原始樣本容量相同的新樣本),對輸入樣本擾動敏感的不穩定學習器例如決策樹、神經網路等適合此種方式,但是要注意,有的基學習器對該擾動不敏感,例如,線性迴歸、支援向量機、樸素貝葉斯、K近鄰該類學習器稱為穩定學習器。
2)輸入屬性擾動:最經典的例子是隨機森林,傳統的決策樹是從某個特徵所有的屬性值中選出最優的切分點進行資料樣本劃分,但是隨機森林是,隨機選取某個特徵部分屬性值作為屬性子集,並從該子集中選出最優的切分點;此外較為注著名的是隨機子空間演算法,依賴於輸入屬性擾動。
3)輸出表示擾動:(1)翻轉法:改變一些訓練樣本的標籤;(2)輸出調製法:分類輸出轉化成迴歸輸出;(3)將原任務拆分為多個子任務同時執行,例如利用糾錯碼將多分類任務拆解為一系列二分類任務來訓練基學習器。
4)演算法引數擾動:例如改變神經網路的隱層節點數,初始權重,學習率等。

2 分類不均衡問題解決方案

在這裡,分類不均衡問題是指:分類任務中不同類別的訓練樣例數目差別很大的情況。同時,注意區分 非均等類別代價問題,即將正例誤分為反例的代價與將反例誤分為正例的代價不同。

2.1 針對分類不均衡問題主要技術
1) 對樣例數目較的類別進行抽樣(undersampling)

代表性演算法EasyEnsemble,利用整合學習機制,將該類別劃分為若干個集合共不同學習器使用,對於每個學習器來說都是欠取樣,但從全域性來看卻不會丟失重要資訊。

2) 對樣例數目較的類別進行抽樣(oversampling)

過抽樣不是簡單的對樣本進行重複抽樣,否則會招致嚴重過擬合,過取樣的代表演算法是SMOTE,是通過對訓練集中的樣例進行插值來產生額外的樣例。

3)再縮放(再平衡)技術

該技術也可解決非均等類別代價問題,即給較少類給多的權重,較多類更少的權重,縮放因子可以為,類別樣例數目的比值或者誤判代價的比值。

3 參考文獻
機器學習第三章———-周東華
機器學習實踐第七章—–李銳、李鵬譯

相關推薦

整合學習以及分類樣本均衡問題

整合學習簡介參考如下: 整合學習簡介 1 如何提高整合學習方法的泛化效能 整合學習是由多個基學習器通過一定方式形成,多個基學習器可以同類型也可以不同型別,當基學習器具有較大差異性時,形成互補,做到“好而不同”可以提高整合學習的泛化效能。如何增強整合學習的差

如何解決機器學習深度學習訓練集樣本均衡的問題!

解決樣本不均衡的問題很多,主流的幾個如下: 1.樣本的過取樣和欠取樣。 2..使用多個分類器進行分類。 3.將二分類問題轉換成其他問題。 4.改變正負類別樣本在模型中的權重。 一、樣本的過取樣和欠取樣。 1.過取樣:將稀有類別的樣本進行復制,通過增加此稀有

機器學習中訓練樣本均衡問題

在實際中,訓練模型用的資料並不是均衡的,在一個多分類問題中,每一類的訓練樣本並不是一樣的,反而是差距很大。比如一類10000,一類500,一類2000等。解決這個問題的做法主要有以下幾種: 欠取樣:就是把多餘的樣本去掉,保持這幾類樣本接近,在進行學習。(可能會導致過擬合)

機器學習——樣本均衡的處理方式

版權宣告:本文為博主辛苦碼出來滴~,才疏學淺,如有不對盡請指正,未經博主允許不得轉載。 本片博文主要是對機器學習的分類問題中存在的樣本不均衡情況的處理說明,具體如下: 當對資料進行分類訓練的時候,有時候會出現原始資料樣本不均衡的情況,也就是正例與反例樣本數量存在差異。此時為了能

CSDN機器學習筆記七 實戰樣本均衡資料解決方法

信用卡檢測案例 原始資料:0特別多,1特別少——樣本不均衡。 要麼讓0和1一樣多,要麼讓0和1一樣少。 1.下采樣 對於資料0和1,要變為同樣少——在0裡選擇和1一樣多資料。 from sklearn.preprocessing imp

如何解決分類問題中樣本均衡問題

什麼是資料不均衡?在分類中,訓練資料不均衡是指不同類別下的樣本數目相差巨大。舉兩個例子:①在一個二分類問題中,訓練集中class 1的樣本數比上class 2的樣本數的比值為60:1。使用邏輯迴歸進行分類,最後結果是其忽略了class 2,將所有的訓練樣本都分類為class

深度學習樣本均衡問題解決

在深度學習中,樣本不均衡是指不同類別的資料量差別較大,利用不均衡樣本訓練出來的模型泛化能力差並且容易發生過擬合。對不平衡樣本的處理手段主要分為兩大類:資料層面 (簡單粗暴)、演算法層面 (複雜) 。資料層面取樣(Sample)資料重取樣:上取樣或者下采樣上取樣下采樣使用情況資

機器學習-10:MachineLN之樣本均衡

你要的答案或許都在這裡:小鵬的部落格目錄 我想說: 其實很多時候,有競爭是好的事情,可以促進你的成長,可以磨練你的耐性,可以提升你的魅力,可以表現你的豁達,可以體驗成功的喜悅,可以感受失敗其實並

如何解決樣本均衡問題

介紹 ring 倒數 算法思想 ssi pan 訓練集 交叉驗證 權重 解決樣本不均衡的問題很多,主流的幾個如下: 1.樣本的過采樣和欠采樣。 2..使用多個分類器進行分類。 3.將二分類問題轉換成其他問題。 4.改變正負類別樣本在模型中的權重。 一、樣本的過采樣和

Sklearn-LogisticRegression邏輯迴歸(有處理樣本均衡時設定引數的方法)

版權宣告:本文為博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/CherDW/article/details/54891073 邏輯迴歸: 可以做概率預測,也可用於分類,僅能用於線性問題。通過計算真實值與預測值的概率,然後變換成損失函式,求損失函式

AiChallenger比賽記錄之樣本均衡

如何處理樣本不均衡 1.1 選擇合適的評價指標: 不要採用準確率(Accuracy); 主流評估方法包括:ROC,Precision-Recall curve,F1; 1.2若樣本極度不均衡,可作為異常檢測問題處理; 資料探勘中常見的『異常檢測』演算法有哪

樣本均衡解決辦法

正負樣本不均衡,正負是指的二分類麼? 正負樣本不均衡時,常用方法: 1.抽樣    過抽樣:將樣本量少的一類sample補齊    欠抽樣:將樣本量多的一類sample壓縮    組合抽樣:約定一個數量級N,同時進行過取

文字分類 - 樣本平衡的解決思路與交叉驗證CV的有效性

現實情況中,很多機器學習訓練集會遇到樣本不均衡的情況,應對的方案也有很多種。 筆者把看到的一些內容進行簡單羅列,此處還想分享的是交叉驗證對不平衡資料訓練極為重要。 文章目錄 1 樣本不平衡的解決思路 1.2 將不平衡樣本當作離群點

13.解決樣本均衡問題

實際工作中經常遇到樣本不均衡問題,比如某P2P平臺預測使用者信譽,1為信譽良好,0為有違約記錄,樣本採集下來為1的樣本佔絕大多數(比如90%),此時如果你用分類模型,目標函式是準確率,那麼即使你全部預測為1,那麼準確率也為90%,會極大的影響模型效果。 因此在我們在訓練模型

處理樣本均衡數據

svc 分類器 回歸 形式 生成 自動調整 處理 bsp 損失函數 處理樣本不均衡數據一般可以有以下方法: 1、人為將樣本變為均衡數據。 上采樣:重復采樣樣本量少的部分,以數據量多的一方的樣本數量為標準,把樣本數量較少的類的樣本數量生成和樣本數量多的一方相同。 下采樣:減少

解決樣本均衡問題-SMOTE

原文連結 SMOTE: Synthetic Minority Over-sampling Technique 解決的問題 很多演算法都有一個預設的假設:樣本中各個類別的樣本數目是均衡的,比如深度學習中幾個經典網路結構直接用於不均衡資料效果會很差。本文提出的SMOTE是一種通過

樣本均衡問題--過擬合欠擬合抽樣

過抽樣就是在樣本很少的時候,新增或者複製樣本,比如兩類樣本分別為100個A類和10個B類,那麼為了保證A,B這兩類樣本平衡,可以複製B類使得樣本和A類一樣。方便分類器分類。 欠抽樣就是將A的樣本減少到和B類一樣。 從表面上看過抽樣和欠抽樣技術在功能上似乎是等價的,因為他們都

連續值、缺失值 、正負樣本均衡處理方法

目前有三類處理方法: 1. 用平均值、中值、分位數、眾數、隨機值等替代。效果一般,因為等於人為增加了噪聲。 2. 用其他變數做預測模型來算出缺失變數。效果比方法1略好。有一個根本缺陷,如果其他變數和缺失變數無關,則預測的結果無意義。如果預測結果相當準確,則又說明這個變數是沒必要加入建模的。一般情況下,介於兩者

為什麼ROC曲線樣本均衡問題的影響

在對分類模型的評價標準中,除了常用的錯誤率,精確率,召回率和F1度量外,還有兩類曲線:ROC曲線和PR曲線,它們都是基於混淆矩陣,在不同分類閾值下兩個重要量的關係曲線。 在二分類問題中,分類器將一個例項分類為正樣本和負樣本,全部分類樣本可以用一個混淆矩陣來表示

整合學習-弱分類器與AdaBoost簡介 西瓜書

1.整合學習現實情景中,一個學習器的泛化效能可能有侷限,而整合學習則可以通過構造多個學習器來完成學習任務,有時也被稱為多分類器系統,整合學習的大致步驟是先生成一組‘個體學習器’,然後基於某種策略將學習器結合起來,個體學習器同昌由現有的演算法從訓練資料產生,最常用的是決策樹,還