機器學習 - 整合方法（Bagging VS. Boosting 以及隨機森林、AdaBoost）

機器學習 - 整合方法（Bagging VS. Boosting 以及隨機森林）

整合方法
Bagging

Bagging 分類：
Bagging 的預測：

Boosting

兩個定義
兩個問題

Bagging VS. Boosting
隨機森林
AdaBoost

AdaBoost 演算法過程
訓練誤差界
AdaBoost 演算法的解釋

整合方法

整合（Ensemble）方法就是針對同一任務，將多個或多種分類器進行融合，從而提高整體模型的泛化能力。

對於一個複雜任務，將多個模型進行適當地綜合所得出的判斷，通常要比任何一個單獨模型的判讀好。也就是我們常說的“三個臭皮匠，頂過諸葛亮”。

不過對於組合分類器必須滿足兩點：

(1) 基模型之間應該是相互獨立的
(2) 基模型應好於隨機猜測模型

整合方法目前分為兩種：Bagging 與 Boosting，下面分別介紹。
Bagging

Bagging（Bootstrap aggregating），又稱裝袋演算法，它提供了一種非常直接的整合學習演算法，即通過從完整資料集中抽取不同的子集餵給各個模型進行訓練，最後將所有模型整合在一起，對被預測樣本進行投票決定其所屬類別。
1. Bagging 分類：
  
  (1) 如果抽取的資料子集是從完整資料集抽取出的隨機子集中再次抽取（先從完整資料集中抽取子集 A，再從子集 A 中抽取子集 B 作為訓練集），成稱為 Pasting
  
  (2) 如果從完整資料集抽取的子集是有放回的（每次抽取都是從相同的完整資料集中選取），稱為 Boostrap
  
  (3) 如果抽取的資料集是特徵的子集（n 個特徵中挑出一部分特徵，而樣本數量與完整資料集相等），稱為隨機子空間 (Random Sub Spaces)
  
  (4) 如果同時對樣本和特徵都做抽取子集，稱為隨機補丁 (Random Patches)
  
  其中對於 Boostrap，最終完成樣本抽樣後有 36.8% 的資料未被抽到。計算方法：
  
  假設共有 n 個樣本，每個樣本不被抽到的概率為 $1-\frac{1}{n}$ ，
  
  抽取 n 次都不被抽到的概率為 $(1-\frac{1}{n})^n$ ，當 $n→+\infty$ 時，
  
  根據重要極限 $\mathop{}_{n→+\infty}^{\lim}(1+\frac{1}{n})^n=e$ ，
  
  求得： $\mathop{}_{n→+\infty}^{\lim} (1-\frac{1}{n})^n=\mathop{}_{n→+\infty}^{\lim}\frac{1}{(1+\frac{1}{-n})^{-n}}=\frac{1}{e}≈0.368$
2. Bagging 的預測：
  
  (1) 對於分類任務，使用簡單投票法，即每個分類器一票進行投票(也可以進行概率平均)；
  
  (2) 對於迴歸任務，採用簡單平均獲取最終結果，即取所有分類器的平均值；
在 Bagging 方法中，所有的模型具有相同的權重，即 “完全民主決策”。
Boosting

提升（Boosting）方法，是通過改變訓練樣本的權重，學習多個模型，並將這些模型進行線性組合，從而提高效能。
1. 兩個定義
  
  $\bullet$ “強可學習”：對於一個任務，若存在一個多項式的學習演算法能夠學習它，且正確率很高，則稱此學習演算法為強可學習（Strongly Learnable）
  
  $\bullet$ “若可學習”：對於一個任務，若存在一個多項式的學習演算法能夠學習它，但正確率僅比隨機猜測好，則稱此學習演算法為弱可學習（Weakly Learnable）
  
  對於這兩個概念，後來證明，弱可學習與強可學習是等價的。如此，問題就轉換成了：若一發現“弱學習演算法”，那麼能否將它提升為“強學習演算法”。
  
  提升方法就是從弱學習演算法出發，反覆學習，得到一系列弱模型（基模型），然後組合這些弱模型構成一個強模型。
2. 兩個問題
  
  (1) 每一輪如何修改訓練資料的權值（概率分佈）
  
  答：提高上一輪預測錯誤的樣本的權值，降低上一輪預測正確的樣本的權值，如此，預測錯誤的樣本會得到更大的關注。
  
  (2) 如何將弱模型組合成一個強模型
  
  答：使用加權多數表決。加大錯誤率小的弱模型的權值，減小錯誤率高的弱模型的權值，以此修改它們表決中產生的影響。
Boosting 中，每個模型的權重不一樣。

Bagging VS. Boosting

專案	Bagging	Boosting
方法	① 訓練只使用部分資料、特徵；②多個模型多數表決	①訓練基模型，而後學習上一輪的錯誤；② 多個模型線性加權
流程	見圖 - Bagging 流程	見圖 - Boosting 流程
偏 / 方差	主要降低方差，防止過擬合	主要降低偏差，提高準確度
適用範圍	高噪聲	低噪聲
權重	所有訓練資料權重相同，所有基模型權重相同	訓練資料權重不同，每個基模型權重不同
串 / 並行	並行（同時訓練多個基模型）	序列（依賴上一輪模型結果）
例	Random Forest	GBDT

（Bagging 流程圖 ↓）

（Boosting 流程圖 ↓）

隨機森林

隨機森林是多棵決策樹構成的，每一個棵樹都根據自己“看到”的資料集進行訓練，訓練結束後對測試集進行各自的預測，並通過多數投票決策出最終的預測類別。

對於“自己看到的資料”，便是通過 Bagging 的方式獲得資料。使用 Boostrap、隨機子空間等方法選出每個棵樹各自使用的訓練集。
AdaBoost
1. AdaBoost 演算法過程
  
  這裡通過 AdaBoost 方法介紹 Boosting.
  
  (1) 初始化訓練資料的權值分佈： $D_1=(W_{11},...,W_{1i},...,W_{1N})$ ， $D_m$ 代表第 $m$ 輪資料的權值分佈。初始權值相等，為 $\frac{1}{N}$
  
  (2) 使用具有 $D_m$ 權重的訓練資料進行學習，得到基模型： $G_m(x)$
  
  (3) 計算 $G_m(x)$ 在具有 $D_m$ 權重的訓練資料上的錯誤率： $e_m=\sum_{i=1}^{N}W_{m,i}I(G_m(x)\neq y_i)$
  
  (4) 計算基模型 $G_m(x)$ 的權重係數： $α_m=\frac{1}{2}\ln \frac{1-e_m}{e_m}$
  
  (5) 更新訓練資料集的權重分佈： $D_{m+1}=(W_{m+1,1},...,W_{m+1,i},...,W_{m+1,N})$
  
  相關推薦
  
  機器學習 - 整合方法（Bagging VS. Boosting 以及隨機森林、AdaBoost）
  
  機器學習 - 整合方法（Bagging VS. Boosting 以及隨機森林）整合方法 Bagging Bagging 分類： Bagging 的預測： Boosting
  
  機器學習筆記-整合學習之Bagging，Boosting，隨機森林三者特性對比
  
  整合學習的概念定義：整合學習通過構建並結合多個學習器來完成學習任務。分類：只包含同種型別的個體學習器，這樣的整合是“同質”的，例如都是神經網路或者決策樹；包含不同型別的個體學習器，這樣的整合是“異質”的，例如同時包括神經網路和決策樹。作用：整合學習通過將多個學
  
  機器學習——整合演算法（二）
  
  接著整合演算法講講GBDT和Xgboost，二者的原理其實差不多的，他們都屬於提升演算法。梯度上升（Gradient Boosting）是說，在整合演算法中每個弱決策樹的生成都是依據損失函式的梯度方向。提升演算法，是找到找到最優解F(x)使得損失函式在訓練集上期望（偏差）
  
  [白話解析] 通俗解析整合學習之bagging，boosting & 隨機森林
  
  # [白話解析] 通俗解析整合學習之bagging，boosting & 隨機森林 ## 0x00 摘要本文將盡量使用通俗易懂的方式，儘可能不涉及數學公式，而是從整體的思路上來看，運用感性直覺的思考來解釋 **整合學習**。並且從名著中延伸了具體應用場景來幫助大家深入這個概念。在機器學習過程
  
  python機器學習庫scikit-learn簡明教程之：隨機森林
  
  1.scikit-learn中的隨機森林 sklearn.ensemble模組中包含兩種基於隨機決策樹的平均演算法：隨機森林演算法和ExtraTrees的方法。這兩種演算法都是專為決策樹設計的包含混合
  
  機器學習(五)：通俗易懂決策樹與隨機森林及程式碼實踐
  
  與SVM一樣，決策樹是通用的機器學習演算法。隨機森林，顧名思義，將決策樹分類器整合到一起就形成了更強大的機器學習演算法。它們都是很基礎但很強大的機器學習工具，雖然我們現在有更先進的演算法工具來訓練模型，但決策樹與隨機森林因其簡單靈活依然廣受喜愛，建議大家學習。 # 一、決策樹 ## 1.1 什麼是決策樹
  
  [機器學習]整合學習--bagging、boosting、stacking
  
  整合學習簡介整合學習（ensemble learning）通過構建並結合多個學習器來完成學習任務。如何產生“好而不同”的個體學習器，是整合學習研究的核心。整合學習的思路是通過合併多個模型來提升機器學習效能，這種方法相較於當個單個模型通常能夠獲得更好的預測結果。這也是整合學習在
  
  機器學習 —— 決策樹及其整合演算法(Bagging、隨機森林、Boosting)
  
  決策樹 --------------------------------------------------------------------- 1.描述：以樹為基礎的方法可以用於迴歸和分類。樹的節點將要預測的空間劃分為一系列簡單域劃分預測空間的規則可以被建模為
  
  機器學習-->整合學習-->Bagging,Boosting,Stacking
  
  在一些資料探勘競賽中，後期我們需要對多個模型進行融合以提高效果時，常常會用到Bagging，Boosting，Stacking等這幾個框架演算法。下面就來分別詳細講述這三個框架演算法。這裡我們只做原理上的講解，不做數學上推導。整合學習在機器學習演算法中具有較
  
  機器學習回顧篇（12）：整合學習之Bagging與隨機森林
  
  1 引言¶ 整合學習演算法是當下炙手可熱的一類演算法，在諸多機器學習大賽中都頻繁出現它的身影。準確來說，整合學習演算法並不是一個單獨的機器學習演算法，而是通過構建多個學習器，博採眾家之長，共同求解問題的一種思想。古語有云：&ldquo
  
  機器學習入門之四：機器學習的方法-神經網絡（轉載）
  
  轉載 bsp 圖像 src nbsp 加速數值 str 我們　　轉自飛鳥各投林　　神經網絡　　　　神經網絡(也稱之為人工神經網絡，ANN)算法是80年代機器學習界非常流行的算法，不過在90年代中途衰落。現在，攜著“深度學習”之勢，神
  
  機器學習中的核函式與核方法（是什麼？為什麼？怎麼做？）
  
  我們在學習機器學習的時候，總是會看到一個概念——核，然後看到一堆公式。但是為什麼要核呢？核到底是啥玩意？雲裡霧裡。接下來，我們將要把“核”這個東西的神祕面紗一點點揭開。一、什麼是“核函式” 我們都知道，機器學習（神經網路）的一個很重要的目的，就是將資料分類。我們想象下面這個資料（圖1），在
  
  有監督分類：整合分類（Bagging & Boosting & RandomForest）
  
  1.前言整合學習（Ensemble），是指把效能較低的多種弱學習器，通過適當組合形成高效能的強學習器的方法。“三個臭皮匠頂個諸葛亮”這句諺語用來形容整合分類器最合適不過了。這幾年，關於整合分類的研
  
  五款實用免費的Python機器學習整合開發環境（5 free Python IDE for Machine Learning）（圖文詳解）
  
  前言　　整合開發環境（IDE）是提供給程式設計師和開發者的一種基本應用，用來編寫和測試軟體。一般而言，IDE 由一個編輯器，一個編譯器（或稱之為直譯器），和一個偵錯程式組成，通常能夠通過 GUI（圖形介面）來操作。　　根據維基百科的描述：“Python 是一種廣泛使用的高階的、通用的、
  
  機器學習系列(11)_Python中Gradient Boosting Machine(GBM）調參方法詳解
  
  1.前言如果一直以來你只把GBM當作黑匣子，只知呼叫卻不明就裡，是時候來開啟這個黑匣子一探究竟了！這篇文章是受Owen Zhang (DataRobot的首席產品官，在Kaggle比賽中位列第三)在NYC Data Science Academy裡提
  
  機器學習回顧篇（13）：整合學習之AdaBoost
  
  在上一篇部落格中，我們總結了整合學習的原理，並展開介紹了整合學習中Bagging和隨機森林這一分枝演算法，在本篇部落格中，我們繼續介紹另一個分枝——Boosting，並對Boosting系列中的經典演算法Adaboost
  
  機器學習回顧篇（15）：整合學習之GDBT
  
  1 引言¶ 梯度提升樹演算法（Gradient Boosting Decision Tree，GBDT）是一個非常經典的機器學習演算法，和我們前面介紹過的Adaboost演算法一樣，都是提
  
  中國mooc北京理工大學機器學習第一周（一）
  
  lib odi pen 運行 numpy 聚類準則 ++ mooc 從今天開始跟著北理工的老師走一遍sklearn，在這裏做筆記。一、聚類 1、K-Means方法先貼代碼，所有數據的下載地址：http://pan.baidu.com/s/1hrO5NW4
  
  中國mooc北京理工大學機器學習第二周（一）：分類
  
  kmeans 方法輸入 nump arr mod 理工大學 each orm 一、K近鄰方法（KNeighborsClassifier）使用方法同kmeans方法，先構造分類器，再進行擬合。區別是Kmeans聚類是無監督學習，KNN是監督學習，因此需要劃分出訓練集和測試
  
  機器學習-牛頓方法&指數分布族&GLM
  
  最優解 logs alt cli 機器目標 ner des style 本節內容牛頓方法指數分布族廣義線性模型之前學習了梯度下降方法，關於梯度下降（gradient descent），這裏簡單的回顧下【參考感知機學習部分提到的梯度下降(gradient des

機器學習 - 整合方法（Bagging VS. Boosting 以及隨機森林、AdaBoost）

機器學習 - 整合方法（Bagging VS. Boosting 以及隨機森林）

整合方法

Bagging

Bagging 分類：

Bagging 的預測：

Boosting

兩個定義

兩個問題

Bagging VS. Boosting

隨機森林

AdaBoost

AdaBoost 演算法過程

相關推薦