機器學習實戰（2）-決策樹

阿新 • • 發佈：2018-11-16

構建決策樹最重要的是分裂屬性的選取,重要的是每個屬性在節點的位置，比如說第一個節點屬性為什麼是A而不是B。分裂屬性就是在某個節點處按照某一特徵屬性的不同劃分構造不同的分支，其目標是讓各個分裂子集更加的純，所謂的純是指儘量讓一個分裂子集中待分類項屬於同一類別。判斷純的方法有ID3，C4.5，CART演算法。

其實這個純就是指用一個度量值表示根據這個屬性劃分的目標類別確定性大小。

ID3是用資訊增益（資訊不確定性減少的程度）來表示這個純。而ID3演算法跟每個屬性的樣本數有關，樣本數多的對應的屬性的資訊增益比較大，所以採用C4.5中選用資訊增益率來進行最優屬性節點的劃分。

摘自https://zhuanlan.zhihu.com/p/26703300。

資訊熵：所有可能事件發生前對產生資訊量的期望，可以表示事情的複雜程度，一件事情越複雜，產生的情況越多，期望事情發生後帶來的資訊量也就越大。猜不透^_^。

例子：上浮或有蹼進行分類，程式碼不具有通用型，只供理解用。

clc,clear;
%原始資料
dataSet = [1,1,1;
           1,1,1;
           1,0,0;
           0,1,0;
           0,1,0;];


%計算資訊熵
liveradio = 2 /5;
dieradio = 3 /5;
entroy = -1.0 * (liveradio *log2(liveradio) + dieradio * log2(dieradio));

%計算條件熵
%浮魚熵
floatEntroy = -1.0*( 2 /3 *log2(2/3) + 1/3 *log2(1/3));
noFloatEntroy = -1.0 *( 0 /2 * log2(0/2) + 2/2 *log2(2/2));

%浮魚條件熵
floatTEntroy = 3/5 * floatEntroy + 2/5 * noFloatEntroy;
%浮魚資訊熵增益
floatEntroyGain = entroy - floatTEntroy;

%蹼
webEntroy = -1*(2 /4 * log2(2/4) + 2 /4 * log2(2/4));
noWebEntroy = -1 *( 0/1 *log2(0/1) + 1/1 *log2(1/1));
%蹼條件熵
webTEntroy =  4/5 * webEntroy + 1/5 * noWebEntroy;
%蹼資訊熵增益
webEntroyGain = entroy - webTEntroy;


%返回最好的特徵列
if(floatEntroyGain > webEntroyGain)
    bestFeature = 0;
else
    bestFeature =1;
end

%測試資料

testData = [1,1,1;
            1,0,2;
            0,0,3;
            0,1,4;
            1,1,5;
            1,0,6;
            0,0,7;
            0,1,8];

%構建決策樹

leftDataindex = find(testData(:,bestFeature) == 1);
leftData = testData(leftDataindex,:);
leftData(:,bestFeature) =[]; %去除那一列
leftData2index = find(leftData(:,1) ==1);
leftData2 = leftData(leftData2index,2);
rightData2index = find(leftData(:,1) ==0);
rightData2 = leftData(rightData2index,2);


rightDataindex = find(testData(:,bestFeature) == 0);
rleftData = testData(rightDataindex,:);
rleftData(:,bestFeature) =[]; %去除那一列

rleftData2index = find(rleftData(:,1) ==1);
rleftData2 = rleftData(rleftData2index,2);
rrightData2index = find(rleftData(:,1) ==0);
rrightData2 = rleftData(rrightData2index,2);


disp(leftData2)
disp(rightData2)
disp(rleftData2)
disp(rrightData2)

機器學習實戰（2）-決策樹

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

目錄 0. 前言 1. 資訊增益（ID3） 2. 決策樹（Decision Tree） 3. 實戰案例 3.1. 隱形眼鏡案例 3.2. 儲存決策樹 3.3. 決策樹畫圖表示學習完機器學習實戰的決策樹，簡單的做

【10月31日】機器學習實戰（二）決策樹：隱形眼鏡資料集

決策樹的優點：計算的複雜度不高，輸出的結果易於理解，對中間值的確實不敏感，可以處理不相關的特徵資料決策樹的缺點：可能會產生過度匹配的問題。其本質的思想是通過尋找區分度最好的特徵（屬性），用於支援分類規則的制定。那麼哪些特徵是區分度好的，哪些特徵是區分度壞的呢？換句話說

機器學習筆記（2）——CART樹

而後並不是參數生成 AS 最大值介紹 ... 訓練數據　CART樹　　CART樹與上一篇文章提到的ID3、C4.5的區別在於：　　（1）CART樹只能夠生成2個結點，即CART樹是一棵二叉決策樹，而後兩者在進行劃分時可以根據特征值的種類生成2個以上的結點

機器學習總結（八）決策樹ID3，C4.5演算法，CART演算法

本文主要總結決策樹中的ID3,C4.5和CART演算法，各種演算法的特點，並對比了各種演算法的不同點。決策樹：是一種基本的分類和迴歸方法。在分類問題中，是基於特徵對例項進行分類。既可以認為是if-then規則的集合，也可以認為是定義在特徵空間和類空間上的條件概率分佈。決策樹模型：決策樹由結點和有向邊組

機器學習入門（六）決策樹

--------韋訪 20181030 1、概述這一講，我們來看看決策樹。 2、概念決策樹（decision tree）是一種常用的分類與迴歸方法，其模型為樹狀結構，如下圖所示，其中，最頂部的圓點為根節點，其他圓點為內部節點，方形為葉子節點。決策樹

機器學習實戰（2）—— k-近鄰演算法

老闆：來了，老弟！我：來了來了。老闆：今天你要去看看KNN了，然後我給你安排一個工作！我：好嘞！就是第二章嗎？老闆：對！去吧！可惡的老闆又給我安排任務了！《機器學習實戰》這本書中的第二章為我們介紹了K-近鄰演算法，這是本書中第一個機器學習演算法，它非常有效而且易於

機器學習筆記（四）——決策樹如何長成森林？

決策樹是一種基本的分類與迴歸方法，在整合方法中經常作為基礎分類器，比如說隨機森林演算法。決策樹模型具有可讀性和分類速度快兩大特點，但是也容易造成過擬合的問題。一般來說，決策樹演算法通常包括3個步驟：特徵選擇、決策樹的生成和決策樹的修剪！一、特徵選擇當我們使用決策樹演算法對資料進

機器學習筆記（六）決策樹

決策樹決策樹決策樹劃分選擇剪枝過擬合產生的原因常用剪枝方法連續值與缺失值處理連續值處理缺失值處理

機器學習演算法（二）——決策樹分類演算法及R語言實現方法

決策樹演算法是分類演算法中最常用的演算法之一。決策樹是一種類似流程圖的樹形結構，可以處理高維資料，直觀易理解，且準確率較高，因此應用廣泛。本篇小博就決策樹的若干演算法：ID3演算法、C4.5演算法以及分類迴歸樹（CART）、C5.0進行對比介紹，並對比C4.5與C5.0處理

R語言與機器學習學習筆記（分類演算法）（2）決策樹演算法

演算法二：決策樹演算法決策樹定義決策樹模型是基於特徵對例項進行分類的樹形結構。由結點和有向邊組成。結點包括內部結點和葉節點，內部結點為特徵或屬性，葉子節點表示一個類。【優點】模型具有可讀性，分類速度快。以鳶尾花為例，觀察上圖，我們判決鳶尾花的思考過程可以這麼來描述：花瓣的長度

機器學習實戰（八）分類迴歸樹CART（Classification And Regression Tree）

目錄 0. 前言 1. 迴歸樹 2. 模型樹 3. 剪枝（pruning） 3.1. 預剪枝 3.2. 後剪枝 4. 實戰案例 4.1. 迴歸樹 4.2. 模型樹

機器學習（西瓜書）學習筆記（三）---------決策樹

1、基本流程決策樹通常從一個最基本的問題出發，通過這個判定問題來對某個“屬性”進行“測試”，根據測試的結果來決定匯出結論還是匯出進一步的判定問題，當然，這個判定範圍是在上次決策結果的限定範圍之內的。出發點

機器學習-10（最優決策樹演算法的實際展示）

網上一大堆的文章，但是他們的介紹並沒有實際上說明為什麼使用最優決策樹，決策樹到底是什麼玩意我這裡也不做類似的白話文解釋了，直接附圖來詳細生動的例子給大家演示why OK，現在我們先以是否浮出水面來分類最終結果如圖 ok,經過我們層層的決策，結果如圖

機器學習實戰（九）樹迴歸

第九章樹迴歸第三章使用決策樹進行分類，其不斷將資料切分為小資料，直到目標變數完全相同，或者資料不能再分為止，決策樹是一種貪心演算法，要在給定的時間內做出最佳選擇，但並不關心能否達到全域性最優。 9.1 CART（Classification

python機器學習實戰（三）

python機器學習實戰（四）

機器學習實戰（一）—— 用線性回歸預測波士頓房價

-1 png 機器學習 mage 回歸線性回歸 blog 分享機器機器學習實戰（一）—— 用線性回歸預測波士頓房價

深度學習——機器學習策略（2）

語音識別 peak 分類器 9.png 場景 end 射線 erro 完成 1. 誤差分析manual error analysis 對學習的結果進行人工誤差分析。例：貓的分類器比如train結果的正確率為90%（10%的誤差），對結果進行人工分析，如果發現有些狗被識別

機器學習實戰（十）Apriori演算法（關聯分析）

目錄 0. 前言 1. Apriori 演算法尋找頻繁項集 2. 從頻繁項集中挖掘關聯規則 3. 實戰案例 3.1. apriori演算法發現頻繁項集和關聯規則學習完機器學習實戰的Apriori，簡單的做個筆記。文中部分描述屬於

機器學習實戰（2）-決策樹

相關推薦