1. 程式人生 > >機器學習二——分類算法--決策樹DecisionTree

機器學習二——分類算法--決策樹DecisionTree

其中 .cn 比較 輸出 選擇 結構 沒有 ati 流程圖

技術分享圖片

機器學習算法評估標準:準確率,速度,強壯性(噪音影響較小),可規模性,可解釋性。

1、決策樹 Decision Tree:決策樹是一個類似於流程圖的樹結構,其中每個內部節點表示在一個屬性上的測試,每一個分支代表一個屬性輸出,每一個樹葉節點代表類(label)或類的分布。樹的最頂層是根節點。

技術分享圖片 技術分享圖片

2、信息熵:發生一件事情的不確定性越大,我們需要的信息量越大,信息熵也就越大。信息量的度量就等於不確定性的多少。

    用bit表示信息量的多少H = -∑P(x)logP(x)

決策樹歸納算法通過信息熵計算選擇屬性判斷節點:

    信息獲取量(Information Gain) Gain(A)=Info(D)-Info_A(D)

    通過屬性A獲取的信息量=沒有屬性A時所需信息量-有屬性A時所需信息量

    技術分享圖片

      技術分享圖片

      技術分享圖片

通過比較每一個節點的Gain信息獲取量,來確定哪個屬性作為判斷節點。

3、算法

機器學習二——分類算法--決策樹DecisionTree