機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

阿新 • • 發佈：2018-11-02

0. 前言

決策樹（Decision Tree）的執行流程很好理解，如下圖所示（圖源：西瓜書），在樹上的每一個結點進行判斷，選擇分支，直到走到葉子結點，得出分類：

優點：計算複雜度不高、輸出結果易於理解、對缺失值不敏感
缺點：可能會產生過擬合
適用資料型別：數值型和標稱型（數值型資料需要離散化）

決策樹構建中，目標就是找到當前哪個特徵在劃分資料時起到決定性作用，劃分資料有多種辦法，如資訊增益（ID3）、資訊增益率（C4.5）、基尼係數（CART），本篇主要介紹資訊增益（ID3演算法）。

1. 資訊增益（ID3）

首先，介紹夏農熵（entropy），熵定義為資訊的期望值，熵越高，說明資訊的混亂程度越高：

$Ent(D)=-\sum_{k=1}^{\left|\gamma \right|}p(k)\log_{2}p(k)$

其中， $D$ 表示資料集， $k$ 表示資料集中的每一個類別， $p(k)$ 表示這個屬於類別的資料佔所有資料的比例。

資訊增益（information gain）定義為原始的熵減去當前的熵，增益越大，說明當前熵越小，說明資料混亂程度越小：

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{\left|D^v\right|}{\left|D\right|}Ent(D^v)$

其中， $V$ 表示按照此特徵劃分的子集數量， $v$ 表示第 $v$ 個子集， $Ent(D^v)$ 表示子集的資訊熵， $\frac{\left|D^v\right|}{\left|D\right|}$ 表示子集資料佔所有資料的比例。

注：資訊增益更偏向於選擇取值較多的特徵，這是它的缺點。

2. 決策樹（Decision Tree）

演算法流程可簡單表示為：

遍歷當前資料所有的特徵，計算資訊增益最大的特徵，作為當前劃分資料的結點，並去除此特徵
對劃分後每個分支上的子集繼續進行步驟 $1$
如果當前子集內的資料都是同一型別，則停止劃分，標記葉子結點
如果子集內資料還未統一型別，而已經沒有特徵，則採用多數表決原則

3. 實戰案例

以下將展示書中的三個案例的程式碼段，所有程式碼和資料可以在github中下載：

3.1. 隱形眼鏡案例

# coding:utf-8
from math import log
import operator
import pickle

"""
隱形眼鏡案例
"""


# 計算夏農熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key]) / numEntries
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt


# 按照給定特徵劃分資料集
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    # 只選擇第 axis 列的值為 value 的資料
    # 去除這個特徵，取資料[:axis] 和 [axis+1:] 段
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis + 1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet


# 選擇最好的資料集劃分方式
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    # 遍歷每一個特徵
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        # 遍歷這個特徵的所有特徵值
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            # 判斷這個子集佔所有資料集的比例
            prob = len(subDataSet) / float(len(dataSet))
            # 新的資訊熵 = 所有子集的資訊熵乘以比例再求和
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature


# 多數表決原則
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(),
                              key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]


# 建立決策樹
# labels 為特徵的標籤
def createTree(dataSet, labels):
    # 獲取當前資料集最後一列的類別資訊
    classList = [example[-1] for example in dataSet]
    # 如果最後一列都是一種類別
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    # 如果當前資料集沒有可劃分的特徵
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    # 獲取最好的劃分資料集特徵
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel: {}}
    # 在特徵標籤中刪除當前特徵
    del (labels[bestFeat])
    # 獲取這個特徵的列，遍歷此特徵的所有特徵值
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        # 特徵有幾個取值，這個結點就有幾個分支
        # 每個取值，都劃分出子集，遞迴建樹
        myTree[bestFeatLabel][value] = createTree(
            splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree


# 分類函式
def classify(inputTree, featLabels, testVec):
    # 獲取第一個特徵
    firstStr = list(inputTree.keys())[0]
    # 獲取這個特徵下的鍵值對的值
    secondDict = inputTree[firstStr]
    # 獲取這個特徵的索引
    featIndex = featLabels.index(firstStr)
    # 遍歷每一個分支
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            # 判斷當前分支下是否還有分支
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel


if __name__ == '__main__':
    fr = open('lenses.txt')
    lenses = [inst.strip().split('\t') for inst in fr.readlines()]
    lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']
    lensesTree = createTree(lenses, lensesLabels)
    print(lensesTree)

3.2. 儲存決策樹

# 儲存樹
def storeTree(inputTree, filename):
    fw = open(filename, 'wb')
    pickle.dump(inputTree, fw)
    fw.close()


# 取出儲存的樹
def grabTree(filename):
    fr = open(filename, 'rb')
    return pickle.load(fr)

3.3. 決策樹畫圖表示

# coding:utf-8
import matplotlib.pyplot as plt

# 解決顯示中文問題
from pylab import *

mpl.rcParams['font.sans-serif'] = ['SimHei']

"""
決策樹畫圖
"""


# 建立樹的字典
def retrieveTree(i):
    listOfTrees = [{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}},
                   {'tearRate': {'reduced': 'no lenses', 'normal': {'astigmatic': {'yes': {
                       'prescript': {'hyper': {'age': {'pre': 'no lenses', 'young': 'hard', 'presbyopic': 'no lenses'}},
                                     'myope': 'hard'}}, 'no': {'age': {'pre': 'soft', 'young': 'soft', 'presbyopic': {
                       'prescript': {'hyper': 'soft', 'myope': 'no lenses'}}}}}}}}
                   ]
    return listOfTrees[i]


# 獲取葉節點的數目
def getNumLeafs(myTree):
    numLeafs = 0
    firstStr = list(myTree.keys())[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key]).__name__ == 'dict':
            numLeafs += getNumLeafs(secondDict[key])
        else:
            numLeafs += 1
    return numLeafs


# 獲取樹的層數
def getTreeDepth(myTree):
    maxDepth = 0
    firstStr = list(myTree.keys())[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key]).__name__ == 'dict':
            thisDepth = 1 + getTreeDepth(secondDict[key])
        else:
            thisDepth = 1
        if thisDepth > maxDepth:
            maxDepth = thisDepth
    return maxDepth


# 使用文字註解繪製樹節點
decisionNode = dict(boxstyle='sawtooth', fc='0.8')
leafNode = dict(boxstyle='round4', fc='0.8')
arrow_args = dict(arrowstyle='<-')


# 畫節點
def plotNode(nodeTxt, centerPt, parentPt, nodeType):
    createPlot.ax1.annotate(nodeTxt, xy=parentPt, xycoords='axes fraction',
                            xytext=centerPt, textcoords='axes fraction',
                            va='center', ha='center', bbox=nodeType,
                            arrowprops=arrow_args)


# 在父子節點間填充文字資訊
def plotMidText(cntrPt, parentPt, txtString):
    xMid = (parentPt[0] - cntrPt[0]) / 2.0 + cntrPt[0]
    yMid = (parentPt[1] - cntrPt[1]) / 2.0 + cntrPt[1]
    createPlot.ax1.text(xMid, yMid, txtString)


# 畫樹
def plotTree(myTree, parentPt, nodeTxt):
    numLeafs = getNumLeafs(myTree)
    depth = getTreeDepth(myTree)
    firstStr = list(myTree.keys())[0]
    cntrPt = (plotTree.xOff + (1.0 + float(numLeafs)) / 2.0 / plotTree.totalW,
              plotTree.yOff)
    plotMidText(cntrPt, parentPt, nodeTxt)
    plotNode(firstStr, cntrPt, parentPt, decisionNode)
    secondDict = myTree[firstStr]
    plotTree.yOff = plotTree.yOff - 1.0 / plotTree.totalD
    for key in secondDict.keys():
        if type(secondDict[key]).__name__ == 'dict':
            plotTree(secondDict[key], cntrPt, str(key))
        else:
            plotTree.xOff = plotTree.xOff + 1.0 / plotTree.totalW
            plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff),
                     cntrPt, leafNode)
            plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
    plotTree.yOff = plotTree.yOff + 1.0 / plotTree.totalD


# 主要畫圖函式
def createPlot(inTree):
    fig = plt.figure(1, facecolor='white')
    fig.clf()
    axprops = dict(xticks=[], yticks=[])
    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)
    plotTree.totalW = float(getNumLeafs(inTree))
    plotTree.totalD = float(getTreeDepth(inTree))
    plotTree.xOff = -0.5 / plotTree.totalW
    plotTree.yOff = 1.0
    plotTree(inTree, (0.5, 1.0), '')
    plt.show()


if __name__ == '__main__':
    myTree = retrieveTree(1)
    createPlot(myTree)

如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

目錄 0. 前言 1. 資訊增益（ID3） 2. 決策樹（Decision Tree） 3. 實戰案例 3.1. 隱形眼鏡案例 3.2. 儲存決策樹 3.3. 決策樹畫圖表示學習完機器學習實戰的決策樹，簡單的做

機器學習實戰讀書筆記(2)--決策樹

決策樹決策樹的一個重要任務是為了資料中所蘊含的知識資訊,因此決策樹可以使用一系列不熟悉的資料集合,並從中提取系列規則,在這些機器根據資料集建立規則時,就是機器學習的過程.專家系統中經常使用決策樹決策樹的構造優點:計算複雜度不高,輸出結果易於理解,對中間值缺失不敏

機器學習實戰程式碼_Python3.6_決策樹_程式碼

決策樹程式碼 from math import log import operator def calc_shannon_ent(data_set): num_entries = len(data_set) label_counts =

《機器學習實戰》之三——決策樹

花了差不多三天時間，終於把《機器學習實戰》這本書的第三章的決策樹過了一遍，知道了決策樹中ID3的一個具體編法和流程。【一】計算資料資訊熵這段程式碼主要是用於計算資料的每個特徵資訊熵，資訊熵用於描述資料的混亂程度，資訊熵越大說明資料包含的資訊越多，也就是資料的波動越大。而ID3演算

機器學習實戰(第三篇)-決策樹簡介

我們經常使用決策樹處理分類問題，近來的調查表明決策樹也是最經常使用的資料探勘演算法。它之所以如此流行，一個很重要的原因就是使用者基本上不用瞭解機器學習演算法，也不用深究它是如何工作的。如果你以前沒有接觸過決策樹，不用擔心，它的概念非常簡單。即使不知道它也可以通

機器學習實戰(第三篇)-決策樹構造

首先我們分析下決策樹的優點和缺點。優點：計算複雜度不高，輸出結果易於理解，對中間值的卻是不敏感，可以處理不相關特徵資料；缺點：可能會產生過度匹配問題。適用資料型別：數值型和標稱型。本篇文章我們將一步步地構造決策樹演算法，並會涉及許多有趣的細節。首先我們先討論數

python機器學習實戰2：實現決策樹

1.決策樹的相關知識在之前的接觸中決策樹直觀印象應該就是if-else的迴圈，if會怎麼樣，else之後再繼續if-else直至最終的結果。在上節講的kNN它其實已經可以完成很多工，但是它最大的缺點就是無法給資料集的內在含義，決策樹的主要優勢在於資料形式非常

機器學習實戰第三章——決策樹(原始碼解析)

機器學習實戰中的內容講的都比較清楚，一般都能看懂，這裡就不再講述了，這裡主要是對程式碼進行解析，如果你很熟悉python，這個可以不用看。 #coding=utf-8 ''' Created on 2016年1月5日 @author: ltc ''' from mat

機器學習實戰第三章——決策樹程式

在閱讀理解決策樹之後，按照《機器學習實戰》的程式碼，實現ID3決策樹程式如下： from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts

機器學習--DIY筆記與感悟--②決策樹（1）

lis ... 編寫代碼需要總結初始化對數三分 xtend 在完成了K臨近之後，今天我們開始下一個算法--->決策樹算法。一、決策樹基礎知識如果突然問你"有一個陌生人叫X,Ta今天需要帶傘嗎?", 你一定會覺得這個問題就像告訴你"兩千米外有一個超市,

機器學習與深度學習系列連載：第一部分機器學習（十一）決策樹2（Decision Tree）

決策樹2 決策樹很容易出現過擬合問題，針對過擬合問題，我們採用以下幾種方法劃分選擇 vs 剪枝剪枝 (pruning) 是決策樹對付“過擬合”的主要手段！基本策略：預剪枝 (pre-pruning): 提前終止某些分支的生長後剪枝 (post-pr

機器學習實戰例項之手寫數字識別（KNN、python3）

from numpy import * from os import listdir import operator def img2Vector(filename): returnVecter = zeros((1,1024)) fr = open(fil

《機器學習實戰》原書資料與程式碼（基於Python3）彙總

這次做的系列是《機器學習實戰》，原書比較久遠了，且程式碼和練習都是基於Python2，我個人是升級到了Python3，因此使用最新的版本來寫這些習題。具體2和3其實在基礎語法上並沒有太多差別，一些高階特性比如裝飾器工廠，協程，IO等Python3的新用法，一般機器學習也用不上

【機器學習實戰】第10章 K-Means（K-均值）聚類演算法

第 10章K-Means（K-均值）聚類演算法 K-Means 演算法聚類是一種無監督的學習, 它將相似的物件歸到一個簇中, 將不相似物件歸到不同簇中. 相似這一概念取決於所選擇的相似度計算方法. K-Means 是發現給定資料集的 K 個簇的聚類演算法, 之

[完]機器學習實戰第六章支援向量機（Support Vector Machine）

[參考] 機器學習實戰（Machine Learning in Action）本章內容支援向量機（Support Vector Machine）是最好的現成的分類器，“現成”指的是分類器不加修改即可直接使用。基本形式的SVM分類器就可得到低錯

機器學習入門 - 1. 介紹與決策樹(decision tree)

recursion machine learning programmming 機器學習(Machine Learning) 介紹與決策樹(Decision Tree)機器學習入門系列是個人學習過程中的一些記錄與心得。其主要以要點形式呈現，簡潔明了。1.什麽是機器學習？一個比較概括的理解是:

《機器學習》第三章決策樹學習筆記加總結

分類問題子集觀察組成 cas 普通重復 1.0 需要《機器學習》第三章決策樹學習決策樹學習方法搜索一個完整表示的假設空間，從而避免了受限假設空間的不足。決策樹學習的歸納偏置是優越選擇較小的樹。 3.1.簡介決策樹學習是一種逼近離散值目標函數的方法，在這種方法

小白自學機器學習之一文讀懂決策樹演算法詳解

1.概念準備 1.1 遞迴與迭代迭代是人，遞迴是神。區別定義優缺點遞迴（recursion）程式呼叫自身

機器學習實戰—第9章：樹迴歸程式程式碼中的小錯誤

提示：本人程式碼執行在Python3的環境下 1、程式清單9-1：應改為： list(map(float, curLine)) 解釋：map()返回結果是一個Iterator，Iterator是惰性序列，因此通過list()函式讓它把整個序列都計算出來並返回

秦剛剛的機器學習成長之路之決策樹總結

決策樹之分類樹和迴歸樹本文主要講解最常用的3種決策樹（ID、C4.5和CART），為了更加系統和全面的認識這3種常用的決策樹演算法，我將從以下4個部分進行講解： 1.決策樹學習演算法步驟有哪些？ 2.常用的決策樹演算法有哪幾種？ 3.決策樹剪枝 4.Gini指數與熵的關係 1.

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

目錄

0. 前言

1. 資訊增益（ID3）

2. 決策樹（Decision Tree）

3. 實戰案例

3.1. 隱形眼鏡案例

3.2. 儲存決策樹

3.3. 決策樹畫圖表示

相關推薦