【Python資料探勘課程】四.決策樹DTC資料分析及鳶尾資料集分析

阿新 • • 發佈：2018-12-29

希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方，還請海涵~

一. 分類及決策樹介紹

1.分類

分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱裡有垃圾郵件分類器，一開始的時候可能什麼都不過濾，在日常使用過程中，我人工對於每一封郵件點選“垃圾”或“不是垃圾”，過一段時間，Gmail就體現出一定的智慧，能夠自動過濾掉一些垃圾郵件了。
這是因為在點選的過程中，其實是給每一條郵件打了一個“標籤”，這個標籤只有兩個值，要麼是“垃圾”，要麼“不是垃圾”，Gmail就會不斷研究哪些特點的郵件是垃圾，哪些特點的不是垃圾，形成一些判別的模式，這樣當一封信的郵件到來，就可以自動把郵件分到“垃圾”和“不是垃圾”這兩個我們人工設定的分類的其中一個。

分類學習主要過程如下：
（1）訓練資料集存在一個類標記號，判斷它是正向資料集（起積極作用，不垃圾郵件），還是負向資料集（起抑制作用，垃圾郵件）；
（2）然後需要對資料集進行學習訓練，並構建一個訓練的模型；
（3）通過該模型對預測資料集進預測，並計算其結果的效能。

2.決策樹（decision tree）

決策樹是用於分類和預測的主要技術之一，決策樹學習是以例項為基礎的歸納學習演算法，它著眼於從一組無次序、無規則的例項中推理出以決策樹表示的分類規則。構造決策樹的目的是找出屬性和類別間的關係，用它來預測將來未知類別的記錄的類別。它採用自頂向下的遞迴方式，在決策樹的內部節點進行屬性的比較，並根據不同屬性值判斷從該節點向下的分支，在決策樹的葉節點得到結論。
決策樹演算法根據資料的屬性採用樹狀結構建立決策模型，決策樹模型常用來解決分類和迴歸問題。常見的演算法包括：分類及迴歸樹（Classification And Regression Tree， CART）， ID3 (Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 隨機森林（Random Forest），多元自適應迴歸樣條（MARS）以及梯度推進機（Gradient Boosting Machine， GBM）。
決策數有兩大優點：1）決策樹模型可以讀性好，具有描述性，有助於人工分析；2）效率高，決策樹只需要一次構建，反覆使用，每一次預測的最大計算次數不超過決策樹的深度。

示例1：

下面舉兩個例子，參考下面文章，強烈推薦大家閱讀，尤其是決策樹原理。
演算法雜貨鋪——分類演算法之決策樹(Decision tree) - leoo2sk
這個也是我上課講述的例子，引用上面文章的。通俗來說，決策樹分類的思想類似於找物件。現想象一個女孩的母親要給這個女孩介紹男朋友，於是有了下面的對話：

女兒：多大年紀了？
母親：26。
女兒：長的帥不帥？
母親：挺帥的。
女兒：收入高不？
母親：不算很高，中等情況。
女兒：是公務員不？
母親：是，在稅務局上班呢。
女兒：那好，我去見見。

這個女孩的決策過程就是典型的分類樹決策。相當於通過年齡、長相、收入和是否公務員對將男人分為兩個類別：見和不見。假設這個女孩對男人的要求是：30歲以下、長相中等以上並且是高收入者或中等以上收入的公務員，那麼這個可以用下圖表示女孩的決策邏輯。

示例2：
另一個課堂上的例子，參考CSDN的大神lsldd的文章，推薦大家閱讀學習資訊熵。
用Python開始機器學習（2：決策樹分類演算法）
假設要構建這麼一個自動選好蘋果的決策樹，簡單起見，我只讓他學習下面這4個樣本：

樣本    紅     大      好蘋果  
0       1      1         1  
1       1      0         1  
2       0      1         0  
3       0      0         0

樣本中有2個屬性，A0表示是否紅蘋果。A1表示是否大蘋果。
本例僅2個屬性。那麼很自然一共就只可能有2棵決策樹，如下圖所示：

決策樹構建的基本步驟如下：
1. 開始，所有記錄看作一個節點；
2. 遍歷每個變數的每一種分割方式，找到最好的分割點；
3. 分割成兩個節點N1和N2；
4. 對N1和N2分別繼續執行2-3步，直到每個節點足夠“純”為止。

二. 鳶尾花卉Iris資料集

在Sklearn機器學習包中，集成了各種各樣的資料集，上節課講述Kmeans使用的是一個NBA籃球運動員資料集，需要定義X多維矩陣或讀取檔案匯入，而這節課使用的是鳶尾花卉Iris資料集，它是很常用的一個數據集。
資料集來源：Iris plants data set - KEEL dataset
該資料集一共包含4個特徵變數，1個類別變數。共有150個樣本，鳶尾有三個亞屬，分別是山鳶尾 (Iris-setosa)，變色鳶尾(Iris-versicolor)和維吉尼亞鳶尾(Iris-virginica)。
iris是鳶尾植物，這裡儲存了其萼片和花瓣的長寬，共4個屬性，鳶尾植物分三類。

iris裡有兩個屬性iris.data，iris.target。
data裡是一個矩陣，每一列代表了萼片或花瓣的長寬，一共4列，每一列代表某個被測量的鳶尾植物，一共取樣了150條記錄。程式碼如下：

#匯入資料集iris
from sklearn.datasets import load_iris 

#載入資料集
iris = load_iris()
#輸出資料集
print iris.data

輸出如下所示：

[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]
 [ 5.4  3.9  1.7  0.4]
 [ 4.6  3.4  1.4  0.3]
 [ 5.   3.4  1.5  0.2]
 [ 4.4  2.9  1.4  0.2]
 ....
 [ 6.7  3.   5.2  2.3]
 [ 6.3  2.5  5.   1.9]
 [ 6.5  3.   5.2  2. ]
 [ 6.2  3.4  5.4  2.3]
 [ 5.9  3.   5.1  1.8]]

target是一個數組，儲存了data中每條記錄屬於哪一類鳶尾植物，所以陣列的長度是150，陣列元素的值因為共有3類鳶尾植物，所以不同值只有3個。種類：
Iris Setosa（山鳶尾）
Iris Versicolour（雜色鳶尾）
Iris Virginica（維吉尼亞鳶尾）

#輸出真實標籤
print iris.target
print len(iris.target)
#150個樣本 每個樣本4個特徵
print iris.data.shape

輸出結果如下：

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
150
(150L, 4L)

可以看到，類標共分為三類，前面50個類標位0，中間50個類標位1，後面為2。
下面給詳細介紹使用決策樹進行對這個資料集進行測試的程式碼。

三. 決策樹實現鳶尾資料集分析

1. DecisionTreeClassifier

Sklearn機器學習包中，決策樹實現類是DecisionTreeClassifier，能夠執行資料集的多類分類。
輸入引數為兩個陣列X[n_samples,n_features]和y[n_samples],X為訓練資料，y為訓練資料的標記資料。
DecisionTreeClassifier構造方法為：

sklearn.tree.DecisionTreeClassifier(criterion='gini'
				      , splitter='best'
				      , max_depth=None
				      , min_samples_split=2
				      , min_samples_leaf=1
				      , max_features=None
				      , random_state=None
				      , min_density=None
				      , compute_importances=None
				      , max_leaf_nodes=None)

鳶尾花資料集使用決策樹的程式碼如下：

# -*- coding: utf-8 -*-
"""
Created on Fri Oct 14 21:44:19 2016

@author: 楊秀璋
"""

#匯入資料集iris
from sklearn.datasets import load_iris 

#載入資料集
iris = load_iris()

print iris.data          #輸出資料集
print iris.target        #輸出真實標籤
print len(iris.target)
print iris.data.shape    #150個樣本 每個樣本4個特徵


#匯入決策樹DTC包
from sklearn.tree import DecisionTreeClassifier

#訓練
clf = DecisionTreeClassifier()
clf.fit(iris.data, iris.target)
print clf

#預測
predicted = clf.predict(iris.data)

#獲取花卉兩列資料集
X = iris.data
L1 = [x[0] for x in X]
print L1
L2 = [x[1] for x in X]
print L2

#繪圖
import numpy as np
import matplotlib.pyplot as plt
plt.scatter(L1, L2, c=predicted, marker='x')  #cmap=plt.cm.Paired
plt.title("DTC")
plt.show()

輸出結果如下所示，可以看到分位三類，分別代表資料集三種鳶尾植物。

2.程式碼優化

在課堂上我講過，這裡存在兩個問題：
1.前面鳶尾Iris資料集包括四個特徵（萼片長度、萼片寬度、花瓣長度、花瓣寬度），上面程式碼中"L1 = [x[0] for x in X]"我獲取了第一列和第二列資料集進行的繪圖，而真是資料集中可能存在多維特徵，那怎麼實現呢？
這裡涉及到一個降維操作，後面會詳細介紹。
2.第二個問題是，分類學習模型如下所示，它的預測是通過一組新的資料集。

而上面的程式碼"predicted = clf.predict(iris.data)"是對整個的資料集進行決策樹分析，而真是的分類分析，需要把一部分資料集作為訓練，一部分作為預測，這裡使用70%的訓練，30%的進行預測。程式碼如下：

#訓練集
train_data = np.concatenate((iris.data[0:40, :], iris.data[50:90, :], iris.data[100:140, :]), axis = 0)
#訓練集樣本類別
train_target = np.concatenate((iris.target[0:40], iris.target[50:90], iris.target[100:140]), axis = 0)
#測試集
test_data = np.concatenate((iris.data[40:50, :], iris.data[90:100, :], iris.data[140:150, :]), axis = 0)
#測試集樣本類別
test_target = np.concatenate((iris.target[40:50], iris.target[90:100], iris.target[140:150]), axis = 0)

優化後的完整程式碼如下所示，同時輸出準確率、召回率等。

# -*- coding: utf-8 -*-
"""
Created on Fri Oct 14 21:44:19 2016

@author: 楊秀璋
"""

#匯入資料集iris
from sklearn.datasets import load_iris 

#載入資料集
iris = load_iris()

'''
print iris.data          #輸出資料集
print iris.target        #輸出真實標籤
print len(iris.target)
print iris.data.shape    #150個樣本 每個樣本4個特徵
'''

'''
重點：分割資料集 構造訓練集/測試集，120/30
     70%訓練  0-40  50-90  100-140
     30%預測  40-50 90-100 140-150
'''
#訓練集
train_data = np.concatenate((iris.data[0:40, :], iris.data[50:90, :], iris.data[100:140, :]), axis = 0)
#訓練集樣本類別
train_target = np.concatenate((iris.target[0:40], iris.target[50:90], iris.target[100:140]), axis = 0)
#測試集
test_data = np.concatenate((iris.data[40:50, :], iris.data[90:100, :], iris.data[140:150, :]), axis = 0)
#測試集樣本類別
test_target = np.concatenate((iris.target[40:50], iris.target[90:100], iris.target[140:150]), axis = 0)


#匯入決策樹DTC包
from sklearn.tree import DecisionTreeClassifier

#訓練
clf = DecisionTreeClassifier()
#注意均使用訓練資料集和樣本類標
clf.fit(train_data, train_target)
print clf

#預測結果
predict_target = clf.predict(test_data)
print predict_target

#預測結果與真實結果比對
print sum(predict_target == test_target)

#輸出準確率 召回率 F值
from sklearn import metrics
print(metrics.classification_report(test_target, predict_target))
print(metrics.confusion_matrix(test_target, predict_target))


#獲取花卉測試資料集兩列資料集
X = test_data
L1 = [n[0] for n in X]
print L1
L2 = [n[1] for n in X]
print L2

#繪圖
import numpy as np
import matplotlib.pyplot as plt
plt.scatter(L1, L2, c=predict_target, marker='x')  #cmap=plt.cm.Paired
plt.title("DecisionTreeClassifier")
plt.show()

輸出結果如下：

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')
[0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2]
30
             precision    recall  f1-score   support

          0       1.00      1.00      1.00        10
          1       1.00      1.00      1.00        10
          2       1.00      1.00      1.00        10

avg / total       1.00      1.00      1.00        30

[[10  0  0]
 [ 0 10  0]
 [ 0  0 10]]

繪製圖形如下所示：

3.補充知識

# -*- coding: utf-8 -*-
"""
Created on Wed Oct 12 23:30:34 2016

@author: yxz15
"""

print(__doc__)

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

# Parameters
n_classes = 3
plot_colors = "bry"
plot_step = 0.02

# Load data
iris = load_iris()

for pairidx, pair in enumerate([[0, 1], [0, 2], [0, 3],
                                [1, 2], [1, 3], [2, 3]]):
    # We only take the two corresponding features
    X = iris.data[:, pair]
    y = iris.target

    # Train
    clf = DecisionTreeClassifier().fit(X, y)

    # Plot the decision boundary
    plt.subplot(2, 3, pairidx + 1)

    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
                         np.arange(y_min, y_max, plot_step))

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    cs = plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)

    plt.xlabel(iris.feature_names[pair[0]])
    plt.ylabel(iris.feature_names[pair[1]])
    plt.axis("tight")

    # Plot the training points
    for i, color in zip(range(n_classes), plot_colors):
        idx = np.where(y == i)
        plt.scatter(X[idx, 0], X[idx, 1], c=color, label=iris.target_names[i],
                    cmap=plt.cm.Paired)

    plt.axis("tight")

plt.suptitle("Decision surface of a decision tree using paired features")
plt.legend()
plt.show()

輸出如下所示：

繪製視覺化決策樹圖部分，總是報錯：
AttributeError: 'NoneType' object has no attribute 'write'

'''
生成視覺化訓練好的決策樹
詳見：http://scikit-learn.org/stable/modules/tree.html
'''
from sklearn.externals.six import StringIO
from sklearn.tree import export_graphviz
with open("iris.dot", 'w') as f:
    f = export_graphviz(clf, out_file=f)

import pydotplus 
from sklearn import tree
dot_data = tree.export_graphviz(clf, out_file=None) 
graph = pydotplus.graph_from_dot_data(dot_data) 
graph.write_pdf("iris.pdf") 

from IPython.display import Image  
from sklearn import tree
import pydotplus 
dot_data = tree.export_graphviz(clf, out_file="tree.dot", 
                         feature_names=iris.feature_names,  
                         class_names=iris.target_names,  
                         filled=True, rounded=True,  
                         special_characters=True)  
graph = pydotplus.graph_from_dot_data(dot_data)  
Image(graph.create_png())

其中iris.dot資料如下所示：

digraph Tree {
node [shape=box] ;
0 [label="X[2] <= 2.6\ngini = 0.6667\nsamples = 120\nvalue = [40, 40, 40]"] ;
1 [label="gini = 0.0\nsamples = 40\nvalue = [40, 0, 0]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="X[3] <= 1.75\ngini = 0.5\nsamples = 80\nvalue = [0, 40, 40]"] ;
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
3 [label="X[2] <= 4.95\ngini = 0.2014\nsamples = 44\nvalue = [0, 39, 5]"] ;
2 -> 3 ;
4 [label="X[3] <= 1.65\ngini = 0.0512\nsamples = 38\nvalue = [0, 37, 1]"] ;
3 -> 4 ;
5 [label="gini = 0.0\nsamples = 37\nvalue = [0, 37, 0]"] ;
4 -> 5 ;
6 [label="gini = 0.0\nsamples = 1\nvalue = [0, 0, 1]"] ;
4 -> 6 ;
7 [label="X[3] <= 1.55\ngini = 0.4444\nsamples = 6\nvalue = [0, 2, 4]"] ;
3 -> 7 ;
8 [label="gini = 0.0\nsamples = 3\nvalue = [0, 0, 3]"] ;
7 -> 8 ;
9 [label="X[0] <= 6.95\ngini = 0.4444\nsamples = 3\nvalue = [0, 2, 1]"] ;
7 -> 9 ;
10 [label="gini = 0.0\nsamples = 2\nvalue = [0, 2, 0]"] ;
9 -> 10 ;
11 [label="gini = 0.0\nsamples = 1\nvalue = [0, 0, 1]"] ;
9 -> 11 ;
12 [label="X[2] <= 4.85\ngini = 0.054\nsamples = 36\nvalue = [0, 1, 35]"] ;
2 -> 12 ;
13 [label="X[1] <= 3.1\ngini = 0.4444\nsamples = 3\nvalue = [0, 1, 2]"] ;
12 -> 13 ;
14 [label="gini = 0.0\nsamples = 2\nvalue = [0, 0, 2]"] ;
13 -> 14 ;
15 [label="gini = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
13 -> 15 ;
16 [label="gini = 0.0\nsamples = 33\nvalue = [0, 0, 33]"] ;
12 -> 16 ;
}

想生成如下圖，希望後面能修改。也可以進入shell下輸入命令：

$ sudo apt-get install graphviz 
$ dot -Tpng iris.dot -o tree.png  # 生成png圖片
$ dot -Tpdf iris.dot -o tree.pdf  # 生成pdf

最後文章對你有所幫助，上課內容還需要繼續探索，但enjoy myself~
(By:Eastmount 2016-10-15 中午1點半)

【Python資料探勘課程】四.決策樹DTC資料分析及鳶尾資料集分析

一. 分類及決策樹介紹

1.分類

2.決策樹（decision tree）

二. 鳶尾花卉Iris資料集

三. 決策樹實現鳶尾資料集分析

1. DecisionTreeClassifier

2.程式碼優化

3.補充知識

【Python資料探勘課程】四.決策樹DTC資料分析及鳶尾資料集分析

【python資料探勘課程】十二.Pandas、Matplotlib結合SQL語句對比圖分析

【python資料探勘課程】十一.Pandas、Matplotlib結合SQL語句視覺化分析

【python資料探勘課程】十八.線性迴歸及多項式迴歸分析四個案例分享

【python資料探勘課程】十四.Scipy呼叫curve_fit實現曲線擬合

【Python資料探勘課程】五.線性迴歸知識及預測糖尿病例項

【python資料探勘課程】十九.鳶尾花資料集視覺化、線性迴歸、決策樹花樣分析

【python資料探勘課程】十.Pandas、Matplotlib、PCA繪圖實用程式碼補充

【python資料探勘課程】十五.Matplotlib呼叫imshow()函式繪製熱圖

【python資料探勘課程】十六.邏輯迴歸LogisticRegression分析鳶尾花資料

【Python資料探勘課程】六.Numpy、Pandas和Matplotlib包基礎知識

【Python資料探勘課程】七.PCA降維操作及subplot子圖繪製

【Python資料探勘課程】八.關聯規則挖掘及Apriori實現購物推薦

【Python資料探勘課程】一.安裝Python及爬蟲入門介紹

【python資料探勘課程】邏輯迴歸LogisticRegression分析鳶尾花資料

【Python資料探勘課程】三.Kmeans聚類程式碼實現、作業及優化

【python資料探勘課程】十七.社交網路Networkx庫分析人物關係（初識篇）

【python資料探勘課程】二十.KNN最近鄰分類演算法分析詳解及平衡秤TXT資料集讀取

【python資料探勘課程】二十一.樸素貝葉斯分類器詳解及中文文字輿情分析

Python資料探勘課程四.決策樹DTC資料分析及鳶尾資料集分析

【Python資料探勘課程】四.決策樹DTC資料分析及鳶尾資料集分析

一. 分類及決策樹介紹

1.分類

2.決策樹（decision tree）

二. 鳶尾花卉Iris資料集

三. 決策樹實現鳶尾資料集分析

1. DecisionTreeClassifier

2.程式碼優化

3.補充知識

相關推薦