寫程式學ML：決策樹演算法原理及實現（四）

阿新 • • 發佈：2019-01-29

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。

2.3 決策樹的測試

書中使用隱形眼鏡資料集對決策樹進行了測試。

建立測試檔案contactLenses4DecisionTree.py；

開啟儲存隱形眼鏡資料集的檔案lenses.txt，從中讀取每一行資料；

定義儲存特徵的變數；

呼叫模組DecisionTree的函式createTree()，構建整個決策樹；

呼叫模組DecisionTreePlotter的函式createPlot()繪製整棵決策樹；

呼叫模組DecisionTree的函式classify()對測試樣本進行判斷；

具體程式碼如下：

fr = open('lenses.txt') #開啟樣本集檔案
#strip() 方法用於移除字串頭尾指定的字元（預設為空格）
#split()通過指定分隔符對字串進行切片，如果引數num 有指定值，則僅分隔 num 個子字串
#str.split(str="", num=string.count(str))
#readlines()從檔案中一行一行地讀資料，返回一個列表；讀取的行資料包含換行符
#從樣本集檔案中讀取所有的行，用換行符分開，去除每行行首和行末的空格，儲存到列表變數lenses中
lenses = [inst.strip().split('\t') for inst in fr.readlines()]
lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate'] #定義樣本集的特徵集
lensesTree = DecisionTree.createTree(lenses, lensesLabels) #呼叫模組DecisionTree的函式createTree對樣本集產生決策樹
print lensesTree
storeTree(lensesTree, 'DecisionTreeStorage.txt') #將決策樹儲存到檔案中

inTree = grabTree('DecisionTreeStorage.txt') #從檔案中載入決策樹
DecisionTreePlotter.createPlot(inTree) #呼叫模組DecisionTreePlotter的函式createPlot繪製產生的決策樹

lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate'] #定義樣本集的特徵集
print DecisionTree.classify0(inTree, lensesLabels, ['young','hyper','no','normal'])
print DecisionTree.classify(inTree, lensesLabels, ['young','hyper','no','reduced'])

它們的測試結果如下：

soft

no lenses

模組DecisionTreePlotter的函式createPlot()繪製的整棵決策樹如下：

3、小結

決策樹分類器就像帶有終止塊的流程圖，終止塊表示分類結果。開始處理資料集時，首先需要測量集合中資料的不一致性，也就是熵，然後尋找最優方案劃分資料集，直到資料集中的所有資料屬於同一分類。

決策樹非常好地匹配了實驗資料，然而這些匹配選項可能太多了。將這種問題稱為過度匹配（overfitting）。

ID3演算法可以用於劃分標稱型資料集。該演算法會產生過度匹配資料集的問題。可以通過裁剪決策樹，合併相鄰的無法產生大量資訊增益的葉節點，消除過度匹配問題。

其他決策樹構造演算法，最流行的是C4.5和CART。

本文中涉及的所有code可以訪問如下目錄獲取：

（完）

寫程式學ML：決策樹演算法原理及實現（四）

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。 2.3 決策樹的測試書中使用隱形眼鏡資料集對決策樹進行了測試。建立測試檔案contactLenses4Deci

寫程式學ML：Logistic迴歸演算法原理及實現（三）

2.2 利用Logistic演算法預測病馬死亡率由於採集資料是諸多原因，採集的資料有可能不完整。但有時候資料相當昂貴，扔掉和重新獲取都是不可取的，所以必須採用一些方法來解決這個問題。處理資料中缺失值的做法： 1> 使用可用特徵的均值來填補缺失值； 2&g

寫程式學ML：Logistic迴歸演算法原理及實現（一）

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。 1、Logistic迴歸演算法的原理假設現在有一些資料點，我們用一條直線對這些點進行擬合（該線稱為最佳擬合直線），這個

寫程式學ML：Logistic迴歸演算法原理及實現（二）

2、Logistic迴歸演算法的實現 2.1 Logistic演算法的實現首先，我們實現梯度上升演算法。 Sigmoid函式的定義如下： #sigmoid函式的實現 def sigmoid(inX): return 1.0 / (1 + exp(-inX))

寫程式學ML：樸素貝葉斯演算法原理及實現（一）

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。 1、樸素貝葉斯演算法的原理樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。和決策樹模型相比，樸素貝葉斯

寫程式學ML：樸素貝葉斯演算法原理及實現（二）

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。 2、樸素貝葉斯演算法的實現 2.1 樸素貝葉斯演算法的實現按照樸素貝葉斯演算法的原理，我們需要實現一個樸素貝葉

決策樹演算法原理及實現

歡迎大家檢視實現的完整程式碼。。。決策樹模型分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別：內部節點和葉節點，內部節點表示一個特徵或屬性，葉節點表示一個分類類別。分類的時候，從根節點開始，按照某種策略對

Kaggle競賽入門：決策樹演算法的Python實現

本文翻譯自kaggle learn，也就是kaggle官方最快入門kaggle競賽的教程，強調python程式設計實踐和數學思想（而沒有涉及數學細節），筆者在不影響演算法和程式理解的基礎上刪除了一些不必要的廢話，畢竟英文有的時候比較囉嗦。一.決策樹演算法基本原理背景：假設你的哥哥是一個投資房地產的大佬，投

Kaggle競賽入門(一)：決策樹演算法的Python實現

決策樹演算法原理及JAVA實現(ID3)

package sequence.machinelearning.decisiontree.myid3; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.FileWri

ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)

分類是資料探勘中十分重要的組成部分. 分類作為一種無監督學習方式被廣泛的使用. 之前關於"資料探勘中十大經典演算法"中,基於ID3核心思想的分類演算法 C4.5榜上有名.所以不難看出ID3在資料分類中是多麼的重要了. ID3又稱為決策樹演算法,雖然現在廣義的決策樹演

【演算法】B+樹的研讀及實現（1）

【前言】為什麼要明白b+樹？假如大家有操作資料庫及開發有關資料庫的經驗，那麼肯定知道索引這個概念，那麼進一步問你什麼叫索引？ mysql的索引就是B+樹，而其他資料庫我不太清楚，但是，b+樹是一般的索引演算法，當然，oracle、postgres等資料庫聽說也支援r樹的索

【演算法】B+樹的研讀及實現（2）---java版核心程式碼

【前言】假如大家已經弄懂了b樹及b+樹那麼恭喜你們了，因為我覺得，b樹及b+樹是檔案系統尤其是資料庫優化的關鍵。這裡預告一下，下一篇課題（也不能說課題，只能用“業餘研究題目”這種稱呼）是R樹，R樹似乎是多維的B+樹，各位假如也希望弄懂R樹的話，請先好好看看b+樹。

象棋人工智慧演算法的C++實現（四）——人工智慧的開端

前言：前面幾篇部落格詳細介紹了棋盤類的封裝、棋子類的封裝以及各種型別的棋子的走棋演算法的實現。有了前面的鋪墊，就能邁出人工智慧的第一步了。本系列部落格還是重點介紹實現方法，很多的程式碼都不再過多解釋了。人機對戰類： #ifndef SINGLEGAME_H #defin

氣泡排序演算法原理及實現（超詳細）

氣泡排序（Bubble Sort）是排序演算法裡面比較簡單的一個排序。它重複地走訪要排序的數列，一次比較兩個資料元素，如果順序不對則進行交換，並一直重複這樣的走訪操作，直到沒有要交換的資料元素為止。氣泡排序的原理為了更深入地理解氣泡排序的操作步驟，我們現在看一下氣泡排序的原理。首先我們肯定有一個數組

快速排序演算法原理及實現（單軸快速排序、三向切分快速排序、雙軸快速排序）

歡迎探討，如有錯誤敬請指正 1. 單軸快速排序的基本原理快速排序的基本思想就是從一個數組中任意挑選一個元素（通常來說會選擇最左邊的元素）作為中軸元素，將剩下的元素以中軸元素作為比較的標準，將小於等於中軸元素的放到中軸元素的左邊，將大於中軸元素的放到中軸元素的右邊，然後以當前中軸元素的位置為界，將左半部分子

K近鄰演算法理解及實現（python）

KNN的工作原理：給定一個已知標籤類別的訓練資料集，輸入沒有標籤的新資料後，在訓練資料集中找到與新資料最鄰近的k個例項，如果這k個例項的多數屬於某個類別，那麼新資料就屬於這個類別。可以簡單理解為：由那些離X最近的k個點來投票決定X歸為哪一類。在二維平面下：

用C++實現連連看程式碼原理及解析（四）——消子演算法

本文例項為大家分享了MFC實現連連看遊戲消子演算法的具體程式碼，供大家參考，具體內容如下兩個位置的圖片能否消除，有三種情況：【加入我們的學習群（C/C++群：892643663；Java群：957907127），大牛線上為您提供服務，還有免費編譯大禮包和視訊教程贈送哦】 1.

knn演算法原理與實現（1）

一、演算法原理與模型 knn演算法即最近鄰演算法，其原理非常簡單即根據給定的資料集，計算資料集中點的特徵到待分類資料的歐氏距離，然後選擇距離最近的k個作為判斷依據，這k個數據中出現類別最多的作為新輸入資料的label。模型用公式表示如下：二、python程式碼實現

Apriori演算法簡介及實現（python）

Apriori這個詞的意思是“先驗的”，從priori這個詞根可以猜出來~;) 。該演算法用於從資料中挖掘頻繁項資料集以及關聯規則。其核心原理是基於這樣一類“先驗知識”：如果一個數據項在資料庫中是頻繁出現的，那麼該資料項的子集在資料庫中也應該是頻繁出現的（命題1）

寫程式學ML：決策樹演算法原理及實現（四）

3、小結

相關推薦