【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

阿新 • • 發佈：2018-12-19

內含3種演算法的核心部分.

沒有找到很好的測試資料.

但就理清演算法思路來說問題不大

剪枝演算法目前只實現了CART迴歸樹的後剪枝.

import numpy as np
from collections import Counter
from sklearn import datasets


class DecisionTree:
    def __init__(self, algorithm='ID3'):
        """選擇誰用的演算法,可選的有ID3,C4.5,CARTcla(CART分類樹),CARTreg(CART迴歸樹)"""
        self.algorithm = algorithm

    @staticmethod
    def cal_entroy(dataset):
        """
        計算資料集的經驗熵,資料集為np.array
        :param dataset: 資料集m*n,m為樣本數,n為特徵數
        :return: 資料集的經驗熵
        """
        m = dataset.shape[0]  # 樣本數
        labels = Counter(dataset[:, -1].reshape(m).tolist())  # 獲取類別及其出現的次數
        entroy = 0  # 初始化經驗熵
        for amount in labels.values():
            prob = amount / m  # 計算概率pi
            entroy -= prob * np.log(prob)  # e=-sum(pi*log(pi))
        return entroy

    @staticmethod
    def cal_gini(dataset):
        """
        計算資料集的基尼指數,資料集為np.array
        :param dataset: 資料集m*n,m為樣本數,n為特徵數
        :return: 資料集的基尼指數
        """
        m = dataset.shape[0]
        labels = Counter(dataset[:, -1].reshape(m).tolist())
        gini = 1
        for amount in labels.values():
            prob = amount / m
            gini -= prob**2  # g=1-sum(pi**2)
        return gini

    @staticmethod
    def cal_se(dataset):
        """
        計算資料集的方差squared error,資料集為np.array
        np.var可直接計算出均方差,乘以樣本數即為方差
        :param dataset: 資料集m*n,m為樣本數,n為特徵數
        :return: 資料集的方差
        """
        return np.var(dataset[:, -1]) * dataset.shape[0] if dataset.shape[0] > 0 else 0

    def split_dataset(self, dataset, feature, value):
        """
        根據特徵feature的特徵值value,劃分資料集
        :param dataset: 資料集m*(n+1),m為樣本數,n為特徵數
        :param feature: 作為劃分點的特徵的索引
        :param value: 特徵的某一個值
        :return: dataset[feature]==value的資料集,且不再包含feature特徵
        """
        m, n = dataset.shape[0], dataset.shape[1] - 1
        if self.algorithm == 'ID3' or self.algorithm == 'C4.5':  # 獲取所有特徵值等於給定值的樣本D,返回去掉該特徵列的D.
            split_data = np.zeros((1, n))  # 初始化一個1*n的二維陣列,便於使用np.concatenate來增添資料,最後輸出結果時再去掉第一行就OK.
            for i in range(m):
                if dataset[i, feature] == value:
                    temp = np.concatenate((dataset[i, : feature], dataset[i, feature + 1:])).reshape(1, n)
                    split_data = np.concatenate((split_data, temp))
            return split_data[1:, :]
        else:  # 獲取符合條件的樣本,用於CART
            if self.algorithm == 'CARTcla':  # CART分類樹,訓練資料為離散型
                left = dataset[np.nonzero(dataset[:, feature] == value)[0], :]
                right = dataset[np.nonzero(dataset[:, feature] != value)[0], :]
            else:  # CART迴歸樹,訓練資料為連續型
                left = dataset[np.nonzero(dataset[:, feature] <= value)[0], :]
                right = dataset[np.nonzero(dataset[:, feature] > value)[0], :]
            return left, right

    def cal_entroy_gain(self, base_ent, dataset, feature):
        """
        計算資訊增益,用於ID3
        :param base_ent: 原資料的經驗熵
        :param dataset: 資料集m*(n+1),m為樣本數,n為特徵數
        :param feature: 作為劃分點的特徵的索引
        :return: 按照指定特徵劃分後的資訊增益
        """
        new_ent = 0
        values = np.unique(dataset[:, feature])  # 獲取特徵值的取值範圍
        for value in values:
            new_ent += self.cal_entroy(self.split_dataset(dataset, feature, value))
        return base_ent - new_ent

    def cal_entroy_gain_rate(self, base_ent, dataset, feature):
        """
        計算資訊增益比,用於C4.5
        :param base_ent: 原資料的經驗熵
        :param dataset: 資料集m*(n+1),m為樣本數,n為特徵數
        :param feature: 作為劃分點的特徵的索引
        :return: 按照指定特徵劃分後的資訊增益比
        """
        new_ent, split_ent = 0, 0
        values = np.unique(dataset[:, feature])
        for value in values:
            split_data = self.split_dataset(dataset, feature, value)
            new_ent += self.cal_entroy(split_data)
            prob = split_data.shape[0] / dataset.shape[0]
            split_ent -= prob * np.log(prob)
        return (base_ent - new_ent) / split_ent

    def cal_split_gini(self, dataset, feature):
        """
        計算資料集按照某一特徵的值劃分後,可以取得的最小基尼指數,返回該基尼指數和對應的值. 用於CART分類樹
        :param dataset: 資料集m*(n+1),m為樣本數,n為特徵數
        :param feature: 作為劃分點的特徵的索引
        :return: 最小基尼指數與其對應的特徵值
        """
        values = np.unique(dataset[:, feature])
        min_gini, min_value = np.inf, 0
        for value in values:
            left, right = self.split_dataset(dataset, feature, value)
            new_gini = left.shape[0] / dataset.shape[0] * self.cal_gini(left) + right.shape[0] / dataset.shape[0] * \
                       self.cal_gini(right)
            if new_gini < min_gini:
                min_gini = new_gini
                min_value = value
        return min_gini, min_value

    def cal_split_se(self, dataset, feature):
        """
        計算資料集按照某一特徵的值劃分後,可以取得的最小方差,返回該方差和對應的值. 用於CART迴歸樹
        :param dataset: 資料集m*(n+1),m為樣本數,n為特徵數
        :param feature: 作為劃分點的特徵的索引
        :return: 最小基尼指數與其對應的特徵值
        """
        values = np.unique(dataset[:, feature])
        min_se, min_value = np.inf, 0
        for value in values:
            left, right = self.split_dataset(dataset, feature, value)
            new_se = self.cal_se(left) + self.cal_se(right)
            if new_se < min_se:
                min_se = new_se
                min_value = value
        return min_se, min_value

    def choose_best_feature(self, dataset):
        """
        根據各演算法的要求,選取對劃分資料效果最好的特徵.
        :param dataset: 資料集m*(n+1),m為樣本數,n為特徵數
        :return: 對於ID3和C.45,返回最佳特徵的索引值;對於CART迴歸樹和分類樹,返回最佳特徵的索引值和對應的特徵值
        """
        m, n = dataset.shape[0], dataset.shape[1] - 1
        base_ent = self.cal_entroy(dataset)
        delta_gini, delta_info = np.inf, -np.inf  # 前者用於CART,後者用於ID3和C.45
        best_feature, best_value = -1, 0  # 定義最佳特徵索引和特徵值
        for feature in range(n):
            if self.algorithm == 'ID3':
                newdelta_info = self.cal_entroy_gain(base_ent, dataset, feature)
                if newdelta_info > delta_info:
                    best_feature = feature
                    delta_info = newdelta_info
            elif self.algorithm == 'C4.5':
                newdelta_info = self.cal_entroy_gain_rate(base_ent, dataset, feature)
                if newdelta_info > delta_info:
                    best_feature = feature
                    delta_info = newdelta_info
            elif self.algorithm == 'CARTcla':
                new_gini, value = self.cal_split_gini(dataset, feature)
                if new_gini < delta_gini:
                    delta_gini = new_gini
                    best_value = value
                    best_feature = feature
            else:  # CART迴歸樹
                new_se, value = self.cal_split_se(dataset, feature)
                if new_se < delta_gini:
                    delta_gini = new_se
                    best_value = value
                    best_feature = feature
        if self.algorithm == 'ID3' or self.algorithm == 'C4.5':
            return best_feature
        else:
            return best_feature, best_value

    def training(self, dataset, feature_label=None):
        """
        訓練模型,即生成決策樹的函式.利用字典來作為樹的資料結構.ID3和C4.5是N叉樹,CART是二叉樹
        :param dataset: 資料集m*(n+1),m為樣本數,n為特徵數
        :param feature_label: 索引值對應的含義列表,若沒有給定,則用初始資料的索引值代替.
        :return: 字典形式的決策樹
        """
        dataset = np.array(dataset)
        targets = dataset[:, -1]
        if np.unique(targets).shape[0] == 1:  # 即標籤列表中只有一個類別，返回此類別
            return targets[0]
        if dataset.shape[1] == 1:  # 對應 沒有特徵值可分的情況
            return Counter(targets.tolist()).most_common(1)[0]
        if feature_label is None:  # 若沒有給定對照表,則用初始資料的索引值代替.
            feature_label = [i for i in range(dataset.shape[1] - 1)]  

        if self.algorithm == 'ID3' or self.algorithm == 'C4.5':
            best_feature = self.choose_best_feature(dataset)  # 選取最佳分類特徵索引值
            best_feature_label = feature_label[best_feature]  # 獲取其含義
            feature_label_copy = feature_label.copy()  # 避免對源資料的修改
            feature_label_copy.pop(best_feature)  # 因為這個表要傳遞給子樹使用，所以刪去表中的這個元素（不然會導致索引值混亂，從而無法對應正確的特徵）
            mytree = {best_feature_label: {}}  # 建立根節點
            values = np.unique(dataset[:, best_feature])
            for value in values:  # 針對最佳分類特徵的每一個屬性值，建立子樹
                sublabel = feature_label_copy[:]  # 更新 子 特徵-含義 列表
                mytree[best_feature_label][value] = self.training(self.split_dataset(dataset, best_feature, value), 
                                                                  sublabel)
        else:
            best_feature, best_value = self.choose_best_feature(dataset)
            best_feature_label = feature_label[best_feature]
            mytree = dict()
            mytree['FeatLabel'] = best_feature_label  # 記錄結點選擇的特徵
            mytree['FeatValue'] = best_value  # 記錄結點選擇的特徵的值
            l_set, r_set = self.split_dataset(dataset, best_feature, best_value)
            mytree['left'] = self.training(l_set, feature_label)  # 構建左子樹
            mytree['right'] = self.training(r_set, feature_label)  # 構建右子樹
        return mytree

    def predict(self, tree, test_data, feature_label=None):
        """
        使用訓練好的決策樹,對單個待測樣本進行預測.如果要預測一個數據集,可以把資料集拆開來一個一個的進行預測再組合起來.
        :param tree: 訓練好的決策樹
        :param test_data: 待測樣本1*n
        :param feature_label: 索引值對應的含義列表,若沒有給定,則用初始資料的索引值代替.
        :return: 預測結果
        """
        if not isinstance(tree, dict):  # 終止條件,意味著到達葉子結點,返回葉子結點的值
            return tree
        if feature_label is None: 
            feature_label = [i for i in range(test_data.shape[1] - 1)]
        if self.algorithm == 'ID3' or self.algorithm == 'C4.5':
            best_feature_label = list(tree.keys())[0]  # 獲取特徵-含義對照表的值
            best_feature = feature_label.index(best_feature_label)  # 獲取特徵的索引值
            sub_tree = tree[best_feature_label]  # 獲取子樹
            value_of_feat = sub_tree[test_data[best_feature]]  # 找到測試樣本相應特徵值對應的子樹,遍歷該子樹
            return self.predict(value_of_feat, test_data, feature_label)
        else:
            best_feature_label = tree['FeatLabel']
            best_feature = feature_label.index(best_feature_label)
            if self.algorithm == 'CARTcla':  # CART分類樹
                if test_data[best_feature] == tree['FeatValue']:
                    return self.predict(tree['left'], test_data, feature_label)
                else:
                    return self.predict(tree['right'], test_data, feature_label)
            else:  # CART迴歸樹
                if test_data[best_feature] <= tree['FeatValue']:
                    return self.predict(tree['left'], test_data, feature_label)
                else:
                    return self.predict(tree['right'], test_data, feature_label)

    def prune(self, tree, test_data):
        """
        利用測試集,對生成樹進行後剪枝(CART迴歸樹)
        :param tree: 訓練好的決策樹
        :param test_data: 測試集資料m*(n+1),帶標籤列
        :return: 剪枝後的決策樹
        """
        def istree(tr):  # 判斷是否為決策樹
            return isinstance(tr, dict)

        def getmean(tr):  # 返回決策樹所有葉子結點的均值
            if istree(tr['left']):
                tr['left'] = getmean(tr['left'])
            if istree(tr['right']):
                tr['right'] = getmean(tr['right'])
            return (tr['left'] + tr['right']) / 2

        left = right = None
        if self.algorithm == 'CARTreg':
            if not test_data:  # 如果測試集為空,則對決策樹做塌陷處理,返回樹的葉子結點的均值
                return getmean(tree)
            if istree(tree['left']) or istree(tree['right']):
                left, right = self.split_dataset(test_data, tree['FeatLabel'], tree['FeatValue'])
            if istree(tree['left']): 
                tree['left'] = self.prune(tree['left'], left)  # 遍歷左子樹
            if istree(tree['right']): 
                tree['right'] = self.prune(tree['right'], right)  # 遍歷右子樹
            if not istree(tree['left']) and not istree(tree['right']):  # 抵達葉子結點
                left, right = self.split_dataset(test_data, tree['FeatLabel'], tree['FeatValue'])
                error_nomerge = np.sum(np.power(left[:, -1] - tree['left'], 2)) + \
                                np.sum(np.power(right[:, -1] - tree['right'], 2))
                tree_mean = (tree['left'] + tree['right']) / 2
                error_merge = np.sum(np.power(test_data[:, -1] - tree_mean, 2))
                if error_merge <= error_nomerge:  # 比較合併後與合併前,測試資料的誤差,那個更小
                    return tree_mean
                else:
                    return tree
            return tree


def test():
    """使用sklearn的鳶尾花資料集和生成的迴歸資料集分別對分類模型和迴歸模型測試"""
    dataset1 = datasets.load_iris()
    dataset1 = np.concatenate((dataset1['data'], dataset1['target'].reshape(-1, 1)), axis=1)
    dataset2 = datasets.make_regression()
    dataset2 = np.concatenate((dataset2[0], dataset2[1].reshape(-1, 1)), axis=1)
    dt1 = DecisionTree(algorithm='ID3')
    dt2 = DecisionTree(algorithm='C4.5')
    dt3 = DecisionTree(algorithm='CARTcla')
    dt4 = DecisionTree(algorithm='CARTreg')
    print(dt1.training(dataset1))
    print(dt2.training(dataset1))
    print(dt3.training(dataset1))
    print(dt4.training(dataset2))


test()

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

內含3種演算法的核心部分. 沒有找到很好的測試資料. 但就理清演算法思路來說問題不大剪枝演算法目前只實現了CART迴歸樹的後剪枝. import numpy as np from collections import Counter from sklearn imp

【機器學習】決策樹與隨機森林（轉）

文章轉自： https://www.cnblogs.com/fionacai/p/5894142.html 首先，在瞭解樹模型之前，自然想到樹模型和線性模型有什麼區別呢？其中最重要的是，樹形模型是一個一個特徵進行處理，之前線性模型是所有特徵給予權重相加得到一個新的值。決

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

CART同樣由特徵選擇、樹的生成、剪枝組成。既可以用於迴歸，又可以用於分類。 CART是在給定輸入隨機變數X條件下輸出隨機變數Y的條件概率分佈的學習方法。 CART假設決策樹是二叉樹，內部節點特徵的取值為“是“和“否“，左分支是取值為“是“的分支，右分支是取值為“否“的分支。這樣的決策樹

【機器學習】決策樹（上）

前言：決策樹是一種基本的分類與迴歸演算法。可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。學習時，利用訓練資料，根據損失函式最小化原則建立決策樹模型。學習包括3個步驟：特徵選擇、決策樹的生成、決策樹的修建一、決策樹模型更多參照博文

【機器學習】決策樹（上）——從原理到演算法實現

前言：決策樹（Decision Tree）是一種基本的分類與迴歸方法，本文主要討論分類決策樹。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。相比樸素

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧前面我們介紹了決策樹的特徵選擇，以及根據資訊增益構建決策樹。那麼決策樹的生成又有哪些經典演算法呢？本篇將主要介紹ID3的生成演算法，然後介紹C4.5中的生成演算法。最後簡單介紹CRAT演算法。 ID3演算法前面我們提到，一般而言，資訊增

【機器學習】決策樹（二）——通過例子理解構建過程

回顧前面我們簡單介紹了決策樹，以及資訊熵和條件熵的概念。提到構建決策樹的過程，那麼我們是如何根據特徵來構建決策樹的呢？決策樹的構建過程決策樹演算法的重點就是決策樹的構造；決策樹的構造就是進行屬性選擇度量確定各個特徵之間的樹結構；構建決策樹的關鍵步驟就是分

【機器學習】決策樹剪枝優化及視覺化

前言 \quad\quad 前面，我們介紹了分類決策樹的實現，以及用 sklearn 庫中的 DecisionTre

【機器學習】決策樹總結

具體的細節概念就不提了，這篇blog主要是用來總結一下決策樹的要點和注意事項，以及應用一些決策樹程式碼的。一、決策樹的優點： • 易於理解和解釋。數可以視覺化。也就是說決策樹屬於白盒模型，如果一個情況被觀察到，使用邏輯判斷容易表示這種規則。相反，如

【機器學習】決策樹演算法的基本原理

　　參考周志華老師的《機器學習》一書，對決策樹演算法進行總結。　　決策樹(Decision Tree)是在已知各種情況發生概率的基礎上，通過構建決策樹來求取淨現值期望值大於等於0的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的圖解法。

【機器學習】決策樹01

.sh sca ted decision 之前 del png 數據 linspace 什麽是決策樹 - 從一個實際生活的例子入手如何判斷一個人是否勝任機器學習算法工程師？這裏的決策樹的每一個節點的判斷都是一個是否問題使用scikit-learn庫實現的決策樹 im

【機器學習】交叉驗證（cross-validation）

1、什麼是交叉驗證交叉驗證（Cross validation)，交叉驗證用於防止模型過於複雜而引起的過擬合。有時亦稱迴圈估計，是一種統計學上將資料樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析，而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱

【機器學習】神經網路（一）——多類分類問題

一、問題引入早在監督學習中我們已經使用Logistic迴歸很好地解決二類分類問題。但現實生活中，更多的是多類分類問題（比如識別10個手寫數字）。本文引入神經網路模型解決多類分類問題。二、神經網路模型介紹神經網路模型是一個非常強大的模型，起源於嘗試讓機

【機器學習】人像識別（三）——K-Means聚類

簡介　　K-Means聚類是一種非監督的聚類方式，原理參看資料探勘十大演算法 | k-means。　　程式碼 import sys import random import numpy as np from sklearn.decomposit

【機器學習】人像識別（二）——PCA降維

　　降維沒有什麼祕訣。我用了python裡sklearn.decomposition模組的IncrementalPCA。　　程式碼如下： X = np.array(dots) # do

【機器學習】數值分析（1）—— 任意方程求根

# 任意方程求根 ## 簡介方程和函式是代數數學中最為重要的內容之一，從初中直到大學，我們都在研究著方程與函式，甚至我們將圖形代數化，從而發展出了代數幾何、解析幾何的內容。而在方程與函式中，我們研究其性質最多的，往往就是方程的根（零點），即使是研究方程的極值點、鞍點等，我們無非也只是研究其微商的零點。

【機器學習】使用樸素貝葉斯進行文件分類

樸素貝葉斯的一般過程： 1、收集資料：任何方法 2、準備資料：需要數值型或者布林型資料 3、分析資料：有大量特徵時，繪製特徵作用不大，此時使用直方圖效果更好 4、訓練演算法：計算不同的獨立特徵的條件概率 5、測試演算法：計算錯誤率 6、使用演算法：常見的樸素貝葉斯應用是

【機器學習】迭代決策樹GBRT（漸進梯度迴歸樹）

一、決策樹模型組合單決策樹C4.5由於功能太簡單，並且非常容易出現過擬合的現象，於是引申出了許多變種決策樹，就是將單決策樹進行模型組合，形成多決策樹，比較典型的就是迭代決策樹GBRT和隨機森林RF。在最近幾年的paper上，如iccv這種重量級會議，iccv 09年的裡面有不少

【機器學習】分類決策樹與迴歸決策樹案例

一、回顧什麼是決策樹，資訊熵構建決策樹的過程 ID3、C4.5和CRAT演算法上面三篇，主要介紹了相關的理論知識，其中構建決策樹的過程可以很好地幫助我們理解決策樹的分裂屬性的選擇。本篇所有原始碼：Github 二

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

相關推薦