機器學習：隨機森林演算法及其實現

阿新 • • 發佈：2018-12-31

文章目錄

隨機森林演算法描述：
如何對features進行bootstrap?
演算法程式碼實現：

隨機森林演算法描述：

在這裡插入圖片描述

如何對features進行bootstrap?

我們需要一個feature_bound引數，每次把可以選擇的features打亂，從種選出log(d）個，每次選擇feature劃分時都是這麼選擇。
原來的決策樹程式碼，是在結點的可選node維度列表裡選取：

for feat in self.feats:

現在修改加入隨機性：

feat_len = len(self.feats)
# 預設沒有隨機性 

if feature_bound is None:
    indices = range(0, feat_len)
elif feature_bound == "log":
    # np.random.permutation(n)：將陣列打亂後返回
    indices = np.random.permutation(feat_len)[:max(1, int(log2(feat_len)))]
else:
    indices = np.random.permutation(feat_len)[:feature_bound]
tmp_feats = [self.feats[i] for 
 i in indices]
for feat in tmp_feats:

實際上這個是拉斯維加斯隨機演算法，把確定性演算法的某一步修改成隨機概率方式。

演算法程式碼實現：

# 匯入我們自己實現的決策樹模型
# 匯入我們自己實現的決策樹模型
from c_CvDTree.Tree import *
import numpy as np
class RandomForest(ClassifierBase):
    # 建立一個決策樹字典，以便呼叫
    _cvd_trees = {
        "id3": ID3Tree,
        "c45": C45Tree,
        "cart" 
: CartTree
    }
    def __init__(self):
        super(RandomForest, self).__init__()
        self._trees = []
    # 實現計算的函式
    @staticmethod
    def most_appearance(arr):
        u, c = np.unique(arr, return_counts=True)
        return u[np.argmax(c)]
    # 預設使用 10 棵 CART 樹、預設 k = log(d)
    def fit(self, x, y, sample_weight=None, tree="cart", epoch=10, feature_bound="log",
            *args, **kwargs):
        x, y = np.atleast_2d(x), np.array(y)
        n_sample = len(y)
        for _ in range(epoch):
            tmp_tree = RandomForest._cvd_trees[tree](*args, **kwargs)
            # 每次選取n_sample個樣本
            _indices = np.random.randint(n_sample, size=n_sample)
            if sample_weight is None:
                _local_weight = None
            else:
                _local_weight = sample_weight[_indices]
                _local_weight /= _local_weight.sum()
            # 針對樣本進行訓練，生成樹
            tmp_tree.fit(x[_indices], y[_indices],
                sample_weight=_local_weight, feature_bound=feature_bound)
            # 把生成的樹放入森林列表
            self._trees.append(deepcopy(tmp_tree))
    # 對個體決策樹進行簡單組合
    # 把10棵樹的判斷的類別放入列表裡，這裡可能是多個樣本所以是matrix，
    # 把每個樣本的類別出現次數最多的類別，即為輸出結果
    def predict(self, x):
        _matrix = np.array([_tree.predict(x) for _tree in self._trees]).T
        return np.array([RandomForest.most_appearance(rs) for rs in _matrix])

機器學習：隨機森林演算法及其實現

文章目錄隨機森林演算法描述：如何對features進行bootstrap? 演算法程式碼實現：隨機森林演算法描述：如何對features進行bootstrap? 我們需要一個feature_bound引數，每次把可以選

機器學習：隨機森林（Random Forest）

隨機森林，Random Forest，簡稱RF，是一個很強大的模型。要研究隨機森林，首先要研究決策樹，然後再去看RF是怎麼通過多顆決策樹的整合提高的模型效果。決策樹分為三種，分別是ID3、C4.5和CART決策樹： ID3：資訊增益 C4.5：資訊增益率

機器學習——Bagging與隨機森林演算法及其變種

Bagging演算法：　　凡解：給定M個數據集，有放回的隨機抽取M個數據，假設如此抽取3組，3組資料一定是有重複的，所以先去重。去重後得到3組資料，每組資料量分別是s1,s2,s3，然後三組分別訓練組合成一個強模型。如下圖：隨機森林演算法：　　一般用於大規模資料

機器學習之隨機森林——CART模型的PYTHON實現

機器學習之隨機森林——CART模型PYTHON實現把機器學習的過程記錄一下。隨機森林即利用決策樹群對樣本進行訓練並預測的一種分類器，其與單棵決策樹相比可以平衡誤差。其中CART模型：二叉決策樹，節點特徵只取值“是”與“否”；輸入特徵的切分方式，啟

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

機器學習：評價分類結果（實現混淆矩陣、精準率、召回率）

test set 目的 mod 二分參數 nbsp return try 一、實例　1）構造極度偏差的數據 import numpy as np from sklearn import datasets digits = datasets.load_digits

機器學習：K近鄰演算法，kd樹

https://www.cnblogs.com/eyeszjwang/articles/2429382.html kd樹詳解 https://blog.csdn.net/v_JULY_v/article/details/8203674 一、K-近鄰演算法（KNN）概述

機器學習實戰——k-近鄰演算法Python實現問題記錄

準備 kNN.py 的python模組 from numpy import * import operator def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

機器學習之隨機森林RandomForestRegressor

機器學習之隨機森林RandomForestRegressor # -*- coding: utf-8 -*- """ Created on Tue Dec 4 18:29:45 2018 @author: muli """ import matplotlib.py

機器學習之隨機森林RandomForestClassifier

機器學習之隨機森林RandomForestClassifier # -*- coding: utf-8 -*- """ Created on Mon Dec 3 22:26:54 2018 @author: muli """ import matplotlib.p

機器學習筆記11-EM演算法及其推廣

機器學習筆記11-EM演算法及其推廣 EM演算法是一種迭代演算法，用於含有隱變數的概率模型引數的極大似然估計，或極大後驗概率估計。EM演算法的每次迭代由兩部組成：E步，求期望（expectation）；M步，求極大（maximization）。 EM演算法的引入我們面對一

計算機視覺：隨機森林演算法在人體識別中的應用

摘要人體識別是計算機視覺領域的一大類熱點問題，其研究內容涵蓋了人體的監測與跟蹤、手勢識別、動作識別、人臉識別、性別識別和行為與事件識別等，有著非常廣泛的應用價值。隨機森林以它自身固有的特點和優良的分類效果在眾多的機器學習演算法中脫穎而出。隨機森林演算法的實質是一

機器學習（K近鄰演算法程式碼實現迴歸）

K近鄰演算法進行迴歸預測一般步驟 1 資料的匯入與預處理 2 資料的標準化與歸一化 3 生成訓練集和測試集 4 利用訓練集進行訓練，匯入測試集得出預測值 5 真實值與與測試值進行比較評價 import csv import numpy as np import p

機器學習：有監督演算法之分類

說明：機器學習橫跨電腦科學、工程技術和統計學等多個科學。人們很難直接從原始資料本身獲得所需資訊，機器學習可以把無序的資料轉換成有用的資訊；移動計算和感測器產生的海量資料意味著未來將面臨越來越多的資料，如何從中抽取到有價值的資訊很重要，機器學習可以幫助我們從中抽取有用的資訊。

Bagging：隨機森林及Python實現

隨機森林是bagging的代表 1、bagging： bootstrap sampling：自助取樣法。給定包含m個樣本的資料集，我們先隨機取出一個樣本放入取樣集中，再把該樣本放回初始資

機器學習：降維演算法-主成分分析PCA演算法兩種角度的推導

若把高維空間的樣本點（可以想象是一個3維的）對映到一個超平面，怎樣的超平面可以認為是“好的”，可以想到這個超平面大概有這樣的性質：最近重構行：樣本點到超平面的距離都足夠近；（樣本點變化儘可能小，丟失的資訊儘可能少）最大可分性：樣本點在這個超平面上的投影儘可能分開.（樣

【吳恩達機器學習】邏輯迴歸演算法Matlab實現

一，假設函式： 1）邏輯迴歸（Logistic Regression)，Logistic function, Sigmoid function是同一個意思，函式形式（假設函式形式）如下: 邏輯迴歸是二分類演算法，hθ(x)>=0.5hθ(x)&g

機器學習之決策樹演算法python實現

一. 理論基礎 1. 特徵選擇 a. 資訊熵 H(D)=−∑i=0kpilogpi b. 條件熵 H(Y|X)=∑i=0npiH(Y|X=xi) c. 資訊增益 I(D,A)=H(D)−H(D|A) d. 資訊增益比

SVM支援向量機-《機器學習實戰》SMO演算法Python實現（5）

經過前幾篇文章的學習，SVM的優化目標，SMO演算法的基本實現步驟，模型對應引數的選擇，我們已經都有了一定的理解，結合《機器學習實戰》，動手實踐一個基本的SVM支援向量機，來完成一個簡單的二分類任務。建立模型之前，首先看一下我們的資料，然後再用支援向量機實現分類：

機器學習實戰-隨機森林二分類問題

lena elf 線性評估形式 www. 分類器 and 數據隨機森林概論前提 Random Forest:可以理解為Bagging with CARTS. Bagging是bootstrap aggregating（引導聚集算法）的縮寫。 CART(c

機器學習：隨機森林演算法及其實現

文章目錄

隨機森林演算法描述：

如何對features進行bootstrap?

演算法程式碼實現：

相關推薦