機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

阿新 • • 發佈：2018-08-24

mod ces 數據大於等於即使平均值方差很多 mode

一高斯樸素貝葉斯分類器代碼實現

網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相比少了很多屬性和方法，有興趣的可以自己添加。代碼如下（有詳細註釋）：

class NaiveBayes():
    ‘‘‘高斯樸素貝葉斯分類器‘‘‘

    def __init__(self):

        self._X_train = None
        self._y_train = None
        self._classes = None
        self._priorlist = None
        self._meanmat = None
        self._varmat = None

    def fit(self, X_train, y_train):
        
        self._X_train = X_train
        self._y_train = y_train
        self._classes = np.unique(self._y_train)                       #  得到各個類別
        priorlist = []
        meanmat0 = np.array([[0, 0, 0, 0]])
        varmat0 = np.array([[0, 0, 0, 0]])
        for i, c in enumerate(self._classes):
            # 計算每個種類的平均值，方差，先驗概率
            X_Index_c = self._X_train[np.where(self._y_train == c)]        # 屬於某個類別的樣本組成的“矩陣”
            priorlist.append(X_Index_c.shape[0] / self._X_train.shape[0])  # 計算類別的先驗概率
            X_index_c_mean = np.mean(X_Index_c, axis=0, keepdims=True)     # 計算該類別下每個特征的均值，結果保持二維狀態[[3 4 6 2 1]]
            X_index_c_var = np.var(X_Index_c, axis=0, keepdims=True)       # 方差
            meanmat0 = np.append(meanmat0, X_index_c_mean, axis=0)         # 各個類別下的特征均值矩陣羅成新的矩陣，每行代表一個類別。
            varmat0 = np.append(varmat0, X_index_c_var, axis=0)
        self._priorlist = priorlist
        self._meanmat = meanmat0[1:, :]                                    #除去開始多余的第一行
        self._varmat = varmat0[1:, :]

    def predict(self,X_test):
        
        eps = 1e-10                                                        # 防止分母為0
        classof_X_test = []                                                #用於存放測試集中各個實例的所屬類別
        for x_sample in X_test:
            matx_sample = np.tile(x_sample,(len(self._classes),1))         #將每個實例沿列拉長，行數為樣本的類別數
            mat_numerator = np.exp(-(matx_sample - self._meanmat) ** 2 / (2 * self._varmat + eps))
            mat_denominator = np.sqrt(2 * np.pi * self._varmat + eps)
            list_log = np.sum(np.log(mat_numerator/mat_denominator),axis=1)# 每個類別下的類條件概率相乘後取對數
            prior_class_x = list_log + np.log(self._priorlist)             # 加上類先驗概率的對數
            prior_class_x_index = np.argmax(prior_class_x)                 # 取對數概率最大的索引
            classof_x = self._classes[prior_class_x_index]                 # 返回一個實例對應的類別
            classof_X_test.append(classof_x)
        return classof_X_test

    def score(self, X_test, y_test):
        
        j = 0
        for i in range(len(self.predict(X_test))):
            if self.predict(X_test)[i] == y_test[i]:
                j += 1
        return (‘accuracy: {:.10%}‘.format(j / len(y_test)))

對於手動實現的高斯型NB分類器，利用鳶尾花數據進行測試，與調用sklearn庫的分類器結果差不多，基本在93-96徘徊。這是由於多次進行二八切分，相當於多次留出法。為計算更準確精度，可進行交叉驗證並選擇多個評價方法，這裏不再實現。

import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
# 獲取數據集，並進行8:2切分
iris = datasets.load_iris()
X = iris.data
y = iris.target
# print(X)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

nb = NaiveBayes()
nb.fit(X_train,y_train)
print(nb.predict(X_test))
print(nb.score(X_test,y_test))
#輸出結果如下：
[0, 2, 1, 1, 1, 2, 1, 0, 2, 0, 1, 1, 1, 0, 2, 2, 2, 2, 0, 1, 1, 0, 2, 2, 2, 0, 1, 0, 1, 0]
accuracy: 96.6666666667%

二其他

基於屬性條件獨立性假設的樸素貝葉斯，在現實中往往很難成立，因此產生了“半樸素貝葉斯分類器”。其基本思想是適當考慮一部分屬性間的相互依賴信息，從而既不需要進行完全聯合概率計算，又不至於徹底忽略比較強的屬性依賴關系。“獨依賴估計”是最常用的一種策略，即假設每個屬性在類別之外最多依賴一個其他屬性。包括SPODE方法，TAN方法，AODE方法等。
np.unique():返回原來array中不重復元素組成的新array，元素從小到大。

y = np.array([1, 2, 9, 1,2,3])
classes = np.unique(y)                     # 返回y中所有不重復的元素組成的新array([1,2,3,9])
print(classes)                             # 結果為np.array([1,2,3,9])

np.where():對array進行操作

‘‘‘
1. np.where(condition, x, y)
滿足條件(condition)，滿足進行x操作，不滿足進行y操作
‘‘‘
a= np.array([[9, 7, 3], [4, 5, 2], [6, 3, 8]])
b=np.where(a > 5, 1, 0)               #對於a中的元素如果大於5，則改寫成1，否則寫成0.                
print(b)
輸出結果：
[[1 1 0]
 [0 0 0]
 [1 0 1]]

‘‘‘
2. np.where(condition)
只有條件 (condition)，沒有x和y，則輸出滿足條件元素的坐標 (等價於numpy.nonzero)。
這裏的坐標以tuple的形式給出，通常原數組有多少維，輸出的tuple中就包含幾個數組，分別對應符合條件元素的各維坐標。
‘‘‘
c = np.array([[9, 7, 3], [4, 5, 2], [6, 3, 8]])
d = np.where(c > 5)                                                #條件為元素大於5
print(d)
輸出結果如下（元組）：
(array([0, 0, 2, 2], dtype=int64), array([0, 1, 0, 2], dtype=int64)) 表示下表為 00,01 20,22的元素滿足條件。

a = np.array([1,3,6,9,0])
b = np.where(a > 5)
print(b)
輸出結果(array([2, 3], dtype=int64),)表示坐標為2和3的元素滿足，註意末尾的逗號，表明一維時實質輸出元組為二維，2_,3_只不過後面沒有而已，a維數大於等於2時，元組和a維數相同。
輸出的結果是可以直接作為數組下標。
x = np.array([[1, 5, 8, 1], [2, 4, 6, 8], [3, 6, 7, 9], [6, 8, 3, 1]])
print(x[b])  結果為x的第2,3行組成的數組[[3  6 7 9]  [6  8 3 1]],等價於x[[2,3]],x[2,3]為輸出為元素9，x[[2],[3]]輸出數組[9]。

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

吳恩達老師機器學習筆記K-means聚類演算法（二）

運用K-means聚類演算法進行影象壓縮趁熱打鐵，修改之前的演算法來做第二個練習—影象壓縮原始圖片如下：程式碼如下： X =imread('bird.png'); % 讀取圖片 X =im2double(X); % unit8轉成double型別 [m,n,z]=size

【機器學習】範數規則化之（二）核範數與規則項引數選擇

OK，回到問題本身。我們選擇引數λ的目標是什麼？我們希望模型的訓練誤差和泛化能力都很強。這時候，你有可能還反映過來，這不是說我們的泛化效能是我們的引數λ的函式嗎？那我們為什麼按優化那一套，選擇能最大化泛化效能的λ呢？Oh，sorry to tell you that，因為泛化效能並不是λ的簡單的函式！它具有很

機器學習系列——樸素貝葉斯分類器（二）

表示 -h line log ima 條件 code 樸素貝葉斯 spa 貝葉斯定理：其中：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。其基本求解公式為：。機器學習系列——樸素貝葉斯分類器（二）

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

貝葉斯分類器（二）

不同特徵獨立性假設條件下的貝葉斯分類器介紹在貝葉斯分類器（一）一節，我們簡要證明了貝葉斯分類器相較於其他判別規則具有最小誤分類概率。我們知道貝葉斯分類的關鍵包括對類先驗概率的確定以及類樣本概率密度的確定。當使用不同的方法估計類樣本概率密度時，我們基於貝葉斯分類

終極演算法：機器學習和人工智慧如何重塑世界筆記（轉）

終極演算法：機器學習和人工智慧如何重塑世界筆記 2017年08月17日 11:00:38 Notzuonotdied 閱讀數：4492 版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/Notzuonotdied/artic

機器學習 Python scikit-learn 中文文件（7）模型選擇: 選擇合適的估計器及其引數

模型選擇: 選擇合適的估計器及其引數與官方文件完美匹配的中文文件，請訪問 https://www.studyai.cn Score, 和 cross-validated scores 交叉驗證生成器網格搜尋與交叉驗證估計器網格搜尋自帶交叉驗證的估計器模型選擇: 選擇

【實踐】CTR預估中的貝葉斯平滑方法（二）

1. 前言這篇部落格主要是介紹如何對貝葉斯平滑的引數進行估計，以及具體的程式碼實現。首先，我們回顧一下前文中介紹的似然函式，也就是我們需要進行最大化的目標函式：下面我們就基於這個目標函式介紹怎樣估計引數。 2. 引數估計的幾種方法 1. 矩估計矩估計在這裡有點亂

機器學習（二）－一個最簡單的線性分類模擬人腦神經工作

機器學習和傳統演算法不同的關鍵在於，傳統演算法依靠固定的演算法來處理資料，因此，演算法對於資料而言，邏輯是固定的。機器學習的做法是演算法是框架，需要訓練資料形成邏輯，再通過邏輯去識別，判定和預測新的，

CSS3學習系列之選擇器（二）

計算選擇器 sky :focus ddr gree for 指定元素學習 first-child選擇器和last-child選擇器 first-child指定第一個元素。last-child指定最後一個子元素。例如： <!DOCTYPE html>

監督學習：隨機梯度下降算法（sgd）和批梯度下降算法（bgd）

這就是影響個數執行類型 http 關系 col pla 線性回歸首先要明白什麽是回歸。回歸的目的是通過幾個已知數據來預測另一個數值型數據的目標值。假設特征和結果滿足線性關系，即滿足一個計算公式h(x)，這個公式的自變量就是已知的數據x，

【機器學習】谷歌的速成課程（一）

label spa dev 分類 ram 做出 org ron 表示問題構建 (Framing) 什麽是（監督式）機器學習？簡單來說，它的定義如下：機器學習系統通過學習如何組合輸入信息來對從未見過的數據做出有用的預測。標簽在簡單線性回歸中，標簽是我們要預測

機器學習--DIY筆記與感悟--②決策樹（1）

lis ... 編寫代碼需要總結初始化對數三分 xtend 在完成了K臨近之後，今天我們開始下一個算法--->決策樹算法。一、決策樹基礎知識如果突然問你"有一個陌生人叫X,Ta今天需要帶傘嗎?", 你一定會覺得這個問題就像告訴你"兩千米外有一個超市,

Vue實現音樂播放器（七）：輪播圖組件（二）

item [] tin neo pic () client link ons 輪播圖組件 <template> <div class="slider" ref="slider"> <div class="slider-

Python學習：14.Python面向對象（一）

針對序列內部根據輸出結果 lane p s person ane 一、面向對象簡介　　Python設計之初，就是一門面向對象的語言，在Python中一切皆對象，而且在Python中創建一個對象也很簡單，今天我們就來學習一下Python的面向對象的知識。二、兩

Python學習：15.Python面向對象（二、繼承的各種情況）

所有自己的 eat split() 尋找路徑 ble 基於找到一、什麽是繼承繼承是一種創建類的方法，在python中，一個類可以繼承來自一個或多個父。原始類稱為基類或超類。 #創建父類 class Parent1: pass class

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

機器學習十大演算法之決策樹（詳細）

什麼是決策樹？如何構建決策樹？ ID3 C4.5 CART 決策樹的優缺點及改進什麼是決策樹？決策樹是運用於分類的一種樹結構，其本質是一顆由多個判斷節點組成的樹，其中的每個內部節點代表對某一屬性的一次測試，每條邊代表一個測試結果，而葉節點代表某個類或類的分佈。屬於有監督學習核心思想：

線性分類模型（二）：logistic迴歸模型分析

前言上一篇文章介紹了線性判別模型，本文介紹線性生成模型——logistic迴歸模型。本文介紹logstic迴歸模型相關的知識，為了更好理解模型的決策邊界函式，本文同時分析了多元變數的協方差對概率分佈的影響。目錄 1、logistic迴歸模型的含義 2、l

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

一 高斯樸素貝葉斯分類器代碼實現

二 其他

相關推薦

一高斯樸素貝葉斯分類器代碼實現

二其他