《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

阿新 • • 發佈：2018-12-11

樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。 樸素貝葉斯是經典的機器學習演算法之一，也基於概率論的分類演算法，屬於監督學習的生成模型。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。

1.演算法思想——基於概率的預測

貝葉斯決策論是概率框架下實施決策的基本方法。對分類任務來說，在所有相關概率都已知的情況下，貝葉斯決策論考慮如何基於這些概率和誤判損失來選擇最優的標記類別。

2. 理論基礎

樸素貝葉斯最核心的部分是貝葉斯法則，而貝葉斯法則的基石是條件概率。貝葉斯法則如下：

$P(c|x)$ = ${P(c)P(x|c)}\over{P(x)}$

$P ( x ) P ( c ) P ( x ∣ c )$

$P(x|c)$ :類條件概率，是所有屬性上的聯合概率分佈，難以從有限的訓練集直接估計而得。樸素貝葉斯採用“屬性條件獨立性假設”，對已知類別，假設所有屬性相互獨立。所以，上式可寫為：

$P(c|x)$ = ${P(c)P(x|c)}\over {P(x)}$ = ${P(c)\over P(x)} {\prod_{i=1}^d P(x_i|c)}$ ,

d為屬性數目， $x_i$ 為 $x$ 在第 $i$

i

個屬性上的取值。

對於所有類別來說 $P(x)$ 相同，因此基於 $h^*(x)=argmaxP(c|x)$ 貝葉斯判定準則有：

$h_nb(x)=argmaxP(c){\prod_{i=1}^d P(x_i|c)}$ ,

這就是樸素貝葉斯分類器的表示式。

由上式可知，樸素貝葉斯分類器的訓練過程即基於訓練集D來估計類先驗概率 $P(c)$ ，併為每個屬性估計條件概率 $P(x_i|c).$

P (x_{i} ∣ c) .

$D_c$ 表示訓練集 $D中$ 第 $c$ 類樣本的組成的集合，若有充足的獨立的同分布樣本，則可容易地估計出類先驗概率： $P(c)$ = $|D_c|\over|D|$

對離散屬性而言，令 $D_{c,x_i}$ 表示 $D_c$ 中在第 $i$ 個屬性上的取值為 $x_i$ 的樣本組成的集合，則條件概率 $P(x_i|c)$ 可估計為

$P(x_i|c)$ = $|D_{c,x_i}|\over|D|$

對連續屬性，此處省略100字。

為了避免其他屬性攜帶的資訊被訓練集中未出現的屬性值抹去，在概率估計時通常需要進行“平滑”，常用“拉普拉斯修正”， $N$ 表示訓練集 $D$ 中可能的類別數， $N_i$ 表示第 $i$ 個屬性可能的取值數。所以上式修改為：

$\hat{P}(c)$ = ${|D_c|+1}\over{|D|+N}$

$\hat{P}(x_i|c)$ = $|D_{c,x_i}+1|\over{|D|+N_i}$ 拉普拉斯修正避免了因訓練樣本集不充分而導致概率估計值為0的問題，且在訓練集變大時，修正過程所引入的先驗的影響會逐漸變得可忽略，使得估計值逐漸趨向於實際概率值。

《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

1.演算法思想——基於概率的預測

2. 理論基礎

西瓜書自學筆記第零章——序言

《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

《機器學習》周志華學習筆記第七章貝葉斯分類器（課後習題）python 實現

強化學習（RLAI）讀書筆記第七章n步自舉（n-step Bootstrapping）

《csharp高階程式設計》學習筆記第七章委託和事件

c++ primer 第五版學習筆記-第七章類

《metasploit滲透測試魔鬼訓練營》學習筆記第七章--社會工程學

《資料結構與演算法分析》學習筆記-第七章-排序

《統計學習方法》讀書筆記第五章

深入.NET平臺和C#編程筆記第七章深入理解多態

圖論引導筆記第七章有向圖

《Java編程思想》筆記第七章復用類

《圖解HTTP》閱讀筆記--第七章---確保WEB安全的HTTPS

C++ Primer Plus 筆記第七章

資料庫筆記第七章

C++ primer 讀書筆記第七章 02 訪問控制和封裝

C++ primer 讀書筆記第七章 01 定義抽象資料型別

C++ primer 讀書筆記第七章 06 類的靜態成員

PYTHON筆記第七章

西瓜書讀書筆記：第二章模型評估與選擇

《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

1.演算法思想——基於概率的預測

2. 理論基礎

相關推薦