生成模型--高斯判別+樸素貝葉斯

阿新 • • 發佈：2018-11-11

分類演算法：

判別學習演算法（logistic二元分類器，softmax分類器..）特點:直接去求條件概率分佈 p(y|x; θ）, 也表示為 hθ(x)，重點是去擬合引數θ

生成學習算(中心思想是直接去求p(y|x; θ）很難,然後轉而去求聯合分佈 p(x，y), 然後利用貝葉斯公式得到：p(y|x）＝ p(x｜y) * p(y )/ p(x))

高斯判別分析（GDA）----------解決的是連續型隨機變數的分類問題

join density:P(x,z)=πiN(x|ui,Σi)

模型假設：

y~B(1, $\phi$ ) 假設問題的概率結構已知

x|y=0~N(u0,Σ) x|y=1~N(u1,Σ) 類別yi對樣本的類條件概率密度PDF

$p(y)=\phi ^{^{y}}(1-\phi )^{1-y}$ 先驗概率

貝葉斯規則： p(y|x)p( x)=p(x,y)=p(x|y)p(y)

P(y=?|x)=p(x|y=?)p(y=?)/p(x) 後驗概率

p(x)=Σp(x|y=?)

模型： $argmax_{y} P(y|x)=argmax_{y}P(x|y)P(y)$ 最大後驗概率決策

含有 $\phi \ \mu 0\ \mu 1\ \sum$ 四個引數，用其估計去替換引數

MLE：

$\phi =\frac{\sum_{i=1}^{m}Iy^{i}=1}{m}$

$\mu _{k}=\frac{\sum_{i=1}^{m}Iy^{i}=kx^{i}}{\sum_{i=1}^{m}Iy^{i}=k}\ k=0,1$

$\sum =S^{2}=\frac{1}{m}(X-u_{y})^{T}(X-u_{y})$

MAP： $\hat{\Theta }_{MAP}=argmax_{\Theta }p(\Theta |X)=argmax_{\Theta }p(X|\Theta )p(\Theta )$

當引數的先驗分佈是均勻分佈時，MLE和MAP等價

貝葉斯估計：

協方差矩陣對角化/單位化：

對角化：主成分分析再寫

單位化：白化變換： $A=\Phi \Lambda ^{-1/2}$

協方差奇異矩陣時：求偽逆矩陣代替逆矩陣/正則判別分析

$\sum (\beta )=(1-\beta )\sum +\beta I$ 對LDF做正則，加個小擾動

樸素貝葉斯（條件獨立）--------------x 是離散值（特徵是連續值的情況，也可以採用分段來將連續值轉化為離散值）

二分類

$P(y|x1,...,xn)=\frac{P(x1|y)P(x2|y)...P(xn|y)P(y)}{P(x1)P(x2)...P(xn)}$ P(x|y)類別yi對樣本的類條件概率質量PMF

因為分母與輸入資料是常量相關： $P(y|x1,...,xn)\propto P(y)\prod P(xi|y)$

模型： $\hat{y}=argmaxyP(y)Πni=1P(xi|y)$

引數估計：

$p(y=1)=\phi y=\frac{\sum I{y(i)=1}}{m}$

$p(xj=1|y=K)=\phi j|_{y=K} =\frac{\sum I{(x(i)j=1)\Lambda (y(i)=K)}}{\sum I{y(i)=K}}$

最小錯誤率決策等價於最大後驗概率決策

平均錯誤率 : $J(\Theta )=\int _{x}P(error,x)dx=\int _{x}P(error|x)P(x)dx$

最小風險決策(期望風險最小化):（不同於收益最大化一個是風險厭惡型的，一個是風險偏好型的）

y∈{1,2....C}用one-hot表示y屬於哪一類：y=(0,1,0...0)∈R^c 屬於i類後驗概率aj(x) a(x)∈R^c

損失函式：

0-1損失函式 L(y,a(x))=1,if y!=a(x) else 0

平方損失函式： L(y,a(x))=(y-a(x))^2

交叉熵損失函式： $L(y,a(x))=-log a_{y}(x)^{}$

合頁損失函式：標籤-1,1 L(y,a(x))=max{0,1-ya(x)}

期望（經驗）風險（大數定理保證）： $R_{exp}(a)=E L(y,a(x))=\int _{x}\int _{y}L(y,a(x))P(x,y)dxdy=E_{x} R(a(x)|x)$

其中 $R(ai|x)=\sum_{i=1}^{c}\lambda ijP(wj|x)$

條件風險與平均錯誤率關係：風險a(x) 是錯誤率的一個替代品

選擇對於每個樣本都保證條件風險儘可能小的分類規則，將使期望風險最小化===>argminR(ai|x)。

取損失函式為0-1 函式，最小風險決策退化為最小錯誤決策：

$R(ai|x)=\sum_{i=1}^{c}\lambda ijP(wj|x)=\sum_{j!=i}^{}P(wj|x)=1-P(wi|x)$

生成模型--高斯判別+樸素貝葉斯

分類演算法：判別學習演算法（logistic二元分類器，softmax分類器..）特點:直接去求條件概率分佈 p(y|x; θ）, 也表示為 hθ(x)，重點是去擬合引數θ 生成學習算(中心思想是直接去求p(y|x; θ）很難,然後轉而去求聯合分佈 p(x，y), 然後利用貝葉斯

決策樹模型(Decision TreeModel)和樸素貝葉斯模型（NaiveBayesianModel，NBC）

貝葉斯分類器的分類原理是通過某物件的先驗概率，利用貝葉斯公式計算出其後驗概率，即該物件屬於某一類的概率，選擇具有最大後驗概率的類作為該物件所屬的類。目前研究較多的貝葉斯分類器主要有四種，分別是：NaiveBayes、TAN、BAN和GBN。應用貝葉斯網路分類器進行分類主要

（二）貝葉斯和樸素貝葉斯

1、貝葉斯公式 P(Y|X)=P(X|Y)P(Y)P(X) P ( Y |

貝葉斯和樸素貝葉斯，傻瓜式筆記

目標是調參大師！首先要明白自己在調什麼貝葉斯定理（抄自資料探勘概念與技術（例子部分有篡改））：設X是資料元組。在貝葉斯的術語中，X看做證據。通常，X用n個屬性集的測量值描述（特徵）。令H為某種假設，如資料元組X屬於某個特定類C。對於分類問題，希望確定給定證據或觀測資料元組X，假設H成立的概

01 貝葉斯演算法 - 樸素貝葉斯

引子： 1、孩子的性別問題已知一對夫妻生了2個孩子，其中一個是女孩，那麼另一個也是女孩的概率的多少？普遍大家會覺得生男生女都一樣，所以另一個也是女孩的概率是1/2。而另一部分稍微聰明一點的人認為：根據排列組合，兩個孩子生男生女一共有4種可能性，所以都是女生的概率是1/4。然而恭喜你們，完美得避開了正確答

貝葉斯2-樸素貝葉斯的python實現

OK，前文http://blog.csdn.net/lvhao92/article/details/50775860提到了一些圍繞貝葉斯的基礎概念，極大似然等等。這篇就是介紹大名鼎鼎的樸素貝葉斯分類器寫文章之前百度了一下貝葉斯，發現大多數文章提到貝葉斯就是樸素貝葉斯。其實

貝葉斯和樸素貝葉斯是啥

[toc] # 一、貝葉斯 ![](https://img2020.cnblogs.com/blog/662544/202003/662544-20200330150256411-882602630.png) 簡單地說，貝葉斯就是貝yes，見到貝克漢姆說了一句yes，研究的是這種概率事件。開玩笑啦，貝

生成模型中的高斯判別分析和樸素貝葉斯

設樣本為X（大寫X表示向量），其類別為y。下面的圖片若非特殊宣告，均來自cs229 Lecture notes 2。用於分類的機器學習演算法可以分為兩種：判別模型（Discriminative learning algorithms）和生成模型（Generative Le

生成學習演算法_高斯判別分析_樸素貝葉斯_斯坦福CS229_學習筆記

Part IV Generative Learning Algorithms 回顧上一部分的內容，我們解決問題的出發點在於直接對p(y|x;)建模：如線性迴歸中y建模為高斯分佈，邏輯迴歸y建模為伯努利分佈。這樣建模的好處在於可以直接得到x到y的對映關係，理解起來也比較直接。這樣建模

第四章樸素貝葉斯法----生成模型

4.1樸素貝葉斯的學習與分類 4.1.1基本方法聯合概率分佈P(X,Y)，獨立同步產生先驗概率分佈P(Y=ck)，k=1,2,…K 條件概率分佈P(X=x|Y=ck)=P(X1=x1,X2=x2,|Y=ck),k=1,2…K，（具有指數級的引數）因此對概率分佈做獨立同分布假設： P(X

樸素貝葉斯的三個常用模型：高斯、多項式、伯努利

樸素貝葉斯是一個很不錯的分類器，在使用樸素貝葉斯分類器劃分郵件有關於樸素貝葉斯的簡單介紹。若一個樣本有n個特徵，分別用x1,x2,…,xnx1,x2,…,xn表示，將其劃分到類ykyk的可能性P(yk|x1,x2,…,xn)P(yk|x1,x2,…,xn)為：

斯坦福機器學習：網易公開課系列筆記（五）——高斯判別分析、樸素貝葉斯

高斯判別分析(Gaussian discriminant analysis) 判別模型和生成模型前面我們介紹了Logistic迴歸，通過學習hΘ(x)來對資料的分類進行預測：給定一個特徵向量x→輸出分類y∈{0,1}。這類通過直接

分類-3-生成學習-3-樸素貝葉斯模型、laplace平滑、多元伯努利事件模型、多項式事件模型

多元伯努利事件模型（ multi-variate Bernoulli event model）在 GDA 中，我們要求特徵向量 x 是連續實數向量。如果 x 是離散值的話，可以考慮採用樸素貝葉斯的分類方法。假如要分類垃圾郵件和正常郵件。我們用

我理解的樸素貝葉斯模型【轉】

package 規則 dia div href 重要源代碼容易計算轉自：http://www.cnblogs.com/nxld/p/6607943.html 我想說：“任何事件都是條件概率。”為什麽呢？因為我認為，任何事件的發生都不是完全偶然的，它都會以其他事件的

【黎明傳數==>機器學習速成寶典】模型篇05——樸素貝葉斯【Naive Bayes】（附python代碼）

pytho res tex 機器學習樸素貝葉斯 spa 什麽之一類別目錄　　先驗概率與後驗概率　　什麽是樸素貝葉斯　　模型的三個基本要素　　構造kd樹　　kd樹的最近鄰搜索　　kd樹的k近鄰搜索　　Python代碼(sklearn庫) 先

【Spark MLlib速成寶典】模型篇04樸素貝葉斯【Naive Bayes】（Python版）

width pla evaluate 特征 mem order 一個數 ble same 目錄　　樸素貝葉斯原理　　樸素貝葉斯代碼(Spark Python) 樸素貝葉斯原理　　詳見博文：http://www.cnblogs.com/itmor

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

樸素貝葉斯分類--多項式模型

本文來自於百度文庫https://wenku.baidu.com/view/70c98707abea998fcc22bcd126fff705cc175c6b.html 文中公式多有問題，還需要重新編輯，但整體而言不影響理解。樸素貝葉斯分類--多項式模型 1. 多項式模

sklearn的快速使用之十（高斯樸素貝葉斯 )

""" ========================================= Gaussian Naive Bayes ( 高斯樸素貝葉斯 ) ========================================= """ print(__doc__) from s

sklearn中的樸素貝葉斯模型及其應用

1.使用樸素貝葉斯模型對iris資料集進行花分類嘗試使用3種不同型別的樸素貝葉斯：高斯分佈型多項式型伯努利型 2.使用sklearn.model_selection.cross_val_score()，對模型進行驗證 from sklearn.datasets import load

生成模型--高斯判別+樸素貝葉斯

相關推薦