1. 程式人生 > >生成模型--高斯判別+樸素貝葉斯

生成模型--高斯判別+樸素貝葉斯

分類演算法:

判別學習演算法(logistic二元分類器,softmax分類器..)特點:直接去求條件概率分佈 p(y|x; θ), 也表示為 hθ(x),重點是去擬合引數θ

生成學習算(中心思想是直接去求p(y|x; θ)很難,然後轉而去求聯合分佈 p(x,y), 然後利用貝葉斯公式得到:p(y|x) = p(x|y) * p(y )/ p(x))

高斯判別分析(GDA)----------解決的是連續型隨機變數的分類問題

                                      join density:P(x,z)=πiN(x|ui,Σi)

模型假設:

                                                               y~B(1,\phi)    假設問題的概率結構已知

                                          x|y=0~N(u0,Σ)     x|y=1~N(u1,Σ)  類別yi對樣本的類條件概率密度PDF

                                                       p(y)=\phi ^{^{y}}(1-\phi )^{1-y}  先驗概率

貝葉斯規則:                 p(y|x)p( x)=p(x,y)=p(x|y)p(y)

                                     P(y=?|x)=p(x|y=?)p(y=?)/p(x)  後驗概率

                                                p(x)=Σp(x|y=?)

模型:              argmax_{y} P(y|x)=argmax_{y}P(x|y)P(y)     最大後驗概率決策

含有     \phi \ \mu 0\ \mu 1\ \sum四個引數,用其估計去替換引數

MLE:

                                                             \phi =\frac{\sum_{i=1}^{m}Iy^{i}=1}{m}

                                                    \mu _{k}=\frac{\sum_{i=1}^{m}Iy^{i}=kx^{i}}{\sum_{i=1}^{m}Iy^{i}=k}\ k=0,1

                                                \sum =S^{2}=\frac{1}{m}(X-u_{y})^{T}(X-u_{y})

MAP:                    \hat{\Theta }_{MAP}=argmax_{\Theta }p(\Theta |X)=argmax_{\Theta }p(X|\Theta )p(\Theta )

當引數的先驗分佈是均勻分佈時,MLE和MAP等價

貝葉斯估計:

 

協方差矩陣對角化/單位化:

對角化:主成分分析再寫

單位化:白化變換:A=\Phi \Lambda ^{-1/2} 

協方差奇異矩陣時:求偽逆矩陣代替逆矩陣/正則判別分析

                         \sum (\beta )=(1-\beta )\sum +\beta I 對LDF做正則,加個小擾動

樸素貝葉斯(條件獨立)--------------x 是 離散值(特徵是連續值的情況,也可以採用分段來將連續值轉化為離散值)

二分類                               

                                             P(y|x1,...,xn)=\frac{P(x1|y)P(x2|y)...P(xn|y)P(y)}{P(x1)P(x2)...P(xn)}   P(x|y)類別yi對樣本的類條件概率質量PMF

因為分母與輸入資料是常量相關:     P(y|x1,...,xn)\propto P(y)\prod P(xi|y)

模型:                                                        \hat{y}=argmaxyP(y)Πni=1P(xi|y)

引數估計:

                                                 p(y=1)=\phi y=\frac{\sum I{y(i)=1}}{m}

                                    p(xj=1|y=K)=\phi j|_{y=K} =\frac{\sum I{(x(i)j=1)\Lambda (y(i)=K)}}{\sum I{y(i)=K}}

最小錯誤率決策等價於最大後驗概率決策

   平均錯誤率  : J(\Theta )=\int _{x}P(error,x)dx=\int _{x}P(error|x)P(x)dx

最小風險決策(期望風險最小化):(不同於收益最大化一個是風險厭惡型的,一個是風險偏好型的

y∈{1,2....C}用one-hot表示y屬於哪一類:y=(0,1,0...0)∈R^c  屬於i類後驗概率aj(x)  a(x)∈R^c

損失函式:   

0-1損失函式                                   L(y,a(x))=1,if y!=a(x) else 0

平方損失函式:                             L(y,a(x))=(y-a(x))^2

交叉熵損失函式:                       L(y,a(x))=-log a_{y}(x)^{}

合頁損失函式:標籤-1,1             L(y,a(x))=max{0,1-ya(x)}

期望(經驗)風險(大數定理保證):                         R_{exp}(a)=E L(y,a(x))=\int _{x}\int _{y}L(y,a(x))P(x,y)dxdy=E_{x} R(a(x)|x)

其中                                                          R(ai|x)=\sum_{i=1}^{c}\lambda ijP(wj|x)

條件風險與平均錯誤率關係:風險a(x) 是錯誤率的一個替代品

選擇對於每個樣本都保證條件風險儘可能小的分類規則 ,將使期望風險最小化===>argminR(ai|x)

取損失函式為0-1 函式,最小風險決策退化為最小錯誤決策:

                                     R(ai|x)=\sum_{i=1}^{c}\lambda ijP(wj|x)=\sum_{j!=i}^{}P(wj|x)=1-P(wi|x)