1. 程式人生 > >高斯判別分析 Gaussian Discriminant Analysis

高斯判別分析 Gaussian Discriminant Analysis

方差 targe clas blog log 通過 post 高斯 gist

之前我們分析Logistic Regression,通過求p(y|x)來判定數據屬於哪一個輸出分類,這種直接判定的方法稱為Discriminative Learning Algorithms,但還有另一種思路去接此問題,稱為Generative Learning Algorithms,其中包括本文要分析的Gaussian Discriminant Analysis 以及 Naive Bayes。

這也給了我們一種思路,當p(y|x)不好求解時,轉向p(x|y),假設p(x|y)服從多維高斯分布,然後對根據分類的類別(如y(0,1)),對兩個分類建立高斯模型,而後判定新的數據落在哪個模型的概率更高。從而求解原始問題。

首先,兩個分類的高斯模型如下,其中涉及到了幾個參數技術分享圖片,分別代表協方差以及兩組數據的數學期望,其實如果我們簡化n維高斯到一維就很好理解了。協方差代表數據的離散程度,而數學期望代表數據的中心位置。

技術分享圖片

而模型的等高線示意圖則如下,可以看到我們在兩個分類中,共用了一個協方差

技術分享圖片

而後,我們按照貝葉斯公式來求解原問題即可。

技術分享圖片

和Logistic Regression相比,GDA需要假設數據符合高斯分布,在此假設的前提下,GDA表現更好,且需要更少的訓練數據即可達成效果,但在非高斯分布的情況下,Logistic Regression更佳。

高斯判別分析 Gaussian Discriminant Analysis