用樸素貝葉斯分類演算法做中文文字分類
阿新 • • 發佈:2019-01-07
一. 樸素貝葉斯分類演算法的原理
樸素貝葉斯分類器基於屬性條件獨立假設:對於已知類別,假設所有屬性相互獨立,也就是說,假設每個屬性獨立地對分類結果產生影響。
設待分類的樣本屬性集為,其中包含個屬性,分別為,類別集合為,當前待判斷類別為,基於屬性條件獨立性假設,可得:
因為我們的目標是在當前的屬性集下,找到一個儘可能正確的類別,也就是說,使得後驗概率
可以看到上面的公式中,連乘運算很容易得到一個雙精度都難以表示的極小的數值,不利於計算。因此一般情況下對上面的公式兩邊取對數,得到如下公式:
另外和的計算公式如下:
其中,|D|表示訓練語料庫中包含的文件總數,表示訓練語料庫中類別包含的文件總數,