1. 程式人生 > >NLP 學習|DAY2|LDA是什麽?

NLP 學習|DAY2|LDA是什麽?

lda 每一個 beta 先驗分布 bbs 形式 假設 ati 擴展

1. 共軛形式保證了(先驗+似然=後驗概率)其中後驗和先驗是同樣的形式。

對於二項分布來說,其共軛是Beta分布,而對於多項分布來說,其共軛是Dirichlet分布,也是名字Latent Dirichlet allocation的來歷。

2.從β分布到Dirichlet分布是從二維到多維的擴展。

3.Latent Dirichlet allocation 即隱藏的Dirichlet分布,為何有此名字呢?

對於M篇文章的集合,每個文章有N個單詞。

Goal:我們的目標是找到每一篇文章的主題分布和每一個主題的詞分布。

(以下變量都是假設)

LDA假設各文檔主題的先驗分布是Dirichlet分布,參數為α,假設有K個主題,則α為K維向量。

LDA假設各主題中詞的先驗分布是Dirichlet分布,參數為lamda,V代表詞匯表的所有單詞的個數,lamda是V維向量。

(以上變量都是假設)

先驗部分

對於數據中的文章D中的單詞N,我們可以從假設的分布中得到主題編號分布,這是多項分布。

而對於主題編號,我們可以利用假設的詞分布的多項分布得到概率分布。

似然部分

得到的結果必定是Dirichlet分布形式(因為共軛關系)

後驗部分

問題是如何基於該模型求解我們想要的每一篇主題分布和主題中的詞分布呢?

Gibbs采樣算法

參考博客

NLP 學習|DAY2|LDA是什麽?