從夏農熵到手推KL散度：一文帶你縱覽機器學習中的資訊理論

阿新 • • 發佈：2019-02-09

資訊理論與資訊熵是 AI 或機器學習中非常重要的概念，我們經常需要使用它的關鍵思想來描述概率分佈或者量化概率分佈之間的相似性。在本文中，我們從最基本的自資訊和資訊熵到交叉熵討論了資訊理論的基礎，再由最大似然估計推匯出 KL 散度而加強我們對量化分佈間相似性的理解。最後我們簡要討論了資訊熵在機器學習中的應用，包括通過互資訊選擇決策樹的特徵、通過交叉熵衡量分類問題的損失和貝葉斯學習等。

>>>>

資訊理論是應用數學的一個分支，主要研究的是對一個訊號包含資訊的多少進行量化。它最初被髮明是用來研究在一個含有噪聲的通道上用離散的字母表來發送訊息，例如通過無線電傳輸來通訊。而本文主要探討資訊熵在 AI 或機器學習中的應用，一般在機器學習中，我們可以將資訊理論應用在連續型變數上，並使用資訊理論的一些關鍵思想來描述概率分佈或者量化概率分佈之間的相似性。

因此在機器學習中，通常要把與隨機事件相關資訊的期望值進行量化，此外還要量化不同概率分佈之間的相似性。在這兩種情況下，夏農熵都被用來衡量概率分佈中的資訊內容。夏農熵是以資訊理論之父 Claude Shannon 的名字命名的，也稱為資訊熵或微分熵（連續）。

自資訊

夏農熵的基本概念就是所謂的一個事件背後的自資訊（self-information），有時候也叫做不確定性。自資訊的直覺解釋如下，當某個事件（隨機變數）的一個不可能的結果出現時，我們就認為它提供了大量的資訊。相反地，當觀察到一個經常出現的結果時，我們就認為它具有或提供少量的資訊。將自資訊與一個事件的意外性聯絡起來是很有幫助的。例如，一個極其偏畸的硬幣，每一次拋擲總是正面朝上。任何一次硬幣拋擲的結果都是可以完全預測的，這樣的話我們就永遠不會對某次結果感到驚奇，也就意味著我們從這個實驗中得到的資訊是 0。換言之，它的自資訊是 0。如果硬幣的偏畸程度稍微小一些，這樣的話，儘管看到正面朝上的概率超過了 50%，每次拋擲還會有一些資訊。因此，它的自資訊大於 0。如果硬幣的偏畸程度是導致反面朝上的結果，我們得到的自資訊還是 0。在使用一個沒有偏畸的硬幣做實驗時，每次拋擲得到正面朝上和反面朝上的概率都是 50%，我們會得到最大的意外性，因為在這種情況下硬幣拋擲的結果的可預測性是最小的。我們也可以說，均勻分佈的熵最大，確定事件的熵最小。

基於以上的非正式需求，我們可以找到一個合適的函式來描述自資訊。對於一個可能取值為 x_1,x_2,...,x_n 的離散隨機變數 X，它的概率質量函式 P（X），以及任何正的取值在 0 到 1 之間的單調遞減函式 I(p_i) 都可以作為資訊的度量。此外，還有另外一個關鍵的屬性就是獨立事件的可加性；兩次連續硬幣拋擲的資訊應該是一次單獨拋擲的 2 倍。這對獨立變數而言是有意義的，因為在這種情況下意外性或者不可預測性會增大為之前的兩倍。形式上，對於獨立事件 x_i 和 x_j 而言，我們需要 I(p_i * p_j) = I(p_i) + I(p_j)。滿足所有這些要求的函式就是負對數，因此我們可以使用負對數表示自資訊：

640?wx_fmt=png

圖 1 所示是自資訊 I(p)。

640?wx_fmt=png

圖 1：函式 I(p) 的自資訊。小概率對應著較高的自資訊，反之亦然。

我們繼續回到簡單的硬幣拋擲實驗中。在資訊理論中，1bit（也叫做 Shannon）資訊代表一次單獨硬幣拋擲的兩種可能結果。相似地，對於兩次連續拋擲而言，就需要 4 bit 來描述 4 中可能的結果。通常，用 log_2(n)（2 的對數）bit 來描述 n 個連續的獨立隨機事件的結果，或者是自資訊。下面我們來驗證一下一次連續三次的實驗中自資訊的計算：總共有 2^3=8 種可能的結果，每種結果的概率都是 0.5^3=0.125。所以，這次實驗的自資訊就是 I（0.125）= -log_2(0.125) = 3。我們需要 3bit 來描述這些所有可能的結果，那麼，任何一次連續三次的硬幣拋擲的自資訊等於 3.0。

我們也可以計算連續隨機變數的自資訊。圖 2 展示了三種不同的概率密度函式及其對應的資訊函式。圖 2（A）所示的 Dirac delta 對應著很強的偏差，總是同一面朝上的偏畸硬幣對應著零熵。所有 p(x)= 0 的地方都對應著無限高的資訊量。然而，由於這些零概率的事件永遠不會發生，所以這只是一個假設。圖 2（B）中的高斯概率密度函式就是對那種經常同一面朝上，但不總是同一面朝上的情況的模擬。最後，圖 2（C）描述的是一個均勻分佈概率密度函式，它對應著均勻的資訊量，和我們沒有偏畸的硬幣是類似的。

640?wx_fmt=png

圖 2. [-3,3] 上的三種不同的概率密度函式及其自資訊 I（p）。(A)Dirac δ函式（完全確定）；（B）μ = 0,σ = 0.5 的高斯分佈；（C）均勻分佈

熵

到目前為止我們只討論了自資訊。在正常的硬幣實驗中，自資訊實際上都等於夏農熵，因為所有的結果都是等概率出現的。通常，夏農熵是 X 的所有可能結果的自資訊期望值：

640?wx_fmt=png

其中 b 是對數的底數。上面我們使用的是 b=2，其他常見的選擇還有 b=10，以及 e。其實這個影響不大，因為不同底數的對數之間存在一個常數的關係。我們這裡仍然假設底數為 2，所以我們將省略下面公式中的 b。

如果仔細注意的話，你可能會疑惑，當 p(x_i) = 0 的時候會發生什麼，因為這種情況下我們必須計算 0 · log(0)。事實上，我們需要計算的是一個極限：lim_(p→0) p*log(p(x_i))=0。使用洛必達法則或泰勒展開式求解的過程讀者可以查閱書籍自行完成。

當夏農熵泛化到連續域的時候，通常它指的是一種微分熵，對於連續的隨機變數 x 及其概率密度函式 p(x)，它的夏農熵定義如下：

640?wx_fmt=png

我們上述三個分佈的熵分別是 0（狄拉克δ分佈），174（高斯分佈）以及 431（均勻分佈）。在我們的實驗中出現的模式是：越寬廣的分佈對應著越高的資訊熵。仔細觀察圖 2（B）和圖 2（C）有助於你的理解。儘管高斯分佈中 I（p）曲線下面的面積要遠大於均勻分佈，然而它的資訊熵要遠小於均勻分佈，因為資訊熵 I（P）是按照概率密度 p 加權的，在高斯分佈的兩側，p 接近於 0。更廣的概率密度對應著更大的資訊熵，有一個很好的比喻幫助記住這個：想象某種氣體充滿了一個儲罐。從物理學中我們可以知道，一個封閉系統中的熵會隨著時間增加，而且從來不會減少。在我們從儲罐的另一側注入氣體之後，氣體粒子的分佈會收斂於一個均勻值。低熵意味著高密度的氣體粒子聚集在某個特定的區域，而這是永遠不會自發發生的。很多氣體粒子聚集在某個小面積區域對應的還早呢故事我們的高斯概率密度函式，在狄拉克δ分佈中是一個極端粒例子，所有的氣體都被壓縮在一個無限小的區域。

交叉熵

交叉熵是一個用來比較兩個概率分佈 p 和 q 的數學工具。它和熵是類似的，我們計算 log(q) 在概率 p 下的期望，而不是反過來：

640?wx_fmt=png

在資訊理論中，這個量指的是：如果用「錯誤」的編碼方式 q（而不是 p）去編碼服從 q 分佈的事件，我們所需要的 bit 數。在機器學習中，這是一個衡量概率分佈相似性的有用工具，而且經常作為一個損失函式。因為交叉熵等於 KL 散度加上一項資訊熵，即 D_KL(p||q) = H(p, q) - H(p)。而當我們針對 Q 最小化交叉熵時，H(p) 為常量，因此它能夠被省略。交叉熵在這種情況下也就等價於 KL 散度，因為 KL 散度可以簡單地從最大似然估計推匯出來，因此下文詳細地以 GAN 為例利用 MLE 推導 KL 散度的表示式。

KL 散度

與交叉熵緊密相關，KL 散度是另一個在機器學習中用來衡量相似度的量：從 q 到 p 的 KL 散度如下:D_KL(p||q)。在貝葉斯推理中，DKL(p||q) 衡量當你修改了從先驗分佈 q 到後驗分佈 p 的信念之後帶來的資訊增益，或者換句話說，就是用後驗分佈 q 來近似先驗分佈 p 的時候造成的資訊損失。例如，在訓練一個變分自編碼器的隱藏空間表徵時就使用了 KL 散度。KL 散度可以用熵和交叉熵表示：

640?wx_fmt=png

交叉熵衡量的是用編碼方案 q 對服從 p 的事件進行編碼時所需 bit 數的平均值，而 KL 散度給出的是使用編碼方案 q 而不是最優編碼方案 p 時帶來的額外 bit 數。從這裡我們可以看到，在機器學習中，p 是固定的，交叉熵和 KL 散度之間只相差一個常數可加項，所以從優化的目標來考慮，二者是等價的。而從理論角度而言，考慮 KL 散度仍然是有意義的，KL 散度的一個屬性就是，當 p 和 q 相等的時候，它的值為 0。

KL 散度有很多有用的性質，最重要的是它是非負的。KL 散度為 0 當且僅當 P 和 Q 在離散型變數的情況下是相同的分佈，或者在連續型變數的情況下是『幾乎處處』相同的。因為 KL 散度是非負的並且衡量的是兩個分佈之間的差異，它經常被用作分佈之間的某種距離。然而，它並不是真的距離因為它不是對稱的：對於某些 P 和 Q，D_KL(P||Q) 不等於 D_KL(Q||P)。這種非對稱性意味著選擇 D_KL(P||Q) 還是 D_KL(Q||P) 影響很大。

在李弘毅的講解中，KL 散度可以從極大似然估計中推導而出。若給定一個樣本資料的分佈 P_data(x) 和生成的資料分佈 P_G(x;θ)，那麼 GAN 希望能找到一組引數θ使分佈 P_g(x;θ) 和 P_data(x) 之間的距離最短，也就是找到一組生成器引數而使得生成器能生成十分逼真的圖片。

現在我們可以從訓練集抽取一組真實圖片來訓練 P_G(x;θ) 分佈中的引數θ使其能逼近於真實分佈。因此，現在從 P_data(x) 中抽取 m 個真實樣本 {?^1,?^2,…,?^?}，其中符號「^」代表上標，即 x 中的第 i 個樣本。對於每一個真實樣本，我們可以計算 P_G(x^i;θ)，即在由θ確定的生成分佈中，x^i 樣本所出現的概率。因此，我們就可以構建似然函式：

640?wx_fmt=png

其中「∏」代表累乘、P_G(x^i;θ) 代表第 i 個樣本在生成分佈出現的概率。從該似然函式可知，我們抽取的 m 個真實樣本在 P_G(x;θ) 分佈中全部出現的概率值可以表達為 L。又因為若 P_G(x;θ) 分佈和 P_data(x) 分佈相似，那麼真實資料很可能就會出現在 P_G(x;θ) 分佈中，因此 m 個樣本都出現在 P_G(x;θ) 分佈中的概率就會十分大。

下面我們就可以最大化似然函式 L 而求得離真實分佈最近的生成分佈（即最優的引數θ）：

640?wx_fmt=png

在上面的推導中，我們希望最大化似然函式 L。若對似然函式取對數，那麼累乘 ∏ 就能轉化為累加 ∑，並且這一過程並不會改變最優化的結果。因此我們可以將極大似然估計化為求令 log[P_G(x;θ)] 期望最大化的θ，而期望 E[logP_G(x;θ)] 可以展開為在 x 上的積分形式：∫P_data(x)logP_G(x;θ)dx。又因為該最優化過程是針對θ的，所以我們新增一項不含θ的積分並不影響最優化效果，即可新增 -∫P_data(x)logP_data(x)dx。新增該積分後，我們可以合併這兩個積分並構建類似 KL 散度的形式。該過程如下：

640?wx_fmt=png

這一個積分就是 KL 散度的積分形式，因此，如果我們需要求令生成分佈 P_G(x;θ) 儘可能靠近真實分佈 P_data(x) 的引數θ，那麼我們只需要求令 KL 散度最小的引數θ。此外，我們可以將 KL 散度的積分形式轉換為我們熟悉的 KL 散度表示式：

640?wx_fmt=png

在離散型變數的情況下，KL 散度衡量的是，當我們使用一種被設計成能夠使得概率分佈 Q 產生的訊息的長度最小的編碼，傳送包含由概率分佈 P 產生的符號訊息時，所需要的額外資訊量。

在機器學習中的使用

你或許疑問，這裡的熵和機器學習是如何相關的。下面我們看一下一些具體的領域。

貝葉斯學習

首先，上面描述的高斯分佈的例子是很重要的，因為在機器學習應用中，高斯分佈是一個很常見的建模選擇。機器學習的目標就是減少熵。我們希望做一些預測，而且我們必須對自己的預測比較確定。而熵正好可以用來衡量這個置信度。在貝葉斯學習中，經常假設一個先驗分佈具有較寬廣的概率密度函式，這反映了隨機變數在觀測之前的不確定性。當資料來了以後，熵會減小，並且讓後驗分佈在最可能的引數值周圍形成峰值。

決策樹學習

在決策樹的學習演算法中，一般包含了特徵選擇、決策樹的生成與決策樹的剪枝過程。決策樹的特徵選擇在於選取對訓練資料有分類能力的特徵，而通常特徵選擇的準則是資訊增益或資訊增益比。

在李航的統計學習方法中，一般熵 H(Y) 與條件熵 H(Y|X) 之差可以稱為互資訊（Mutual Information），決策樹學習中的資訊增益等價於訓練資料中類與特徵的互資訊。若給定訓練資料集 D 和特徵 A，經驗熵 H(D) 表示對資料集 D 進行分類的不確定性。而經驗條件熵 H(D|A) 表示在特徵 A 給定的條件下對資料集 D 進行分類的不確定性。那麼它們的差，即資訊增益，就表示由於特徵 A 而使得對資料集 D 的分類的不確定性減少的程度。顯然，對於資料集 D 而言，資訊增益依賴於特徵，不同的特徵往往具有不同的資訊增益。資訊增益大的特徵具有更強的分類能力。

根據資訊增益準則的特徵選擇方法是：對訓練資料集（或子集）D，計算其每個特徵的資訊增益，並比較它們的大小，選擇資訊增益最大的特徵。

因此在決策樹學習中，熵被用來構建樹。通過將資料集 S 根據可能的「最佳」屬性分成一些子資料集，從根節點開始構建決策樹，「最佳」屬性也就是能夠將得到的子資料集的熵最小化的屬性。這個過程被遞迴地重複，直到沒有更多的屬性來分割。此過程被稱為 ID3 演算法，由此可見 ID3 演算法的核心是在決策樹各個結點上應用資訊增益準則選擇特徵，遞迴地構建決策樹。

分類

不管是在二分類問題還是多分類問題中，交叉熵是 logistic 迴歸和神經網路中的標準損失函式。通常，p 是真實分佈，q 是模型描述的分佈。讓我們來看一個二分類 logistic 迴歸中的一個例子。兩個類別的標籤分別是 0 和 1，logistic 模型給每一個輸入賦予以下概率：q_(y=1) =y_hat，q_(y=0) = 1- y_hat。這個可以簡寫為 q ∈ {y_hat, 1 − y_hat}。儘管真實標籤是精確的 0 和 1，但是這裡還是寫成 p ∈ {y, 1 − y}，因此不要被這個表達方式搞混。在這個標記下，每個樣本的真實值和估計分佈之間的交叉熵如下：

640?wx_fmt=png

當它被作為一個損失函式使用的時候，我們用的是 N 個樣本的交叉熵均值，

640?wx_fmt=png

結語

以上基本上來說就是機器學習中所涉及的資訊理論基礎，雖然我們並不怎麼使用資訊理論中關於訊息長度的解釋，但機器學習主要使用用資訊理論的一些關鍵思想來描述概率分佈或者量化概率分佈之間的相似性。資訊理論是我們構建損失函式隨必須要考慮的，而且它的對數形式很容易與輸出單元一般採用的指數形式相結合而提高學習的效率。此外，現代深度網路的成功與最大似然估計的流行，很大程度是因為有像資訊熵那樣對數形式的損失函式而取得極大的提升。

機器之心編譯

參與：Nurhachu Null、蔣思源

0?wx_fmt=gif

演算法數學之美微信公眾號歡迎賜稿

稿件涉及數學、物理、演算法、計算機、程式設計等相關領域
稿件一經採用，我們將奉上稿酬。

投稿郵箱：[email protected]

從夏農熵到手推KL散度：一文帶你縱覽機器學習中的資訊理論

從夏農熵到手推KL散度：一文帶你縱覽機器學習中的資訊理論

從能做什麽到如何去做，一文帶你快速掌握Python編程基礎與實戰

熵、最大似然估計（相對熵）、KL散度、交叉熵相互關係及程式碼計算

從原始碼入手，一文帶你讀懂Spring AOP面向切面程式設計

函式，從編輯到編譯 (下) -- 一文帶你瞭解編譯連結

從定義到AST及其遍歷方式，一文帶你搞懂Antlr4

機器學習基礎（五十八）—— 夏農熵相對熵（KL散度）與交叉熵

資訊熵（夏農熵），相對熵（KL散度），交叉熵三者的對比以及吉布斯不等式

信息熵，交叉熵，KL散度

KL散度、交叉熵與極大似然的友誼

Python實現計算資訊增益的夏農熵

交叉熵與KL散度

交叉熵 vs KL散度

夏農熵學習+例子[轉載]

【機器學習基礎】熵、KL散度、交叉熵

KL散度(相對熵)、交叉熵的解析

資訊理論知識：互資訊、交叉熵、KL散度

最大似然估計，交叉熵，相對熵(KL散度)

交叉熵、KL散度、JS散度

決策樹中基本概念——夏農熵

從夏農熵到手推KL散度：一文帶你縱覽機器學習中的資訊理論

相關推薦