Entropy/zh
| Article | |
|---|---|
| Topic area | Information Theory |
| Prerequisites | Probability, Random Variable |
概述
熵是對隨機變量的概率分佈的不確定性、隨機性或平均信息內容的度量。它由 Claude Shannon 於 1948 年作為信息論的基礎提出,用於量化某個結果在平均意義下的不可預測程度:一枚均勻硬幣的熵高於一枚有偏硬幣,而在多個結果上的均勻分佈的熵高於尖銳分佈。在機器學習中,熵是分類損失函數、決策樹劃分準則、強化學習中的探索獎勵,以及訓練生成模型所用變分目標的基礎。它也為通過交叉熵和Kullback-Leibler 散度比較分佈提供了語言。
直觀理解
設想從一個已知字母表的信息源接收消息,但具體的輸出未知。如果信息源幾乎總是發出相同的符號,那麼觀察它所傳達的新信息很少;如果每個符號同等可能,那麼每次觀察的信息量都最大。熵在比特(對數以 2 為底時)或奈特(自然對數)的單位下刻畫了這種平均信息量。
一種常見的解釋是:在最優提問策略下,確定一個結果所需的是/否問題的期望次數。在八個結果上的均勻分佈的熵為三比特,正好對應於從八種可能中確定一種所需的三個二元問題。偏斜分佈平均所需的問題更少,因為高概率結果可以用更短的碼字識別,這正是數據壓縮中熵編碼的基礎。
離散形式
對於在有限字母表 $ \mathcal{X} $ 上取值、概率質量函數為 $ p(x) = \Pr(X = x) $ 的離散隨機變量 $ X $,Shannon 熵定義為
$ {\displaystyle H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x),} $
採用約定 $ 0 \log 0 = 0 $。對數的底決定了單位:以 2 為底得到比特,以 $ e $ 為底得到奈特,以 10 為底得到哈特利。熵僅取決於概率值,而不取決於結果的標籤。
重要性質包括:
- 非負性:$ H(X) \geq 0 $,當且僅當某一結果的概率為 1 時取等。
- 均勻分佈達到最大值:$ H(X) \leq \log |\mathcal{X}| $,當 $ p $ 為均勻分佈時取得。
- 凹性:$ H $ 是 $ p $ 的凹函數,這是互信息非負性的基礎。
- 重新標號不變性:對結果進行置換不改變 $ H(X) $。
聯合信息、條件信息與互信息
對於具有聯合分佈 $ p(x, y) $ 的兩個隨機變量 $ X $ 和 $ Y $,聯合熵為
$ {\displaystyle H(X, Y) = -\sum_{x, y} p(x, y) \log p(x, y),} $
給定 $ X $ 條件下 $ Y $ 的條件熵為
$ {\displaystyle H(Y \mid X) = -\sum_{x, y} p(x, y) \log p(y \mid x).} $
它們滿足鏈式法則 $ H(X, Y) = H(X) + H(Y \mid X) $,即一對變量的不確定性等於第一個變量的不確定性加上在已知第一個變量後第二個變量的殘餘不確定性。在觀察到 $ X $ 之後對 $ Y $ 的不確定性減少量即為互信息,
$ {\displaystyle I(X; Y) = H(Y) - H(Y \mid X) = H(X) + H(Y) - H(X, Y),} $
它是對稱的、非負的,且當且僅當 $ X $ 與 $ Y $ 獨立時為零。互信息被廣泛用作統計依賴性的無模型度量,以及表示學習中的訓練信號。
微分熵
對於具有密度 $ f(x) $ 的連續隨機變量,對應的量是微分熵,
$ {\displaystyle h(X) = -\int f(x) \log f(x) \, dx.} $
與離散情形不同,微分熵可以為負,且在變量變換下不具不變性,因此不應將其視為絕對的信息內容。然而,它的差和條件形式仍然有意義,並在連續信息論中頻繁出現。在實數軸上具有給定均值和方差的所有分佈中,高斯分佈唯一地使微分熵最大化——這一結果說明了在只知道前兩階矩時,將高斯分佈用作最大熵先驗的合理性。
與交叉熵和 KL 散度的關係
若 $ p $ 為真實分佈,$ q $ 為模型分佈,則交叉熵為
$ {\displaystyle H(p, q) = -\sum_{x} p(x) \log q(x) = H(p) + D_{\mathrm{KL}}(p \,\|\, q),} $
其中 $ D_{\mathrm{KL}}(p \,\|\, q) $ 是 Kullback-Leibler 散度。由於 $ H(p) $ 不依賴於 $ q $,關於模型參數最小化交叉熵等價於最小化模型分佈與數據分佈之間的KL 散度。這一恆等式是熵與交叉熵損失之間的橋樑,後者被用於訓練概率分類器、語言模型以及眾多其他現代系統。
在機器學習中的應用
熵及其衍生量貫穿整個領域:
- 決策樹使用信息增益 $ I(Y; X_j) = H(Y) - H(Y \mid X_j) $ 來選擇最能減少標籤不確定性的劃分。ID3 和 C4.5 都基於該準則;CART 變體也支持基尼不純度,這是一個與之密切相關的凹度量。
- 分類損失函數最小化標籤經驗分佈與模型預測之間的交叉熵,等價於負對數似然,為 softmax 和 sigmoid 輸出提供良好校準的梯度。
- 強化學習在策略目標上添加熵獎勵項,例如柔性演員-評論家算法和熵正則化的策略梯度方法,鼓勵隨機探索並防止過早收斂到確定性策略。
- 變分推斷與證據下界分解為重構項和熵或KL項,使得諸如變分自編碼器之類的潛變量模型可以通過類似最大似然的目標進行訓練。
- 最大熵建模選擇在觀測約束下熵最大的分佈,這一原理可以從單一的信息論公理推導出 softmax 分類器、指數族模型以及許多物理統計量。
- 主動學習與貝葉斯實驗設計按候選查詢的期望信息增益對其排序,選擇最能降低後驗不確定性的輸入。
從數據中估計
從有限樣本估計熵並非易事。將經驗頻率直接代入熵公式得到的樸素插入估計量是向下有偏的,尤其當字母表較大或分佈具有長尾時。Miller-Madow、刀切法以及 NSB 估計量等偏差修正方法在不同假設下減小這種偏差。對於連續變量,常用 k 近鄰估計量(Kozachenko-Leonenko)和核密度估計量;在高維情形下,互信息經常通過 MINE 等基於神經網絡的界進行估計。
局限性與注意事項
熵將一個分佈概括為單個標量,因此會丟棄結構性細節:兩個差異很大的分佈可能擁有相同的熵。它假定概率已被良好定義且被良好估計,這一假設在分佈偏移或小樣本情形下可能失效。微分熵在重參數化下不具有不變性,從神經網絡表示中估計的信息論量對架構和分箱選擇極為敏感。最後,熵是分佈的屬性,而非單個結果的屬性;像「這幅圖像的熵很高」這樣的陳述只有在參考分佈給定時才有意義。
參見
參考文獻
- Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27, 379-423, 623-656.
- Cover, T. M. 和 Thomas, J. A. (2006). Elements of Information Theory(第 2 版). Wiley-Interscience.
- MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
- Goodfellow, I., Bengio, Y. 和 Courville, A. (2016). Deep Learning. MIT Press, 第 3 章.
- Jaynes, E. T. (1957). Information Theory and Statistical Mechanics. Physical Review, 106(4), 620-630.
- Belghazi, M. I. 等 (2018). Mutual Information Neural Estimation. ICML.