Entropy/zh

    From Marovi AI
    This page is a translated version of the page Entropy and the translation is 100% complete.
    Other languages:
    Article
    Topic area Information Theory
    Prerequisites Probability, Random Variable


    概述

    是對隨機變量的概率分布的不確定性、隨機性或平均信息內容的度量。它由 Claude Shannon 於 1948 年作為資訊理論的基礎提出,用於量化某個結果在平均意義下的不可預測程度:一枚均勻硬幣的熵高於一枚有偏硬幣,而在多個結果上的均勻分布的熵高於尖銳分布。在機器學習中,熵是分類損失函數、決策樹劃分準則、強化學習中的探索獎勵,以及訓練生成模型所用變分目標的基礎。它也為通過交叉熵Kullback-Leibler 散度比較分布提供了語言。

    直觀理解

    設想從一個已知字母表的信息源接收消息,但具體的輸出未知。如果信息源幾乎總是發出相同的符號,那麼觀察它所傳達的新信息很少;如果每個符號同等可能,那麼每次觀察的信息量都最大。在比特(對數以 2 為底時)或奈特(自然對數)的單位下刻畫了這種平均信息量。

    一種常見的解釋是:在最優提問策略下,確定一個結果所需的是/否問題的期望次數。在八個結果上的均勻分布的熵為三比特,正好對應於從八種可能中確定一種所需的三個二元問題。偏斜分布平均所需的問題更少,因為高概率結果可以用更短的碼字識別,這正是數據壓縮中熵編碼的基礎。

    離散形式

    對於在有限字母表 $ \mathcal{X} $ 上取值、概率質量函數為 $ p(x) = \Pr(X = x) $ 的離散隨機變量 $ X $,Shannon 定義為

    $ {\displaystyle H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x),} $

    採用約定 $ 0 \log 0 = 0 $。對數的底決定了單位:以 2 為底得到比特,以 $ e $ 為底得到奈特,以 10 為底得到哈特利。熵僅取決於概率值,而不取決於結果的標籤。

    重要性質包括:

    • 非負性$ H(X) \geq 0 $,若且唯若某一結果的概率為 1 時取等。
    • 均勻分布達到最大值$ H(X) \leq \log |\mathcal{X}| $,當 $ p $ 為均勻分布時取得。
    • 凹性$ H $$ p $ 的凹函數,這是互信息非負性的基礎。
    • 重新標號不變性:對結果進行置換不改變 $ H(X) $

    聯合信息、條件信息與互信息

    對於具有聯合分布 $ p(x, y) $ 的兩個隨機變量 $ X $$ Y $聯合熵

    $ {\displaystyle H(X, Y) = -\sum_{x, y} p(x, y) \log p(x, y),} $

    給定 $ X $ 條件下 $ Y $條件熵

    $ {\displaystyle H(Y \mid X) = -\sum_{x, y} p(x, y) \log p(y \mid x).} $

    它們滿足鏈式法則 $ H(X, Y) = H(X) + H(Y \mid X) $,即一對變量的不確定性等於第一個變量的不確定性加上在已知第一個變量後第二個變量的殘餘不確定性。在觀察到 $ X $ 之後對 $ Y $ 的不確定性減少量即為互信息

    $ {\displaystyle I(X; Y) = H(Y) - H(Y \mid X) = H(X) + H(Y) - H(X, Y),} $

    它是對稱的、非負的,且若且唯若 $ X $$ Y $ 獨立時為零。互信息被廣泛用作統計依賴性的無模型度量,以及表示學習中的訓練信號。

    微分熵

    對於具有密度 $ f(x) $ 的連續隨機變量,對應的量是微分熵

    $ {\displaystyle h(X) = -\int f(x) \log f(x) \, dx.} $

    與離散情形不同,微分可以為負,且在變量變換下不具不變性,因此不應將其視為絕對的信息內容。然而,它的差和條件形式仍然有意義,並在連續資訊理論中頻繁出現。在實數軸上具有給定均值和方差的所有分布中,高斯分布唯一地使微分熵最大化——這一結果說明了在只知道前兩階矩時,將高斯分布用作最大熵先驗的合理性。

    與交叉熵和 KL 散度的關係

    $ p $ 為真實分布,$ q $ 為模型分布,則交叉

    $ {\displaystyle H(p, q) = -\sum_{x} p(x) \log q(x) = H(p) + D_{\mathrm{KL}}(p \,\|\, q),} $

    其中 $ D_{\mathrm{KL}}(p \,\|\, q) $ 是 Kullback-Leibler 散度。由於 $ H(p) $ 不依賴於 $ q $,關於模型參數最小化交叉熵等價於最小化模型分布與數據分布之間的KL 散度。這一恆等式是熵與交叉熵損失之間的橋梁,後者被用於訓練概率分類器、語言模型以及眾多其他現代系統。

    在機器學習中的應用

    熵及其衍生量貫穿整個領域:

    • 決策樹使用信息增益 $ I(Y; X_j) = H(Y) - H(Y \mid X_j) $ 來選擇最能減少標籤不確定性的劃分。ID3 和 C4.5 都基於該準則;CART 變體也支持基尼不純度,這是一個與之密切相關的凹度量。
    • 分類損失函數最小化標籤經驗分布與模型預測之間的交叉熵,等價於負對數似然,為 softmax 和 sigmoid 輸出提供良好校準的梯度。
    • 強化學習在策略目標上添加熵獎勵項,例如柔性演員-評論家算法和熵正則化的策略梯度方法,鼓勵隨機探索並防止過早收斂到確定性策略
    • 變分推斷證據下界分解為重構項和熵或KL項,使得諸如變分自編碼器之類的潛變量模型可以通過類似最大似然的目標進行訓練。
    • 最大熵建模選擇在觀測約束下熵最大的分布,這一原理可以從單一的資訊理論公理推導出 softmax 分類器、指數族模型以及許多物理統計量。
    • 主動學習與貝葉斯實驗設計按候選查詢的期望信息增益對其排序,選擇最能降低後驗不確定性的輸入。

    從數據中估計

    從有限樣本估計並非易事。將經驗頻率直接代入熵公式得到的樸素插入估計量是向下有偏的,尤其當字母表較大或分布具有長尾時。Miller-Madow、刀切法以及 NSB 估計量等偏差修正方法在不同假設下減小這種偏差。對於連續變量,常用 k 近鄰估計量(Kozachenko-Leonenko)和密度估計量;在高維情形下,互信息經常通過 MINE 等基於神經網絡的界進行估計。

    局限性與注意事項

    將一個分布概括為單個標量,因此會丟棄結構性細節:兩個差異很大的分布可能擁有相同的熵。它假定概率已被良好定義且被良好估計,這一假設在分布偏移或小樣本情形下可能失效。微分熵重參數化下不具有不變性,從神經網絡表示中估計的資訊理論量對架構和分箱選擇極為敏感。最後,熵是分布的屬性,而非單個結果的屬性;像「這幅圖像的熵很高」這樣的陳述只有在參考分布給定時才有意義。

    參見

    參考文獻

    • Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27, 379-423, 623-656.
    • Cover, T. M. 和 Thomas, J. A. (2006). Elements of Information Theory(第 2 版). Wiley-Interscience.
    • MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
    • Goodfellow, I., Bengio, Y. 和 Courville, A. (2016). Deep Learning. MIT Press, 第 3 章.
    • Jaynes, E. T. (1957). Information Theory and Statistical Mechanics. Physical Review, 106(4), 620-630.
    • Belghazi, M. I. 等 (2018). Mutual Information Neural Estimation. ICML.