Entropy/zh

    From Marovi AI
    This page is a translated version of the page Entropy and the translation is 100% complete.
    Other languages:
    Article
    Topic area Information Theory
    Prerequisites Probability, Random Variable


    概述

    是对随机变量的概率分布的不确定性、随机性或平均信息内容的度量。它由 Claude Shannon 于 1948 年作为信息论的基础提出,用于量化某个结果在平均意义下的不可预测程度:一枚均匀硬币的熵高于一枚有偏硬币,而在多个结果上的均匀分布的熵高于尖锐分布。在机器学习中,熵是分类损失函数、决策树划分准则、强化学习中的探索奖励,以及训练生成模型所用变分目标的基础。它也为通过交叉熵Kullback-Leibler 散度比较分布提供了语言。

    直观理解

    设想从一个已知字母表的信息源接收消息,但具体的输出未知。如果信息源几乎总是发出相同的符号,那么观察它所传达的新信息很少;如果每个符号同等可能,那么每次观察的信息量都最大。在比特(对数以 2 为底时)或奈特(自然对数)的单位下刻画了这种平均信息量。

    一种常见的解释是:在最优提问策略下,确定一个结果所需的是/否问题的期望次数。在八个结果上的均匀分布的熵为三比特,正好对应于从八种可能中确定一种所需的三个二元问题。偏斜分布平均所需的问题更少,因为高概率结果可以用更短的码字识别,这正是数据压缩中熵编码的基础。

    离散形式

    对于在有限字母表 $ \mathcal{X} $ 上取值、概率质量函数为 $ p(x) = \Pr(X = x) $ 的离散随机变量 $ X $,Shannon 定义为

    $ {\displaystyle H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x),} $

    采用约定 $ 0 \log 0 = 0 $。对数的底决定了单位:以 2 为底得到比特,以 $ e $ 为底得到奈特,以 10 为底得到哈特利。熵仅取决于概率值,而不取决于结果的标签。

    重要性质包括:

    • 非负性$ H(X) \geq 0 $,当且仅当某一结果的概率为 1 时取等。
    • 均匀分布达到最大值$ H(X) \leq \log |\mathcal{X}| $,当 $ p $ 为均匀分布时取得。
    • 凹性$ H $$ p $ 的凹函数,这是互信息非负性的基础。
    • 重新标号不变性:对结果进行置换不改变 $ H(X) $

    联合信息、条件信息与互信息

    对于具有联合分布 $ p(x, y) $ 的两个随机变量 $ X $$ Y $联合熵

    $ {\displaystyle H(X, Y) = -\sum_{x, y} p(x, y) \log p(x, y),} $

    给定 $ X $ 条件下 $ Y $条件熵

    $ {\displaystyle H(Y \mid X) = -\sum_{x, y} p(x, y) \log p(y \mid x).} $

    它们满足链式法则 $ H(X, Y) = H(X) + H(Y \mid X) $,即一对变量的不确定性等于第一个变量的不确定性加上在已知第一个变量后第二个变量的残余不确定性。在观察到 $ X $ 之后对 $ Y $ 的不确定性减少量即为互信息

    $ {\displaystyle I(X; Y) = H(Y) - H(Y \mid X) = H(X) + H(Y) - H(X, Y),} $

    它是对称的、非负的,且当且仅当 $ X $$ Y $ 独立时为零。互信息被广泛用作统计依赖性的无模型度量,以及表示学习中的训练信号。

    微分熵

    对于具有密度 $ f(x) $ 的连续随机变量,对应的量是微分熵

    $ {\displaystyle h(X) = -\int f(x) \log f(x) \, dx.} $

    与离散情形不同,微分可以为负,且在变量变换下不具不变性,因此不应将其视为绝对的信息内容。然而,它的差和条件形式仍然有意义,并在连续信息论中频繁出现。在实数轴上具有给定均值和方差的所有分布中,高斯分布唯一地使微分熵最大化——这一结果说明了在只知道前两阶矩时,将高斯分布用作最大熵先验的合理性。

    与交叉熵和 KL 散度的关系

    $ p $ 为真实分布,$ q $ 为模型分布,则交叉

    $ {\displaystyle H(p, q) = -\sum_{x} p(x) \log q(x) = H(p) + D_{\mathrm{KL}}(p \,\|\, q),} $

    其中 $ D_{\mathrm{KL}}(p \,\|\, q) $ 是 Kullback-Leibler 散度。由于 $ H(p) $ 不依赖于 $ q $,关于模型参数最小化交叉熵等价于最小化模型分布与数据分布之间的KL 散度。这一恒等式是熵与交叉熵损失之间的桥梁,后者被用于训练概率分类器、语言模型以及众多其他现代系统。

    在机器学习中的应用

    熵及其衍生量贯穿整个领域:

    • 决策树使用信息增益 $ I(Y; X_j) = H(Y) - H(Y \mid X_j) $ 来选择最能减少标签不确定性的划分。ID3 和 C4.5 都基于该准则;CART 变体也支持基尼不纯度,这是一个与之密切相关的凹度量。
    • 分类损失函数最小化标签经验分布与模型预测之间的交叉熵,等价于负对数似然,为 softmax 和 sigmoid 输出提供良好校准的梯度。
    • 强化学习在策略目标上添加熵奖励项,例如柔性演员-评论家算法和熵正则化的策略梯度方法,鼓励随机探索并防止过早收敛到确定性策略
    • 变分推断证据下界分解为重构项和熵或KL项,使得诸如变分自编码器之类的潜变量模型可以通过类似最大似然的目标进行训练。
    • 最大熵建模选择在观测约束下熵最大的分布,这一原理可以从单一的信息论公理推导出 softmax 分类器、指数族模型以及许多物理统计量。
    • 主动学习与贝叶斯实验设计按候选查询的期望信息增益对其排序,选择最能降低后验不确定性的输入。

    从数据中估计

    从有限样本估计并非易事。将经验频率直接代入熵公式得到的朴素插入估计量是向下有偏的,尤其当字母表较大或分布具有长尾时。Miller-Madow、刀切法以及 NSB 估计量等偏差修正方法在不同假设下减小这种偏差。对于连续变量,常用 k 近邻估计量(Kozachenko-Leonenko)和密度估计量;在高维情形下,互信息经常通过 MINE 等基于神经网络的界进行估计。

    局限性与注意事项

    将一个分布概括为单个标量,因此会丢弃结构性细节:两个差异很大的分布可能拥有相同的熵。它假定概率已被良好定义且被良好估计,这一假设在分布偏移或小样本情形下可能失效。微分熵重参数化下不具有不变性,从神经网络表示中估计的信息论量对架构和分箱选择极为敏感。最后,熵是分布的属性,而非单个结果的属性;像“这幅图像的熵很高”这样的陈述只有在参考分布给定时才有意义。

    参见

    参考文献

    • Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27, 379-423, 623-656.
    • Cover, T. M. 和 Thomas, J. A. (2006). Elements of Information Theory(第 2 版). Wiley-Interscience.
    • MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
    • Goodfellow, I., Bengio, Y. 和 Courville, A. (2016). Deep Learning. MIT Press, 第 3 章.
    • Jaynes, E. T. (1957). Information Theory and Statistical Mechanics. Physical Review, 106(4), 620-630.
    • Belghazi, M. I. 等 (2018). Mutual Information Neural Estimation. ICML.