Calibration of Predictions/zh

Article
Topic area	Machine Learning
Prerequisites	Logistic Regression, Cross-Entropy Loss, Probability

This page is a translated version of the page Calibration of Predictions and the translation is 100% complete.

Other languages:

English
Español
中文

概述

预测校准是指模型的概率输出与其所预测事件的经验频率相吻合的性质。当二分类器对所有被赋予概率 $$ p $$ 的输入中,大约有比例为 $$ p $$ 的样本确实属于正类时,该分类器即为已校准。校准不同于准确率:一个模型可以高度准确但校准很差,也可以校准良好但准确率不高。在现代深度网络中,校准通常会因过度自信而退化——softmax 概率会集中于 0 和 1 附近,即便对于那些模型本仅能凭运气正确分类的样本也是如此。

凡是预测概率会驱动下游决策的场景,校准都至关重要:医学风险评分、天气预报、排序、集成、主动学习、选择性预测以及贝叶斯决策理论。在这些应用中,概率校准不良所造成的损失可能远超分类错误本身的损失。因此,校准既被视为已训练模型的一项诊断性质,也作为专门的事后(post-hoc)方法和训练中方法所要优化的目标加以研究。

形式化定义

设 $$ (X, Y) $$ 为一对随机变量,其中 $Y \in \{1, \ldots, K\}$ ,并设 $f: \mathcal{X} \to \Delta^{K-1}$ 为一个输出类别分布的概率分类器。记 $\hat{p}(x) = \max_k f_k(x)$ 为置信度, $\hat{y}(x) = \arg\max_k f_k(x)$ 为预测标签。若对每一个置信水平 $p \in [0, 1]$ :

$\Pr\bigl[\hat{Y} = Y \mid \hat{P} = p\bigr] = p.$

一种更细致的概念——按类校准——要求对每个类别 $$ k $$ 与每个概率水平 $$ p $$ :

$\Pr\bigl[Y = k \mid f_k(X) = p\bigr] = p.$

最强形式——多类别校准或分布校准——要求整个预测分布与条件类别分布相吻合。这些概念形成一个层级体系:分布校准蕴含按类校准,按类校准又蕴含顶层标签校准。大多数实证工作衡量的是顶层标签校准,因为它在中等规模的样本下即可被识别。

校准的度量

由于条件概率 $\Pr[\hat{Y} = Y \mid \hat{P} = p]$ 无法在有限数据上逐点估计,校准通常通过聚合统计量来度量。

可靠性图

可靠性图将预测按置信度分入 $$ M $$ 个区间 $B_1, \ldots, B_M$ ,并对每个分箱绘制平均置信度与经验准确率的对照图。完美校准对应于恒等直线;系统性高于该线表示置信度不足,低于该线则表示过度自信。

期望校准误差

最常用的标量汇总指标是期望校准误差(ECE):

$\mathrm{ECE} = \sum_{m=1}^{M} \frac{|B_m|}{n} \bigl| \mathrm{acc}(B_m) - \mathrm{conf}(B_m) \bigr|,$

其中 $\mathrm{acc}(B_m)$ 是分箱 $$ B_m $$ 中正确预测的比例, $\mathrm{conf}(B_m)$ 是该分箱的平均置信度。ECE 对分箱方案较为敏感:等宽分箱与等质量分箱会给出不同的数值,且在样本规模较小时 ECE 存在向上的偏差。最大校准误差(MCE)将加权求和替换为各分箱上的最大值,适用于安全关键场景。诸如 Adaptive ECE 等自适应变体则重新平衡各分箱样本数,以降低方差。

适当评分规则

适当评分规则是一种在期望意义下由真实条件分布最小化的损失 $$ S(f, y) $$ 。Brier 分数

$\mathrm{BS} = \frac{1}{n} \sum_{i=1}^{n} \sum_{k=1}^{K} (f_k(x_i) - \mathbb{1}[y_i = k])^2$

与负对数似然 $\mathrm{NLL} = -\frac{1}{n} \sum_i \log f_{y_i}(x_i)$ 都是严格适当的。适当评分规则可分解为校准项与精炼(锐度)项,从而为ECE提供一种不受分箱伪影影响的有原则的替代方案。

校准不良的来源

现代神经网络通常呈现过度自信:使用交叉熵训练直至收敛,会使 logit 值的幅度变得很大,将 softmax 概率推向单纯形的角点,而无论预测类别是否正确。多种机制共同作用:模型容量的增大会使训练负对数似然下降到偏差-方差权衡所暗示的水平之外;削弱权重衰减、去除批归一化或延长训练时间都会使校准变差。训练数据与测试数据之间的分布偏移会进一步破坏校准——即使在分布内校准良好,模型也会对训练中从未见过的输入赋予高置信度。

标签平滑、mixup 与随机深度作为副作用通常会改善校准,因为它们阻止网络达到零损失,从而抑制极端的 logit。注入真实输入变化的数据增强具有类似效果。

事后校准方法

事后方法在保持底层分类器不变的前提下,利用一个保留的验证集对已训练模型重新校准。它们成本低、模块化,是处理校准不良网络的标准首选方案。

Platt 缩放

Platt 缩放在模型分数上拟合一个逻辑回归。对于二分类,给定分数 $$ z(x) $$ ,通过在验证数据上最小化 NLL 来学习标量 $$ a, b $$ ,使得 $\hat{p}(x) = \sigma(a \cdot z(x) + b)$ 。Platt 缩放是参数化方法,适合较小的验证集,并假设原始分数遵从 sigmoid 形的失真。

保序回归

保序回归拟合一个从原始分数到校准概率的非递减阶梯函数,在单调性约束下最小化平方误差。它是非参数方法,严格比 Platt 缩放更具表达力,但所需数据更多,在小型验证集上可能过拟合。pool-adjacent-violators 算法在排序后以 $$ O(n) $$ 时间求解。

温度缩放

对于多类别网络,温度缩放通过单个可学习标量 $$ T > 0 $$ 对 logit $$ z $$ 进行缩放:

$f_k(x) = \frac{\exp(z_k(x)/T)}{\sum_j \exp(z_j(x)/T)}.$

$$ T $$ 通过在保留集上最小化 NLL 来拟合。由于温度是单调变换,准确率被严格保留。温度缩放是深度分类器默认的事后方法;尽管只有一个参数,其效果通常可与表达力更强的替代方案相当甚至更优。向量缩放与矩阵缩放将其扩展为按类别的或满秩的线性变换,但代价是不再保持准确率,并且对数据量的要求更高。

直方图分箱与贝叶斯分箱

直方图分箱以分箱内的经验准确率取代分数到概率的映射。贝叶斯分位数分箱(BBQ)按各分箱方案的后验可信度对它们加权平均,降低了直方图分箱对分箱选择的敏感性,但计算开销更高。

训练中校准

训练中方法通过修改损失函数或训练流程,直接产生已校准的模型。标签平滑将硬性 one-hot 目标替换为混合 $(1 - \alpha) e_y + \alpha / K \cdot \mathbf{1}$ ,从而封顶 softmax 的最大概率,并稳定地降低ECE。Focal Loss 对高置信度样本进行降权,被发现可以“免费”得到良好校准的网络。诸如 MMCE 之类的辅助校准损失,在交叉熵目标上加入基于核的校准误差估计。

贝叶斯方法及 MC dropout、SWA-Gaussian、深度集成等近似方法,会诱导出预测分布,其平均输出通常比任何单一网络都校准得更好,尤其是在分布偏移下。深度集成尤其能稳健地兼顾锐度与校准。

比较与权衡

选择校准方法需要在三个维度上权衡:数据需求、表达力以及准确率的保持。温度缩放仅需数百个验证样本,且严格保留 argmax,但无法纠正按类别条件化的偏差。向量缩放与矩阵缩放可以修正此类偏差,但可能削弱准确率,并需要更多数据。保序回归和 BBQ 灵活性更高,但更耗数据。在训练中方法里,集成在分布偏移下提供最佳校准,但训练与推理成本翻倍;标签平滑与 Focal Loss 几乎是免费的,但会削减模型部分表达力。

在比较方法时,应将ECE与某种适当评分规则(NLL或 Brier)一同评估。若某方法降低 ECE 却抬高 NLL,则它过拟合了分箱方案,实际并未获得更好的校准。对分布偏移的鲁棒性应单独度量,例如在受扰动的 ImageNet-C 或部署数据中的自然变化上。

局限

ECE的估计在小样本下有偏且噪声大;所报告的零点几个百分点级别的改进通常并不具有统计显著性。顶层标签校准会忽略非预测类别上的校准不良,这在排序与选择性预测中至关重要。多数校准方法假设测试分布与用于校准的验证集相匹配,这一假设在分布偏移下会失效;在少量目标样本上重新校准、考虑分布偏移的方法以及保形预测可以提供部分补救。最后,聚合层面的校准并不意味着子群体上的校准:一个全局校准良好的模型可能系统性地对少数群体校准不良,这是一项算法公平性上的关切,并催生了子群体校准与多重校准目标。

参见

参考文献

^[1] ^[2] ^[3] ^[4] ^[5] ^[6]

↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Platt, J. C. Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods, 1999.
↑ Naeini, M. P., Cooper, G. F., Hauskrecht, M. Obtaining Well Calibrated Probabilities Using Bayesian Binning, AAAI 2015.
↑ Brier, G. W. Verification of Forecasts Expressed in Terms of Probability, Monthly Weather Review, 1950.

[1] Template:Cite arxiv

[2] Template:Cite arxiv

[3] Template:Cite arxiv

[4] Platt, J. C. Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods, 1999.

[5] Naeini, M. P., Cooper, G. F., Hauskrecht, M. Obtaining Well Calibrated Probabilities Using Bayesian Binning, AAAI 2015.

[6] Brier, G. W. Verification of Forecasts Expressed in Terms of Probability, Monthly Weather Review, 1950.

[1]

[2]

[3]

[4]

[5]

[6]