Calibration of Predictions/zh

Article
Topic area	Machine Learning
Prerequisites	Logistic Regression, Cross-Entropy Loss, Probability

This page is a translated version of the page Calibration of Predictions and the translation is 100% complete.

Other languages:

English
Español
中文

概述

預測校準是指模型的概率輸出與其所預測事件的經驗頻率相吻合的性質。當二分類器對所有被賦予概率 $$ p $$ 的輸入中,大約有比例為 $$ p $$ 的樣本確實屬於正類時,該分類器即為已校準。校準不同於準確率:一個模型可以高度準確但校準很差,也可以校準良好但準確率不高。在現代深度網絡中,校準通常會因過度自信而退化——softmax 概率會集中於 0 和 1 附近,即便對於那些模型本僅能憑運氣正確分類的樣本也是如此。

凡是預測概率會驅動下游決策的場景,校準都至關重要:醫學風險評分、天氣預報、排序、集成、主動學習、選擇性預測以及貝葉斯決策理論。在這些應用中,概率校準不良所造成的損失可能遠超分類錯誤本身的損失。因此,校準既被視為已訓練模型的一項診斷性質,也作為專門的事後(post-hoc)方法和訓練中方法所要優化的目標加以研究。

形式化定義

設 $$ (X, Y) $$ 為一對隨機變量,其中 $Y \in \{1, \ldots, K\}$ ,並設 $f: \mathcal{X} \to \Delta^{K-1}$ 為一個輸出類別分佈的概率分類器。記 $\hat{p}(x) = \max_k f_k(x)$ 為置信度, $\hat{y}(x) = \arg\max_k f_k(x)$ 為預測標籤。若對每一個置信水平 $p \in [0, 1]$ :

$\Pr\bigl[\hat{Y} = Y \mid \hat{P} = p\bigr] = p.$

一種更細緻的概念——按類校準——要求對每個類別 $$ k $$ 與每個概率水平 $$ p $$ :

$\Pr\bigl[Y = k \mid f_k(X) = p\bigr] = p.$

最強形式——多類別校準或分佈校準——要求整個預測分佈與條件類別分佈相吻合。這些概念形成一個層級體系:分佈校準蘊含按類校準,按類校準又蘊含頂層標籤校準。大多數實證工作衡量的是頂層標籤校準,因為它在中等規模的樣本下即可被識別。

校準的度量

由於條件概率 $\Pr[\hat{Y} = Y \mid \hat{P} = p]$ 無法在有限數據上逐點估計,校準通常通過聚合統計量來度量。

可靠性圖

可靠性圖將預測按置信度分入 $$ M $$ 個區間 $B_1, \ldots, B_M$ ,並對每個分箱繪製平均置信度與經驗準確率的對照圖。完美校準對應於恆等直線;系統性高於該線表示置信度不足,低於該線則表示過度自信。

期望校準誤差

最常用的標量匯總指標是期望校準誤差(ECE):

$\mathrm{ECE} = \sum_{m=1}^{M} \frac{|B_m|}{n} \bigl| \mathrm{acc}(B_m) - \mathrm{conf}(B_m) \bigr|,$

其中 $\mathrm{acc}(B_m)$ 是分箱 $$ B_m $$ 中正確預測的比例, $\mathrm{conf}(B_m)$ 是該分箱的平均置信度。ECE 對分箱方案較為敏感:等寬分箱與等質量分箱會給出不同的數值,且在樣本規模較小時 ECE 存在向上的偏差。最大校準誤差(MCE)將加權求和替換為各分箱上的最大值,適用於安全關鍵場景。諸如 Adaptive ECE 等自適應變體則重新平衡各分箱樣本數,以降低方差。

適當評分規則

適當評分規則是一種在期望意義下由真實條件分佈最小化的損失 $$ S(f, y) $$ 。Brier 分數

$\mathrm{BS} = \frac{1}{n} \sum_{i=1}^{n} \sum_{k=1}^{K} (f_k(x_i) - \mathbb{1}[y_i = k])^2$

與負對數似然 $\mathrm{NLL} = -\frac{1}{n} \sum_i \log f_{y_i}(x_i)$ 都是嚴格適當的。適當評分規則可分解為校準項與精煉(銳度)項,從而為ECE提供一種不受分箱偽影影響的有原則的替代方案。

校準不良的來源

現代神經網絡通常呈現過度自信:使用交叉熵訓練直至收斂,會使 logit 值的幅度變得很大,將 softmax 概率推向單純形的角點,而無論預測類別是否正確。多種機制共同作用:模型容量的增大會使訓練負對數似然下降到偏差-方差權衡所暗示的水平之外;削弱權重衰減、去除批歸一化或延長訓練時間都會使校準變差。訓練數據與測試數據之間的分佈偏移會進一步破壞校準——即使在分佈內校準良好,模型也會對訓練中從未見過的輸入賦予高置信度。

標籤平滑、mixup 與隨機深度作為副作用通常會改善校準,因為它們阻止網絡達到零損失,從而抑制極端的 logit。注入真實輸入變化的數據增強具有類似效果。

事後校準方法

事後方法在保持底層分類器不變的前提下,利用一個保留的驗證集對已訓練模型重新校準。它們成本低、模塊化,是處理校準不良網絡的標準首選方案。

Platt 縮放

Platt 縮放在模型分數上擬合一個邏輯回歸。對於二分類,給定分數 $$ z(x) $$ ,通過在驗證數據上最小化 NLL 來學習標量 $$ a, b $$ ,使得 $\hat{p}(x) = \sigma(a \cdot z(x) + b)$ 。Platt 縮放是參數化方法,適合較小的驗證集,並假設原始分數遵從 sigmoid 形的失真。

保序回歸

保序回歸擬合一個從原始分數到校準概率的非遞減階梯函數,在單調性約束下最小化平方誤差。它是非參數方法,嚴格比 Platt 縮放更具表達力,但所需數據更多,在小型驗證集上可能過擬合。pool-adjacent-violators 算法在排序後以 $$ O(n) $$ 時間求解。

溫度縮放

對於多類別網絡,溫度縮放通過單個可學習標量 $$ T > 0 $$ 對 logit $$ z $$ 進行縮放:

$f_k(x) = \frac{\exp(z_k(x)/T)}{\sum_j \exp(z_j(x)/T)}.$

$$ T $$ 通過在保留集上最小化 NLL 來擬合。由於溫度是單調變換,準確率被嚴格保留。溫度縮放是深度分類器默認的事後方法;儘管只有一個參數,其效果通常可與表達力更強的替代方案相當甚至更優。向量縮放與矩陣縮放將其擴展為按類別的或滿秩的線性變換,但代價是不再保持準確率,並且對數據量的要求更高。

直方圖分箱與貝葉斯分箱

直方圖分箱以分箱內的經驗準確率取代分數到概率的映射。貝葉斯分位數分箱(BBQ)按各分箱方案的後驗可信度對它們加權平均,降低了直方圖分箱對分箱選擇的敏感性,但計算開銷更高。

訓練中校準

訓練中方法通過修改損失函數或訓練流程,直接產生已校準的模型。標籤平滑將硬性 one-hot 目標替換為混合 $(1 - \alpha) e_y + \alpha / K \cdot \mathbf{1}$ ,從而封頂 softmax 的最大概率,並穩定地降低ECE。Focal Loss 對高置信度樣本進行降權,被發現可以「免費」得到良好校準的網絡。諸如 MMCE 之類的輔助校準損失,在交叉熵目標上加入基於核的校準誤差估計。

貝葉斯方法及 MC dropout、SWA-Gaussian、深度集成等近似方法,會誘導出預測分佈,其平均輸出通常比任何單一網絡都校準得更好,尤其是在分佈偏移下。深度集成尤其能穩健地兼顧銳度與校準。

比較與權衡

選擇校準方法需要在三個維度上權衡:數據需求、表達力以及準確率的保持。溫度縮放僅需數百個驗證樣本,且嚴格保留 argmax,但無法糾正按類別條件化的偏差。向量縮放與矩陣縮放可以修正此類偏差,但可能削弱準確率,並需要更多數據。保序回歸和 BBQ 靈活性更高,但更耗數據。在訓練中方法裏,集成在分佈偏移下提供最佳校準,但訓練與推理成本翻倍;標籤平滑與 Focal Loss 幾乎是免費的,但會削減模型部分表達力。

在比較方法時,應將ECE與某種適當評分規則(NLL或 Brier)一同評估。若某方法降低 ECE 卻抬高 NLL,則它過擬合了分箱方案,實際並未獲得更好的校準。對分佈偏移的魯棒性應單獨度量,例如在受擾動的 ImageNet-C 或部署數據中的自然變化上。

局限

ECE的估計在小樣本下有偏且噪聲大;所報告的零點幾個百分點級別的改進通常並不具有統計顯著性。頂層標籤校準會忽略非預測類別上的校準不良,這在排序與選擇性預測中至關重要。多數校準方法假設測試分佈與用於校準的驗證集相匹配,這一假設在分佈偏移下會失效;在少量目標樣本上重新校準、考慮分佈偏移的方法以及保形預測可以提供部分補救。最後,聚合層面的校準並不意味着子群體上的校準:一個全局校準良好的模型可能系統性地對少數群體校準不良,這是一項算法公平性上的關切,並催生了子群體校準與多重校準目標。

參見

參考文獻

^[1] ^[2] ^[3] ^[4] ^[5] ^[6]

↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Platt, J. C. Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods, 1999.
↑ Naeini, M. P., Cooper, G. F., Hauskrecht, M. Obtaining Well Calibrated Probabilities Using Bayesian Binning, AAAI 2015.
↑ Brier, G. W. Verification of Forecasts Expressed in Terms of Probability, Monthly Weather Review, 1950.

[1] Template:Cite arxiv

[2] Template:Cite arxiv

[3] Template:Cite arxiv

[4] Platt, J. C. Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods, 1999.

[5] Naeini, M. P., Cooper, G. F., Hauskrecht, M. Obtaining Well Calibrated Probabilities Using Bayesian Binning, AAAI 2015.

[6] Brier, G. W. Verification of Forecasts Expressed in Terms of Probability, Monthly Weather Review, 1950.

[1]

[2]

[3]

[4]

[5]

[6]