Calibration of Predictions/es
| Article | |
|---|---|
| Topic area | Machine Learning |
| Prerequisites | Logistic Regression, Cross-Entropy Loss, Probability |
Visión general
La calibración de predicciones es la propiedad por la que las salidas probabilísticas de un modelo coinciden con las frecuencias empíricas de los eventos que predicen. Un clasificador binario está calibrado cuando, entre todas las entradas a las que asigna probabilidad $ p $, una fracción aproximadamente igual a $ p $ pertenece efectivamente a la clase positiva. La calibración es distinta de la exactitud: un modelo puede ser muy exacto pero estar mal calibrado, o estar bien calibrado pero ser inexacto. En las redes profundas modernas, la calibración suele degradarse por exceso de confianza, donde las probabilidades de softmax se concentran cerca de 0 y 1 incluso en ejemplos que el modelo, de otro modo, solo clasificaría correctamente por azar.
La calibración importa siempre que las probabilidades predichas alimenten decisiones posteriores: puntuación de riesgo médico, predicción meteorológica, ranking, ensemblado, aprendizaje activo, predicción selectiva y teoría de decisión bayesiana. En estas aplicaciones, la pérdida derivada de una probabilidad mal calibrada puede dominar la pérdida por una clasificación errónea. Como consecuencia, la calibración se estudia tanto como propiedad diagnóstica de los modelos entrenados como objetivo de métodos específicos post-hoc y durante el entrenamiento.
Definición formal
Sea $ (X, Y) $ un par aleatorio con $ Y \in \{1, \ldots, K\} $ y sea $ f: \mathcal{X} \to \Delta^{K-1} $ un clasificador probabilístico que produce una distribución sobre las clases. Escribimos $ \hat{p}(x) = \max_k f_k(x) $ para la confianza y $ \hat{y}(x) = \arg\max_k f_k(x) $ para la etiqueta predicha. El modelo está perfectamente calibrado si para todo nivel de confianza $ p \in [0, 1] $:
$ {\displaystyle \Pr\bigl[\hat{Y} = Y \mid \hat{P} = p\bigr] = p.} $
Una noción más fina, la calibración por clase, exige que para toda clase $ k $ y todo nivel de probabilidad $ p $:
$ {\displaystyle \Pr\bigl[Y = k \mid f_k(X) = p\bigr] = p.} $
La forma más fuerte, la calibración multiclase o calibración en distribución, exige que toda la distribución predicha coincida con la distribución condicional de clases. Estas nociones forman una jerarquía: la calibración en distribución implica la calibración por clase, que a su vez implica la calibración de la etiqueta superior. La mayor parte del trabajo empírico mide la calibración de la etiqueta superior porque es identificable a partir de una muestra de tamaño moderado.
Medición de la calibración
Dado que la probabilidad condicional $ \Pr[\hat{Y} = Y \mid \hat{P} = p] $ no puede estimarse puntualmente a partir de datos finitos, la calibración se mide mediante estadísticos agregados.
Diagramas de fiabilidad
Un diagrama de fiabilidad agrupa las predicciones por confianza en $ M $ intervalos $ B_1, \ldots, B_M $ y representa, para cada bin, la confianza media frente a la exactitud empírica. La calibración perfecta aparece como la recta identidad; una desviación sistemática por encima indica falta de confianza y por debajo indica exceso de confianza.
Error de calibración esperado
El resumen escalar más habitual es el Error de Calibración Esperado (ECE):
$ {\displaystyle \mathrm{ECE} = \sum_{m=1}^{M} \frac{|B_m|}{n} \bigl| \mathrm{acc}(B_m) - \mathrm{conf}(B_m) \bigr|,} $
donde $ \mathrm{acc}(B_m) $ es la fracción de predicciones correctas en el bin $ B_m $ y $ \mathrm{conf}(B_m) $ es la confianza media en ese bin. El ECE es sensible al esquema de binning; el binning de igual anchura y el de igual masa producen valores distintos, y el ECE está sesgado al alza con tamaños de muestra pequeños. El Error Máximo de Calibración (MCE) sustituye la suma ponderada por un máximo sobre los bins, útil en aplicaciones críticas para la seguridad. Variantes adaptativas como el ECE Adaptativo reequilibran las poblaciones de los bins para reducir la varianza.
Reglas de puntuación propias
Una regla de puntuación propia es una pérdida $ S(f, y) $ minimizada en esperanza por la verdadera distribución condicional. La puntuación de Brier
$ {\displaystyle \mathrm{BS} = \frac{1}{n} \sum_{i=1}^{n} \sum_{k=1}^{K} (f_k(x_i) - \mathbb{1}[y_i = k])^2} $
y la log-verosimilitud negativa $ \mathrm{NLL} = -\frac{1}{n} \sum_i \log f_{y_i}(x_i) $ son ambas estrictamente propias. Las reglas de puntuación propias se descomponen en un término de calibración y un término de refinamiento (nitidez), proporcionando una alternativa fundamentada al ECE que no se ve afectada por artefactos de binning.
Fuentes de mala calibración
Las redes neuronales modernas suelen presentar exceso de confianza: entrenar con entropía cruzada hasta la convergencia lleva los logits a magnitudes grandes, empujando las probabilidades de softmax hacia las esquinas del símplex con independencia de si la clase predicha es correcta. Contribuyen varios mecanismos. Una mayor capacidad del modelo reduce la NLL de entrenamiento más allá de lo que sugeriría el equilibrio sesgo-varianza. Reducir el weight decay, eliminar la batch normalization o entrenar más tiempo empeoran la calibración. El cambio de distribución entre entrenamiento y prueba rompe aún más la calibración incluso cuando la calibración dentro de distribución es buena, porque el modelo asigna alta confianza a entradas distintas a cualquier cosa vista durante el entrenamiento.
El suavizado de etiquetas, mixup y la profundidad estocástica tienden a mejorar la calibración como efecto secundario, porque impiden que la red alcance pérdida cero y, por tanto, desincentivan logits extremos. La aumentación de datos que introduce variabilidad realista en las entradas tiene un efecto similar.
Métodos de calibración post-hoc
Los métodos post-hoc recalibran un modelo entrenado fijo utilizando un conjunto de validación retenido, sin alterar el clasificador subyacente. Son baratos, modulares y la respuesta estándar de primer recurso ante una red mal calibrada.
Escalado de Platt
El escalado de Platt ajusta una regresión logística sobre las puntuaciones del modelo. Para clasificación binaria con puntuación $ z(x) $, aprende los escalares $ a, b $ tales que $ \hat{p}(x) = \sigma(a \cdot z(x) + b) $, minimizando la NLL sobre los datos de validación. El escalado de Platt es paramétrico, está bien adaptado a conjuntos de validación pequeños y supone una distorsión sigmoidal de las puntuaciones subyacentes.
Regresión isotónica
La regresión isotónica ajusta una función escalonada no decreciente desde las puntuaciones brutas a probabilidades calibradas, minimizando el error cuadrático sujeto a monotonicidad. Es no paramétrica y estrictamente más expresiva que el escalado de Platt, pero requiere más datos y puede sobreajustar en conjuntos de validación pequeños. El algoritmo pool-adjacent-violators la resuelve en tiempo $ O(n) $ tras ordenar.
Escalado por temperatura
Para redes multiclase, el escalado por temperatura reescala los logits $ z $ mediante un único escalar aprendido $ T > 0 $:
$ {\displaystyle f_k(x) = \frac{\exp(z_k(x)/T)}{\sum_j \exp(z_j(x)/T)}.} $
$ T $ se ajusta minimizando la NLL sobre un conjunto retenido. Como la temperatura es una transformación monótona, la exactitud se preserva exactamente. El escalado por temperatura es el método post-hoc por defecto para clasificadores profundos; pese a tener un único parámetro, suele igualar o superar a alternativas más ricas. El escalado vectorial y el escalado por matriz lo extienden con transformaciones lineales por clase o de rango completo, a costa de la conservación de la exactitud y de mayores requisitos de datos.
Binning de histograma y bayesiano
El binning por histograma sustituye la aplicación puntuación-a-probabilidad por la exactitud empírica por bin. El Bayesian Binning into Quantiles (BBQ) promedia múltiples esquemas de binning ponderados por su plausibilidad posterior, reduciendo la sensibilidad a la elección del bin propia del binning por histograma a costa de mayor coste computacional.
Calibración durante el entrenamiento
Los métodos durante el entrenamiento modifican la pérdida o el procedimiento de entrenamiento para producir directamente un modelo calibrado. El suavizado de etiquetas sustituye los objetivos one-hot duros por una mezcla $ (1 - \alpha) e_y + \alpha / K \cdot \mathbf{1} $, acotando la probabilidad máxima de softmax y reduciendo de forma consistente el ECE. La pérdida focal pondera a la baja los ejemplos con alta confianza y se ha observado que produce redes bien calibradas de manera natural. Pérdidas auxiliares de calibración como MMCE añaden al objetivo de entropía cruzada una estimación basada en núcleos del error de calibración.
Los métodos bayesianos y aproximaciones como MC dropout, SWA-Gaussian y los ensembles profundos inducen distribuciones predictivas cuyas salidas promediadas suelen estar mejor calibradas que cualquier red individual, especialmente bajo cambio de distribución. En particular, los ensembles profundos combinan nitidez y calibración de forma robusta.
Comparaciones y compromisos
La elección del método de calibración implica compromisos a lo largo de tres ejes: necesidad de datos, expresividad y preservación de la exactitud. El escalado por temperatura solo necesita unos cientos de ejemplos de validación y preserva el argmax exactamente, pero no puede corregir sesgos condicionados a la clase. El escalado vectorial y matricial corrige tales sesgos pero puede degradar la exactitud y exige más datos. La regresión isotónica y el BBQ son aún más flexibles, pero hambrientos de datos. Entre los métodos durante el entrenamiento, los ensembles ofrecen la mejor calibración bajo cambio de distribución pero multiplican el coste de entrenamiento e inferencia; el suavizado de etiquetas y la pérdida focal son casi gratuitos, pero recortan parte de la expresividad del modelo.
Al comparar métodos, evalúe el ECE junto a una regla de puntuación propia (NLL o Brier). Un método que mejora el ECE pero aumenta la NLL ha sobreajustado el esquema de binning y no está realmente mejor calibrado. La robustez frente a cambios de distribución debe medirse por separado, por ejemplo en ImageNet-C con perturbaciones o en variaciones naturales de los datos de despliegue.
Limitaciones
Las estimaciones del ECE están sesgadas y son ruidosas con tamaños de muestra pequeños; mejoras reportadas de unas pocas décimas de punto porcentual a menudo no son estadísticamente significativas. La calibración de la etiqueta superior ignora la mala calibración en clases no predichas, lo cual importa para ranking y predicción selectiva. La mayoría de los métodos de calibración suponen que la distribución de prueba coincide con el conjunto de validación usado para calibrar, supuesto que se rompe bajo cambio de distribución; la recalibración sobre una pequeña muestra del dominio objetivo, los métodos conscientes del cambio de distribución y la predicción conformal proporcionan remedios parciales. Por último, la calibración agregada no implica calibración dentro de subgrupos: un modelo globalmente calibrado puede estar sistemáticamente mal calibrado para grupos minoritarios, una preocupación de equidad algorítmica que ha motivado objetivos de calibración por subgrupo y multicalibración.
Véase también
Referencias
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv
- ↑ Platt, J. C. Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods, 1999.
- ↑ Naeini, M. P., Cooper, G. F., Hauskrecht, M. Obtaining Well Calibrated Probabilities Using Bayesian Binning, AAAI 2015.
- ↑ Brier, G. W. Verification of Forecasts Expressed in Terms of Probability, Monthly Weather Review, 1950.