Focal Loss/es

Article
Topic area	Deep Learning
Prerequisites	Cross-entropy Loss, Backpropagation, Logistic Regression

This page is a translated version of the page Focal Loss and the translation is 100% complete.

Other languages:

English
Español
中文

Resumen

La pérdida focal es una modificación de la pérdida estándar de cross-entropía diseñada para abordar el desequilibrio extremo de clases durante el entrenamiento, particularmente en detección densa de objetos. Introducida por Lin et al. en 2017 como el objetivo central de entrenamiento del detector RetinaNet, la pérdida focal reformula la función de pérdida de modo que los ejemplos bien clasificados contribuyan exponencialmente menos al gradiente, permitiendo que el optimizador se enfoque en un conjunto disperso de ejemplos difíciles y mal clasificados.^[1] La técnica hizo posible que los detectores de una sola etapa igualaran la exactitud de los detectores de dos etapas como Faster R-CNN, conservando al mismo tiempo la ventaja de velocidad de las arquitecturas de un solo disparo.

Aunque la pérdida focal se desarrolló para la detección de objetos, se ha convertido en una herramienta de uso general siempre que una tarea de clasificación esté dominada por negativos fáciles o por una clase mayoritaria. Los dominios de aplicación habituales incluyen la imagenología médica, la detección de anomalías, la segmentación semántica y la predicción de eventos raros. La pérdida añade un único hiperparámetro no negativo, el parámetro de focalización $\gamma$ , que interpola suavemente entre la entropía cruzada estándar y un comportamiento de minado de ejemplos difíciles.

Motivación: desequilibrio entre primer plano y fondo

Los detectores densos evalúan $$ 10^4 $$ - $$ 10^5 $$ ubicaciones candidatas por imagen, de las cuales solo un puñado se solapa con un objeto real. Las ubicaciones restantes son ejemplos de fondo fáciles cuya pérdida individual es pequeña pero cuya contribución agregada domina el gradiente. Las canalizaciones de dos etapas mitigan esto con una red de propuesta de regiones que filtra la mayor parte del fondo antes de que el clasificador siquiera lo vea. Los detectores de una sola etapa no contaban con tal filtro, y los remedios anteriores, como el minado de negativos difíciles, OHEM, o las proporciones fijas entre primer plano y fondo, requerían heurísticas frágiles entre conjuntos de datos.

La pérdida focal ataca el desequilibrio directamente, dentro de la propia pérdida, reduciendo el peso de la contribución de las predicciones confiadas independientemente de la clase. Como la reducción de peso es suave y diferenciable, ningún ejemplo se descarta jamás; la red simplemente asigna menos capacidad a aprender lo que ya conoce.

Entropía cruzada como punto de partida

Para un problema binario con etiqueta $y \in \{0, 1\}$ y probabilidad predicha $p \in [0, 1]$ para la clase positiva, la entropía cruzada es

$\mathrm{CE}(p, y) = -y \log p - (1 - y) \log(1 - p).$

Definiendo

$p_t = \begin{cases} p & \text{if } y = 1 \\ 1 - p & \text{otherwise} \end{cases}$

permite escribir la pérdida de forma compacta como $\mathrm{CE}(p_t) = -\log p_t$ . La cantidad $$ p_t $$ es la probabilidad que el modelo asigna a la clase verdadera. Un ejemplo bien clasificado tiene $p_t \to 1$ e incurre en una pérdida pequeña pero no despreciable; sumada sobre decenas de miles de negativos fáciles, esa pequeña pérdida domina el entrenamiento.

Formulación

La pérdida focal añade un factor modulador $(1 - p_t)^\gamma$ delante del término de cross-entropía:

$\mathrm{FL}(p_t) = -(1 - p_t)^\gamma \log p_t,$

donde $\gamma \geq 0$ es el parámetro de focalización ajustable. Cuando $\gamma = 0$ el factor modulador es uno y la pérdida focal se reduce a la entropía cruzada. A medida que $\gamma$ aumenta, la pérdida para las predicciones confiadas decae mucho más rápido que para las inciertas. Por ejemplo, con $\gamma = 2$ y $$ p_t = 0.9 $$ , el factor modulador es $$ 0.01 $$ , lo que da una reducción de 100x respecto de la entropía cruzada.

Un segundo ajuste, frecuentemente combinado con el factor de focalización, multiplica la pérdida por un peso de balance de clases $\alpha_t \in [0, 1]$ :

$\mathrm{FL}(p_t) = -\alpha_t (1 - p_t)^\gamma \log p_t.$

En el artículo original se reportaron como valores predeterminados robustos $\alpha = 0.25$ para la clase de primer plano (junto con $1 - \alpha = 0.75$ para el fondo) y $\gamma = 2$ . La combinación de los factores multiplicativos empuja el paisaje de pérdida hacia los primeros planos difíciles y los fondos difíciles simultáneamente.

La extensión multiclase aplica el mismo factor por clase usando un $$ p_t $$ derivado de softmax, o de forma independiente por clase con una sigmoide como activación, siendo esta última la configuración utilizada en RetinaNet.

Gradientes y dinámica de entrenamiento

Al diferenciar la pérdida focal respecto al logit $$ z $$ se obtiene un gradiente que está, a su vez, atenuado por una potencia de $$ (1 - p_t) $$ . Por lo tanto, los ejemplos fáciles contribuyen poco tanto a la pérdida directa como a la retropropagación, de modo que el optimizador gasta efectivamente cada paso en los ejemplos más difíciles del lote.

Dos detalles de implementación importan en la práctica. Primero, el sesgo de la capa de clasificación final debe inicializarse de modo que $p \approx \pi$ para algún prior pequeño como $\pi = 0.01$ ; sin esta inicialización, la pérdida en la primera iteración está dominada por decenas de miles de predicciones negativas confiadas pero erróneas, y el entrenamiento diverge. Segundo, la pérdida focal típicamente se calcula por anclaje y se normaliza por el número de anclajes positivos, no por el número total de anclajes. Esto mantiene la magnitud del gradiente comparable entre imágenes con distinta densidad de objetos.

Variantes y extensiones

Varias pérdidas posteriores se construyen sobre el esqueleto de la pérdida focal. Quality Focal Loss, introducida en la familia Generalized Focal Loss, reemplaza el objetivo binario por una puntuación continua de calidad (como IoU) de modo que el clasificador prediga directamente la confianza de la localización.^[2] Distribution Focal Loss modela el objetivo de regresión del cuadro delimitador como una distribución discreta, usando nuevamente un factor modulador de estilo focal.

En la segmentación semántica, la pérdida focal se combina frecuentemente con la pérdida Dice para manejar el desequilibrio de clases a nivel de píxel, en particular para estructuras delgadas y lesiones pequeñas en imágenes médicas. Variantes como Focal Tversky Loss generalizan la formulación combinando la modulación focal con el índice de Tversky.^[3]

Comparación con alternativas

La pérdida focal es una de varias técnicas para manejar el desequilibrio. Comparada con el minado de ejemplos difíciles y OHEM, la pérdida focal es totalmente diferenciable, no tiene un paso de selección discreto y es directa de implementar. Comparada con el muestreo balanceado por clases, no requiere conocer las frecuencias por clase de antemano y se adapta dinámicamente a medida que el modelo mejora. Comparada con un simple ponderado por clase (solo el término $\alpha$ ), el factor multiplicativo $(1 - p_t)^\gamma$ suprime adicionalmente los ejemplos fáciles dentro de cada clase.

Cuando el desequilibrio es leve, las ganancias sobre la cross-entropía son pequeñas y a veces negativas porque la pérdida focal puede subponderar señales de ejemplos ya bien clasificados pero informativos. La técnica resulta más útil cuando la fracción de ejemplos fáciles es abrumadora.

Limitaciones

La pérdida focal supone que un $$ p_t $$ bajo identifica de forma fiable una señal de aprendizaje útil. En conjuntos de datos con ruido sustancial en las etiquetas esta suposición falla: los positivos ruidosos producen $$ p_t $$ permanentemente bajo y consumen un gradiente desproporcionado. Varios trabajos han estudiado este modo de falla y propuesto variantes robustas al ruido que limitan o suavizan el factor modulador. La pérdida focal también puede ser sensible a $\gamma$ ; valores muy grandes privan al optimizador de señal durante el entrenamiento temprano, mientras que valores muy pequeños la hacen retroceder a la cross-entropía.

La calibración es una preocupación adicional. Una red entrenada con pérdida focal tiende a producir probabilidades más confiadas pero peor calibradas que una entrenada con entropía cruzada, lo cual importa cuando los sistemas posteriores consumen las probabilidades predichas directamente en lugar del argmax.

Referencias

↑ Lin, T.-Y., Goyal, P., Girshick, R., He, K., Dollar, P. "Focal Loss for Dense Object Detection." ICCV 2017. Template:Cite arxiv
↑ Li, X., Wang, W., Wu, L., Chen, S., et al. "Generalized Focal Loss." NeurIPS 2020. Template:Cite arxiv
↑ Abraham, N., Khan, N. M. "A Novel Focal Tversky Loss Function with Improved Attention U-Net for Lesion Segmentation." ISBI 2019. Template:Cite arxiv

[1] Lin, T.-Y., Goyal, P., Girshick, R., He, K., Dollar, P. "Focal Loss for Dense Object Detection." ICCV 2017. Template:Cite arxiv

[2] Li, X., Wang, W., Wu, L., Chen, S., et al. "Generalized Focal Loss." NeurIPS 2020. Template:Cite arxiv

[3] Abraham, N., Khan, N. M. "A Novel Focal Tversky Loss Function with Improved Attention U-Net for Lesion Segmentation." ISBI 2019. Template:Cite arxiv

[1]

[2]

[3]