Huber Loss/es

    From Marovi AI
    This page is a translated version of the page Huber Loss and the translation is 100% complete.
    Other languages:
    Article
    Topic area Machine learning — loss functions
    Prerequisites Mean Squared Error, Mean Absolute Error, Gradient Descent


    Resumen

    La pérdida de Huber es una función de pérdida de regresión que se comporta cuadráticamente para residuos pequeños y linealmente para los grandes, combinando la geometría de optimización suave del error cuadrático con la robustez frente a valores atípicos del error absoluto. Introducida por Peter J. Huber en 1964 como parte de su trabajo sobre estadística robusta, está parametrizada por un umbral $ \delta > 0 $ que define el cruce entre los dos regímenes.[1] En el aprendizaje automático moderno, la pérdida de Huber se utiliza ampliamente para tareas de regresión donde los objetivos contienen ruido de cola pesada, y un pariente cercano suavizado conocido como Smooth L1 loss se ha convertido en la elección estándar para la regresión de cajas delimitadoras en detección de objetos.

    Intuición

    El error cuadrático medio penaliza los residuos por su cuadrado, por lo que un único punto mal etiquetado con un residuo grande puede dominar el gradiente y atraer el ajuste hacia sí mismo. El error absoluto medio trata cada residuo en una escala lineal y, por tanto, es mucho menos sensible a los valores atípicos, pero su gradiente es de magnitud constante y su derivada no está definida en cero, lo que ralentiza la convergencia cerca del óptimo y produce actualizaciones inestables con optimizadores basados en momento.

    La pérdida de Huber interpola entre estos dos extremos. Cuando el residuo es pequeño, la pérdida se ve cuadrática, por lo que los gradientes se reducen a medida que el modelo se aproxima al objetivo y la optimización converge suavemente. Cuando el residuo supera el umbral $ \delta $, la pérdida cambia a un régimen lineal, limitando la magnitud del gradiente a $ \delta $ e impidiendo que unos pocos errores extremos dirijan el entrenamiento. El resultado es una pérdida que es robusta como la cola del error absoluto pero bien comportada como el núcleo del error cuadrático.

    Formulación

    Para un residuo $ r = y - \hat{y} $, la pérdida de Huber se define por tramos:

    $ {\displaystyle L_\delta(r) = \begin{cases} \tfrac{1}{2} r^2 & \text{if } |r| \le \delta, \\ \delta\,(|r| - \tfrac{1}{2}\delta) & \text{if } |r| > \delta. \end{cases} } $

    La constante $ \tfrac{1}{2}\delta $ en la rama lineal se elige de modo que las dos partes coincidan en valor y en primera derivada en $ |r| = \delta $. La derivada respecto de la predicción $ \hat{y} $ es

    $ {\displaystyle \frac{\partial L_\delta}{\partial \hat{y}} = \begin{cases} -r & \text{if } |r| \le \delta, \\ -\delta\,\operatorname{sign}(r) & \text{if } |r| > \delta, \end{cases} } $

    lo cual deja claro que la magnitud del gradiente está acotada en $ \delta $. Dado que la pérdida es continuamente diferenciable pero solo una vez (la segunda derivada salta de 1 a 0 en $ |r|=\delta $), es C^1 pero no C^2.

    Propiedades

    La pérdida de Huber es convexa en el residuo, por lo que sumarla sobre un conjunto de datos produce un riesgo empírico convexo para modelos lineales. Está acotada inferiormente por cero y crece sin límite, lo que mantiene el problema de optimización bien planteado. A diferencia del error absoluto puro, la pérdida es diferenciable en todas partes, por lo que los métodos de primer orden como Gradient Descent y Stochastic Gradient Descent no necesitan un tratamiento de subgradientes cerca de cero. A diferencia del error cuadrático, la función de influencia (la contribución de una sola observación al gradiente) está acotada, lo que constituye el sentido formal en el que la regresión de Huber es un M-estimator con influencia acotada.[2]

    Elección del umbral

    El hiperparámetro $ \delta $ controla con cuánta agresividad se reducen los residuos grandes. Un $ \delta $ pequeño se aproxima al error absoluto medio y maximiza la robustez; un $ \delta $ grande se aproxima al error cuadrático medio y enfatiza la suavidad. Una heurística común, debida a Huber, es fijar $ \delta $ como un múltiplo (a menudo 1.345) de una estimación de escala robusta como la desviación absoluta mediana, lo que produce alrededor del 95 por ciento de eficiencia asintótica bajo ruido gaussiano mientras se mantiene robustez frente a contaminación. En aprendizaje profundo, $ \delta $ suele fijarse en 1 (la convención Smooth L1) o se ajusta en una partición de validación.

    Entrenamiento e inferencia

    Como la pérdida es convexa y suave, la regresión de Huber para modelos lineales puede resolverse mediante mínimos cuadrados iterativamente reponderados, mediante métodos quasi-Newton, o mediante Gradient Descent ordinario. En las redes neuronales, la pérdida se introduce como un reemplazo directo del error cuadrático medio en la capa de salida y propaga gradientes a través de Backpropagation de la manera habitual. El comportamiento de gradiente acotado en el régimen lineal actúa como una forma incorporada de recorte de gradientes para la cabeza de regresión, lo que puede estabilizar el entrenamiento cuando los objetivos contienen ocasionalmente valores extremos, por ejemplo en la predicción de recompensa para aprendizaje por refuerzo.

    Variantes

    Varias aproximaciones suaves y generalizaciones de la pérdida de Huber son de uso común:

    • Smooth L1 loss es el caso especial $ \delta = 1 $ popularizado por el detector de objetos Fast R-CNN para regresión de cajas delimitadoras; a veces se escribe sin el factor de un medio, pero por lo demás es idéntico.[3]
    • Pérdida pseudo-Huber reemplaza la definición por tramos por el sustituto suave $ L(r) = \delta^2\bigl(\sqrt{1+(r/\delta)^2} - 1\bigr) $, que es C-infinito y aproxima estrechamente la forma de Huber; resulta conveniente cuando se necesitan derivadas segundas.
    • Pérdida log-cosh usa $ L(r) = \log\cosh(r) $ y se comporta como un error cuadrático cerca de cero y como un error absoluto en las colas, con una motivación similar pero distinta curvatura.
    • Biponderación de Tukey va más allá y redesciende a influencia cero más allá de un corte, descartando completamente los valores atípicos extremos; a diferencia de Huber, es no convexa, por lo que se usa principalmente con buenas inicializaciones.

    Comparaciones

    Comparada con el error cuadrático medio, la pérdida de Huber sacrifica una pequeña pérdida de eficiencia bajo ruido perfectamente gaussiano a cambio de un comportamiento sustancialmente mejor bajo ruido de cola pesada o contaminado. Comparada con el error absoluto medio, sacrifica algo de robustez de ruptura por una superficie de optimización más suave y una convergencia más rápida cerca del óptimo. En cabezas de regresión profundas, a menudo se prefiere a ambas: produce un entrenamiento más estable que el error cuadrático medio y una convergencia más rápida que el error absoluto medio, especialmente cuando se utiliza con optimizadores adaptativos cuyas estimaciones de momento son sensibles a picos de gradiente.

    Aplicaciones

    La pérdida de Huber aparece en todo el aprendizaje automático. En visión por computador, la variante Smooth L1 es el estándar de facto para la regresión de cajas delimitadoras y puntos clave en detectores como Fast R-CNN, Faster R-CNN, y muchos de sus sucesores. En aprendizaje por refuerzo, se usa como pérdida de diferencia temporal en el Q-learning profundo, donde modera los grandes errores de Bellman que de otro modo desestabilizarían el entrenamiento.[4] En la regresión tabular y la previsión de series temporales es una elección estándar cuando los objetivos contienen picos ocasionales, y en estadística clásica la regresión de Huber sigue siendo un ejemplo fundamental de M-estimador con influencia acotada.

    Limitaciones

    La pérdida de Huber tiene limitaciones. El umbral $ \delta $ es un hiperparámetro libre que debe elegirse con cuidado; un valor calibrado para un conjunto de datos puede ser inapropiado cuando la escala de ruido cambia. La pérdida es convexa pero no estrictamente convexa fuera de la región cuadrática, lo que puede ralentizar la convergencia en direcciones planas. No redesciende, por lo que, a diferencia de las pérdidas estilo Tukey, todavía permite que las observaciones extremas influyan en el ajuste, solo que con peso acotado. Finalmente, aunque es robusta frente al ruido simétrico de cola pesada, no corrige por sí sola sesgos sistemáticos o distribuciones de error asimétricas; en esos casos, Quantile Regression o variantes asimétricas de la pérdida de Huber suelen ser más apropiadas.

    Referencias

    1. Huber, P. J. Robust Estimation of a Location Parameter. Annals of Mathematical Statistics, 35(1):73-101, 1964.
    2. Huber, P. J. and Ronchetti, E. M. Robust Statistics, 2nd ed., Wiley, 2009.
    3. Girshick, R. Fast R-CNN. ICCV, 2015.
    4. Mnih, V. et al. Human-level control through deep reinforcement learning. Nature, 518:529-533, 2015.