Hinge Loss/es

    From Marovi AI
    This page is a translated version of the page Hinge Loss and the translation is 100% complete.
    Other languages:
    Article
    Topic area supervised learning
    Prerequisites Loss function, Support vector machine, Convex optimization


    Visión general

    La pérdida de bisagra es una función de pérdida convexa utilizada para entrenar clasificadores de margen amplio, siendo el caso más conocido la máquina de vectores de soporte (SVM). Para una etiqueta binaria $ y \in \{-1, +1\} $ y una puntuación real del clasificador $ s = f(x) $, la pérdida de bisagra estándar es $ \ell(y, s) = \max(0,\, 1 - y s) $. La pérdida es exactamente cero siempre que el clasificador sea correcto y confiado — es decir, $ y s \geq 1 $ — y crece linealmente con la violación en caso contrario. Esta forma lineal por trozos produce dos propiedades definitorias de los modelos entrenados con bisagra: una interpretación geométrica de margen máximo y una dispersión en la que solo los "vectores de soporte" cercanos o dentro del margen contribuyen al gradiente. La pérdida de bisagra sirve como sustituto convexo de la pérdida discontinua 0-1 y, con una regularización adecuada, es estadísticamente consistente con el clasificador óptimo de Bayes.

    Origen y motivación

    La pérdida de bisagra es inseparable del desarrollo de la SVM. Cortes y Vapnik introdujeron la SVM de margen blando en 1995 al relajar la formulación original de margen duro para manejar datos no separables, sustituyendo las restricciones estrictas por una variable de holgura por cada ejemplo.[1] El objetivo primal resultante puede reescribirse como un problema no restringido de minimización del riesgo empírico con pérdida de bisagra:

    $ {\displaystyle J(w, b) = \frac{1}{n} \sum_{i=1}^{n} \max\!\left(0,\, 1 - y_i (w^\top x_i + b)\right) + \frac{\lambda}{2} \|w\|^2.} $

    El regularizador impone un margen amplio $ 2/\|w\| $; el término de bisagra penaliza los puntos que invaden el margen o que están directamente mal clasificados. Dado que la pérdida es idénticamente cero para los ejemplos cómodamente fuera del margen, solo los vectores de soporte influyen en la solución dual — una dispersión estructural que distingue a los modelos entrenados con bisagra de los clasificadores que utilizan pérdidas suaves como las pérdidas logística o de entropía cruzada.

    La pérdida de bisagra también es una elección bien fundamentada desde una perspectiva de la teoría del aprendizaje: es una cota superior convexa de la pérdida 0-1 y es consistente en el sentido de Fisher para la clasificación binaria, de modo que minimizarla recupera asintóticamente la regla de decisión óptima de Bayes.[2]

    Formulación

    Para la clasificación binaria con etiquetas $ y \in \{-1, +1\} $ y una puntuación escalar $ s $, defínase el margen de una predicción como el producto $ y s $. La pérdida de bisagra descompone el eje de puntuación en tres regímenes:

    • $ y s \geq 1 $ — correcto con confianza: $ \ell = 0 $, sin gradiente.
    • $ 0 < y s < 1 $ — correcto pero dentro del margen: $ \ell = 1 - y s \in (0, 1) $.
    • $ y s \leq 0 $ — incorrecto: $ \ell \geq 1 $, crece linealmente.

    La pérdida es convexa pero no diferenciable en $ y s = 1 $. Un subgradiente válido es

    $ {\displaystyle \partial_s \ell(y, s) = \begin{cases} -y & y s < 1 \\ 0 & y s > 1 \\ \text{any value in }[-y, 0] & y s = 1, \end{cases}} $

    lo cual basta para los métodos de gradiente estocástico. El codo en $ y s = 1 $ es precisamente el límite que produce la dispersión de los vectores de soporte: en el problema dual de SVM, los ejemplos con $ y s > 1 $ tienen coeficiente dual cero y no desempeñan ningún papel en la frontera de decisión.

    Variantes

    En la práctica aparecen varias variantes de la bisagra básica:

    • Bisagra cuadrática reemplaza la penalización lineal por una cuadrática: $ \ell = \max(0, 1 - y s)^2 $. Es diferenciable lejos del codo y penaliza más severamente las grandes violaciones de margen, lo que puede acelerar la convergencia a costa de mayor sensibilidad a los valores atípicos. Las SVM L2 emplean esta forma.
    • Bisagra suavizada (pérdida de Huber modificada) introduce una transición cuadrática alrededor de $ y s = 1 $, produciendo un sustituto diferenciable en todas partes y adecuado para los métodos de segundo orden. La pérdida de Huber modificada de Zhang es una variante ampliamente utilizada.[3]
    • Bisagra multiclase de Crammer-Singer generaliza a $ K $ clases penalizando la clase incorrecta de mayor puntuación: $ \ell = \max\!\big(0,\, 1 + \max_{k \neq y} s_k - s_y\big) $.[4]
    • Bisagra multiclase de Weston-Watkins suma en cambio las bisagras sobre todas las clases incorrectas: $ \ell = \sum_{k \neq y} \max(0, 1 + s_k - s_y) $. Las dos formulaciones coinciden en el caso binario, pero difieren en la distribución del gradiente y en sus propiedades de consistencia estadística.
    • Bisagra de ranking aplica la forma binaria a las diferencias de puntuación para pares ordenados $ (i, j) $: $ \ell = \max(0, 1 - (s_i - s_j)) $. Subyace a los métodos de aprendizaje de ranking por pares como RankSVM.
    • Bisagra de tripleta (utilizada en la pérdida de tripleta para aprendizaje métrico): $ \max(0,\, D_{ap}^2 - D_{an}^2 + m) $ para una tripleta ancla-positivo-negativo con margen $ m $.

    Optimización

    La pérdida de bisagra es convexa pero no suave, por lo que los métodos de primer orden se basan en subgradientes. Existen varios algoritmos prácticos:

    • Descenso por subgradiente estocástico. Pegasos[5] demostró que una simple actualización del subgradiente por ejemplo con un tamaño de paso $ 1/t $ alcanza una convergencia $ O(1/(\lambda t)) $ en el objetivo de bisagra regularizado, escalando sin esfuerzo a millones de ejemplos.
    • Ascenso dual por coordenadas. LIBLINEAR explota el dual cuadrático del problema de bisagra regularizado, actualizando una coordenada dual a la vez con una solución por paso en forma cerrada. Es el caballo de batalla para las SVM lineales de mediana escala.[6]
    • Métodos de planos de corte. SVMperf y OCAS reformulan el objetivo de bisagra como un programa cuadrático restringido con restricciones lineales añadidas iterativamente, logrando una convergencia rápida en tareas de salida estructurada.
    • Sustitutos suaves. Cuando se prefieren métodos de segundo orden u optimizadores cuasi-Newton (como L-BFGS), reemplazar la bisagra por una bisagra cuadrática o un suavizado de Huber modificado hace que el gradiente sea continuo y que la información del Hessiano sea significativa.

    En el dual de la SVM con núcleo, el costo de inferencia escala con el número de vectores de soporte, que puede ser una fracción sustancial del conjunto de entrenamiento en datos ruidosos. La forma primal por subgradiente escala linealmente con el tamaño de los datos y es la preferida para la clasificación lineal a gran escala.

    Comparación con otras pérdidas de clasificación

    La pérdida de bisagra ocupa un rincón distintivo dentro de la familia de pérdidas basadas en márgenes:

    • Pérdida 0-1 es el objetivo ideal de clasificación, pero no es convexa y es NP-difícil de minimizar.
    • Pérdida logística $ \log(1 + e^{-y s}) $ es suave en todo punto, ofrece probabilidades calibradas a través de la sigmoide y tiene gradiente no nulo incluso para predicciones correctas con confianza.
    • Pérdida exponencial $ e^{-y s} $ impulsa el algoritmo AdaBoost y penaliza las violaciones de margen mucho más agresivamente que la bisagra — a costa de fragilidad bajo ruido de etiquetas.
    • Pérdida de entropía cruzada generaliza la pérdida logística a la clasificación multiclase y es la opción por defecto para los clasificadores de redes neuronales.

    La bisagra se diferencia marcadamente en ser exactamente cero fuera del margen: los puntos clasificados con confianza no ejercen ningún gradiente, lo que centra la optimización en los ejemplos difíciles. Esto induce dispersión y una interpretación geométrica estricta — la frontera de decisión depende solo de los puntos dentro del margen o que lo violan — pero produce puntuaciones no calibradas en lugar de probabilidades. Estadísticamente, la bisagra es consistente con el signo del clasificador de Bayes, pero no con las probabilidades condicionales de clase; la pérdida logística recupera ambas.

    Uso en aprendizaje profundo

    Aunque la pérdida de entropía cruzada domina los clasificadores profundos modernos, la pérdida de bisagra reaparece en varios entornos de aprendizaje profundo. Tang demostró que sustituir la cabeza softmax de una red neuronal convolucional por una capa SVM L2 (bisagra cuadrática) puede igualar o superar la precisión de la entropía cruzada en los puntos de referencia estándar.[7] La formulación de bisagra también se ha convertido en la pérdida por defecto en muchas variantes de red generativa antagónica (GAN) — Lim y Ye, así como Miyato et al., introdujeron el objetivo "GAN de bisagra", que reemplaza la pérdida GAN original de estilo Jensen-Shannon por términos de bisagra y mejora la estabilidad del entrenamiento para la generación de imágenes de alta resolución.[8][9] Las variantes de tripleta y contrastiva de bisagra sustentan los sistemas de reconocimiento facial y los pipelines anteriores de aprendizaje métrico, mientras que enfoques de entrenamiento adversarial como el de Madry et al. emplean márgenes robustos al estilo bisagra.

    Limitaciones

    La pérdida de bisagra tiene inconvenientes bien comprendidos. El codo en $ y s = 1 $ descarta el descenso de gradiente simple y excluye los métodos de segundo orden a menos que se utilice un sustituto suave. Las salidas no están calibradas — la puntuación no tiene significado probabilístico — por lo que los consumidores posteriores que requieran probabilidades deben aplicar escalado de Platt o calibración isotónica a posteriori. La bisagra también es menos robusta al ruido de etiquetas que la pérdida logística: una etiqueta invertida produce un margen de $ -1 $, contribuyendo con un gradiente lineal constante que, en casos extremos, puede dominar las actualizaciones. Las generalizaciones multiclase no son únicas, y las formas de Crammer-Singer y Weston-Watkins hacen distintos compromisos estadísticos y computacionales. Por último, la constante de margen $ 1 $ es convencional más que de principio; en la práctica, el escalado de las características y la fuerza de la regularización interactúan con esta constante de maneras que exigen un cuidadoso ajuste de hiperparámetros.

    Referencias

    1. Template:Cite arxiv
    2. Lin, Yi, "Support Vector Machines and the Bayes Rule in Classification," Data Mining and Knowledge Discovery, 2002.
    3. Zhang, Tong, "Solving Large Scale Linear Prediction Problems Using Stochastic Gradient Descent Algorithms," ICML 2004.
    4. Crammer, Koby and Singer, Yoram, "On the Algorithmic Implementation of Multiclass Kernel-based Vector Machines," JMLR 2001.
    5. Template:Cite arxiv
    6. Hsieh, Cho-Jui et al., "A Dual Coordinate Descent Method for Large-scale Linear SVM," ICML 2008.
    7. Template:Cite arxiv
    8. Template:Cite arxiv
    9. Template:Cite arxiv