RAdam/es

    From Marovi AI
    This page is a translated version of the page RAdam and the translation is 100% complete.
    Other languages:
    Article
    Topic area Optimization
    Prerequisites Stochastic gradient descent, Gradient descent


    Resumen

    Rectified Adam (RAdam) es un algoritmo adaptativo de optimización estocástica que modifica el popular optimizador Adam añadiendo un término de rectificación en forma cerrada a la tasa de aprendizaje adaptativa. La rectificación corrige la varianza elevada e indefinida de la estimación del segundo momento durante los primeros pasos de entrenamiento, que es la causa subyacente de la inestabilidad que los profesionales han abordado tradicionalmente con un calentamiento manual de la tasa de aprendizaje (warmup). Al derivar analíticamente la varianza de la tasa de aprendizaje adaptativa e introducir una corrección multiplicativa, RAdam pretende ofrecer actualizaciones estables desde el primer paso sin la carga de ajuste de un calendario de calentamiento. Fue presentado por Liu et al. en 2019 y se utiliza ampliamente como sustituto directo de Adam en cargas de trabajo de visión por computador, modelado de lenguaje y aprendizaje por refuerzo.[1]

    Motivación

    El Adam estándar mantiene una media móvil exponencial de los gradientes al cuadrado $ v_t $ y utiliza $ \sqrt{\hat{v}_t} $ en el denominador de cada actualización. Al inicio del entrenamiento se han acumulado muy pocas muestras de gradiente, por lo que $ \hat{v}_t $ es un estimador de alta varianza del segundo momento real. Dividir por una estimación ruidosa produce tamaños de paso poco fiables y a menudo excesivamente grandes que pueden llevar los parámetros a regiones desfavorables de la superficie de pérdida antes de que las estimaciones de los momentos se hayan estabilizado.

    La solución empírica que surgió en la comunidad de aprendizaje profundo es el calentamiento (warmup) de la tasa de aprendizaje: comenzar con una tasa de aprendizaje pequeña e incrementarla a lo largo de unos cientos o miles de iteraciones. Aunque eficaz, el calentamiento introduce hiperparámetros adicionales (longitud del calentamiento, forma del programa de calentamiento) que interactúan con la tasa de aprendizaje base, el tamaño de lote y el conjunto de datos de formas difíciles de predecir. RAdam se motiva en la observación de que el calentamiento es un parche heurístico para un problema que puede caracterizarse analíticamente y corregirse en forma cerrada.

    Varianza de la tasa de aprendizaje adaptativa

    La derivación central del artículo de RAdam calcula la varianza del término inverso de escalado adaptativo $ 1/\sqrt{\hat{v}_t} $ como función de $ t $ y de la tasa de decaimiento del segundo momento $ \beta_2 $. Bajo supuestos simplificadores sobre la distribución del gradiente, se demuestra que esta varianza es no acotada para $ t $ pequeño y luego decrece monótonamente hacia una asíntota finita cuando $ t \to \infty $. Los autores aproximan el tamaño efectivo de muestra mediante la longitud de la media móvil simple aproximada (SMA):

    $ {\displaystyle \rho_t = \rho_\infty - \frac{2 t \, \beta_2^t}{1 - \beta_2^t}, \qquad \rho_\infty = \frac{2}{1 - \beta_2} - 1.} $

    Para el valor típico $ \beta_2 = 0.999 $, $ \rho_\infty \approx 1999 $; el valor de $ \rho_t $ crece desde cero y se aproxima a $ \rho_\infty $ a medida que avanza el entrenamiento. La varianza del denominador adaptativo puede entonces escribirse en forma cerrada en términos de $ \rho_t $, lo que hace posible rectificar la actualización de modo que su varianza coincida con la del régimen de largo plazo.

    Algoritmo

    Sea $ \alpha $ la tasa de aprendizaje base, $ (\beta_1, \beta_2) $ las tasas de decaimiento de los momentos y $ \theta_{t-1} $ los parámetros antes del paso $ t $. Dado el gradiente $ g_t $, RAdam actualiza los momentos exactamente igual que Adam:

    $ {\displaystyle m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t, \qquad v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2,} $

    luego calcula el primer momento corregido por sesgo $ \hat{m}_t = m_t / (1 - \beta_1^t) $ y la longitud SMA $ \rho_t $. La regla de decisión se ramifica según si la varianza del término adaptativo es tratable:

    • Si $ \rho_t > 4 $: calcular el denominador del segundo momento corregido por sesgo $ \hat{v}_t = \sqrt{v_t / (1-\beta_2^t)} $ y el factor de rectificación

    $ {\displaystyle r_t = \sqrt{\frac{(\rho_t - 4)(\rho_t - 2) \rho_\infty}{(\rho_\infty - 4)(\rho_\infty - 2) \rho_t}},} $

    y luego dar un paso de Adam rectificado $ \theta_t = \theta_{t-1} - \alpha \, r_t \, \hat{m}_t / \hat{v}_t $.

    • En caso contrario (iteraciones tempranas, cuando la varianza es intratable): dar un paso solo de momento $ \theta_t = \theta_{t-1} - \alpha \, \hat{m}_t $, equivalente al descenso de gradiente estocástico con momento.

    El umbral $ \rho_t > 4 $ es el menor entero para el cual el denominador de la rectificación $ (\rho_\infty - 4)(\rho_\infty - 2)\rho_t $ permanece bien definido; por debajo de él, la corrección de varianza en forma cerrada no está definida y RAdam recurre a la actualización más simple de SGD con momento.

    Comportamiento en la práctica

    El factor de rectificación $ r_t $ es monótonamente creciente en $ \rho_t $, comienza muy por debajo de uno cuando $ \rho_t $ es pequeño y se aproxima a uno cuando $ \rho_t \to \rho_\infty $. Como función del paso de entrenamiento, RAdam se comporta por tanto en tres regímenes:

    1. Fase 1 ($ \rho_t \le 4 $): SGD puro con momento (momentum SGD), sin escalado adaptativo alguno. Esto suele durar solo unas pocas iteraciones para el valor predeterminado $ \beta_2 = 0.999 $.
    2. Fase 2 ($ \rho_t > 4 $, pequeño): actualizaciones rectificadas con $ r_t \ll 1 $, de modo que la tasa de aprendizaje efectiva está muy por debajo de $ \alpha $. Este es el calentamiento (warmup) implícito.
    3. Fase 3 ($ \rho_t \to \rho_\infty $): $ r_t \to 1 $ y el algoritmo coincide con Adam corregido por sesgo.

    La transición entre regímenes es suave y depende solo de $ t $ y $ \beta_2 $, no de las estadísticas del gradiente. Esto hace que el calendario de calentamiento sea independiente de los datos y elimina la longitud del calentamiento de la lista de hiperparámetros.

    Comparación con optimizadores relacionados

    • Adam. RAdam se reduce a Adam cuando $ t \to \infty $ y $ r_t \to 1 $. Los dos solo difieren en la fase inicial, donde RAdam multiplica por $ r_t < 1 $ u omite por completo el denominador adaptativo.
    • Adam con calentamiento (warmup). El calendario lineal estándar de calentamiento es una heurística manual que escala la tasa de aprendizaje base de cero a $ \alpha $ a lo largo de un número fijo de pasos. RAdam reemplaza esta heurística por un calendario derivado analíticamente que depende solo de $ \beta_2 $.
    • AdamW. AdamW corrige cómo Adam acopla el decaimiento de pesos con el denominador adaptativo. AdamW y RAdam son modificaciones ortogonales y a veces se combinan como RAdamW.
    • SGD con momento. La Fase 1 de RAdam es exactamente SGD con momento y el mismo $ \beta_1 $. SGD generaliza mejor que Adam en muchas tareas de visión; RAdam puede heredar esta propiedad solo en las iteraciones muy iniciales, tras lo cual se convierte en un método adaptativo.
    • LookAhead. LookAhead es un envoltorio que interpola periódicamente entre un optimizador interno rápido y un conjunto lento de pesos. También es ortogonal a RAdam, y la combinación "Ranger" (RAdam más LookAhead) es una elección popular en la práctica de visión por computador.

    Hiperparámetros y valores predeterminados

    RAdam conserva la interfaz de Adam. Los valores predeterminados recomendados son $ \alpha = 10^{-3} $ (o específico de la tarea), $ \beta_1 = 0.9 $, $ \beta_2 = 0.999 $ y $ \epsilon = 10^{-8} $. La diferencia práctica clave es que se elimina el hiperparámetro de longitud del calentamiento; el calendario de calentamiento es ahora implícito en la elección de $ \beta_2 $. Los profesionales que migran desde recetas de "Adam más calentamiento" suelen comprobar que los pasos manuales de calentamiento pueden eliminarse sin pérdida en la precisión final y, a menudo, con una pequeña ganancia en estabilidad.

    Limitaciones

    La derivación de la varianza supone que las muestras de gradiente son estacionarias y aproximadamente independientes entre pasos, lo que no es exactamente cierto en la práctica (los mini-lotes están correlacionados y el decaimiento de la tasa de aprendizaje cambia la distribución del gradiente). Empíricamente, RAdam sigue funcionando bien incluso cuando estas suposiciones se violan, pero la garantía teórica es más débil de lo que sugiere la limpieza de la fórmula. RAdam también hereda la peor generalización de Adam en algunos puntos de referencia de clasificación de imágenes en comparación con un SGD bien ajustado; la rectificación aborda la inestabilidad en etapas tempranas, pero no la brecha más amplia de generalización. Por último, la rectificación proporciona un calendario fijo similar al calentamiento; las tareas que se benefician de calentamientos más largos o con formas específicas (redes neuronales muy grandes, tamaños de lote extremos) pueden seguir necesitando un ajuste adicional sobre RAdam.

    Referencias