Decoupled Weight Decay Regularization/es

Research Paper
Authors	Ilya Loshchilov; Frank Hutter
Year	2017
Topic area	Machine Learning
Difficulty	Research
arXiv	1711.05101
PDF	Download PDF

Other languages:

English
Español
中文

SummarySource

Decoupled Weight Decay Regularization es un artículo de 2017 de Ilya Loshchilov y Frank Hutter que pone de manifiesto una inequivalencia largamente desapercibida entre la regularización L₂ y la verdadera weight decay en optimizadores de gradiente adaptativos, y propone una solución simple. El artículo introduce AdamW (y su variante hermana SGDW), una variante de Adam en la que el término de weight decay se aplica directamente a los parámetros en lugar de añadirse al gradiente antes del escalado adaptativo. AdamW cierra gran parte de la brecha de generalización observada desde hace tiempo entre Adam y SGD con momentum en clasificación de imágenes, y desde entonces se ha convertido en el optimizador de facto para entrenar transformers a gran escala y otras redes neuronales modernas.

Visión general

En el descenso de gradiente estocástico estándar, añadir una penalización L₂ $\tfrac{\lambda'}{2}\|\theta\|_2^2$ a la pérdida es matemáticamente equivalente a multiplicar los parámetros por $(1-\lambda)$ en cada paso, con $\lambda' = \lambda/\alpha$ para una learning rate $\alpha$ . La mayoría de las bibliotecas de aprendizaje profundo aprovechan esta equivalencia e implementan la «weight decay» simplemente añadiendo $\lambda \theta$ al gradiente. Los autores señalan que esta equivalencia se rompe en cuanto el optimizador reescala los gradientes de forma adaptativa, como ocurre en AdaGrad, RMSProp, Adam o AMSGrad: el gradiente del regularizador queda entonces dividido por el mismo denominador por parámetro que el gradiente de la pérdida, de modo que los pesos con actualizaciones históricamente grandes se regularizan menos de lo que lo harían bajo una weight decay genuina.

La propuesta central del artículo consiste en desacoplar el paso de decay de la actualización adaptativa: en lugar de incorporar $\lambda \theta$ al gradiente, se multiplica $\theta$ por $(1-\eta_t \lambda)$ después de la actualización de Adam. El resultado es AdamW. Empíricamente, AdamW (i) hace que el factor óptimo de weight decay y la learning rate óptima sean aproximadamente ortogonales, y (ii) eleva la generalización de Adam en CIFAR-10, CIFAR-100 e ImageNet32×32 hasta un nivel competitivo con SGD con momentum, un resultado que antes exigía cambiar de optimizador según el problema.

Contribuciones principales

Un análisis formal que muestra que la regularización L₂ y la weight decay son equivalentes para SGD estándar solo tras una reparametrización dependiente de la learning rate, y que no son equivalentes para ningún optimizador cuyo precondicionador $\mathbf{M}_t$ no sea un múltiplo escalar de la identidad.
Algoritmos AdamW y SGDW que desacoplan la weight decay de la actualización basada en gradiente, parametrizados mediante un multiplicador de schedule explícito $\eta_t$ .
Una interpretación como «L₂ ajustada por escala»: para un optimizador adaptativo idealizado con un precondicionador diagonal fijo, la weight decay desacoplada equivale a penalizar $\sum_i s_i \theta_i^2$ , regularizando con mayor fuerza los parámetros con gradientes históricos grandes.
Una demostración de que la weight decay óptima disminuye a medida que crece el presupuesto de entrenamiento, junto con una heurística $\lambda_{\text{norm}} = \lambda \sqrt{B/(BT)}$ que normaliza $\lambda$ por el número de actualizaciones de los pesos.
Variantes AdamWR / SGDWR que combinan weight decay desacoplada con warm restarts mediante cosine annealing (SGDR), logrando tanto convergencia más rápida como mejor exactitud final.
Ablaciones extensas en CIFAR-10 con una ResNet 26 2×96d y en ImageNet32×32, cubriendo presupuestos de entrenamiento de 100 a 1800 epochs y tres schedules de learning rate.

Métodos

En la formulación original de la weight decay debida a Hanson y Pratt (1988), los parámetros evolucionan como

$\theta_{t+1} = (1-\lambda)\,\theta_t - \alpha \nabla f_t(\theta_t),$

de modo que el decay se aplica de forma independiente del paso de gradiente del optimizador. La mayoría de las bibliotecas modernas, en cambio, lo absorben en la pérdida como $f_t^{\text{reg}}(\theta) = f_t(\theta) + \tfrac{\lambda'}{2}\|\theta\|_2^2$ y dejan que el optimizador derive; para SGD estándar esto reproduce la actualización original siempre que $\lambda' = \lambda/\alpha$ .

Para un optimizador con iteraciones $\theta_{t+1} = \theta_t - \alpha \mathbf{M}_t \nabla f_t(\theta_t)$ , los autores demuestran que, siempre que $\mathbf{M}_t \neq k\mathbf{I}$ , ninguna elección de $\lambda'$ permite que la optimización con regularización L₂ coincida con la optimización con weight decay, ya que $\mathbf{M}_t$ reescala tanto el término del regularizador como el de la pérdida. El precondicionador diagonal de Adam $\hat{v}_t^{-1/2}$ cae claramente en este régimen.

SGDW sustituye la línea 9 del bucle de SGD-con-momentum por

$\theta_t \leftarrow \theta_{t-1} - m_t - \eta_t \lambda \theta_{t-1},$

de manera que el término de decay queda fuera del buffer de momentum. AdamW sustituye la actualización de parámetros de Adam por

$\theta_t \leftarrow \theta_{t-1} - \eta_t\!\left( \alpha\,\hat{m}_t / (\sqrt{\hat{v}_t}+\epsilon) + \lambda\,\theta_{t-1} \right),$

donde $\eta_t$ es un multiplicador de schedule global (constante, drop-step o cosine annealing). Cuando $\eta_t$ sigue el schedule de cosine-with-restarts de SGDR, el optimizador resultante se denomina AdamWR (o SGDWR para su contrapartida basada en SGD); los reinicios también restablecen el estado normalizado cuando corresponde.

Para hacer comparables los hiperparámetros entre distintos presupuestos de entrenamiento, el artículo introduce una weight decay normalizada $\lambda_{\text{norm}}$ ligada al número total de actualizaciones de pesos $$ BT $$ y al batch size $$ B $$ , motivada por la observación empírica de que el $\lambda$ óptimo en bruto disminuye al aumentar el presupuesto.

Resultados

En CIFAR-10 con una ResNet 26 2×96d entrenada durante 100 epochs, AdamW alcanza aproximadamente un 5,0 % de error de test frente a alrededor de un 6,0 % del Adam original con regularización L₂ — una mejora relativa cercana al 15 %. SGDW arroja esencialmente el mismo resultado que un SGD con L₂ bien ajustado, pero su panorama de hiperparámetros es claramente más simple: los heatmaps sobre $(\alpha, \lambda)$ muestran «valles» diagonales de igual rendimiento para los optimizadores con regularización L₂ y cuencas aproximadamente alineadas con los ejes para las variantes desacopladas, lo que confirma que el desacoplamiento hace que ambos hiperparámetros sean aproximadamente separables.

En ImageNet32×32, AdamW mejora la exactitud top-1 y top-5 sobre Adam-con-L₂ en todos los presupuestos probados. Añadir cosine annealing mejora aún más tanto a Adam como a AdamW, y AdamWR con warm restarts iguala o supera a AdamW con un schedule fijo, alcanzando una exactitud competitiva en una fracción del wall-clock time en los snapshots intermedios. SGDWR exhibe el mismo patrón con respecto a SGDW.

El artículo informa además de que la weight decay óptima disminuye de forma predecible a medida que crece el presupuesto de entrenamiento: schedules más largos requieren un $\lambda$ menor, y la parametrización normalizada propuesta $\lambda_{\text{norm}}$ se transfiere razonablemente bien entre presupuestos, reduciendo el coste de la búsqueda en grid.

Un hallazgo más sutil es que la práctica habitual de ligar la weight decay al término L₂ del lado de la pérdida en Adam resulta perjudicial para parámetros con gradientes esparsos o de baja magnitud: tales parámetros quedan, en la práctica, infrarregularizados, mientras que los parámetros con gradientes históricos grandes quedan sobrerregularizados respecto al $\lambda$ que el practicante pretendía. AdamW elimina este reescalado implícito por parámetro, restaurando una contracción uniforme en toda la red y haciendo que los barridos de weight decay sean mucho más interpretables.

Los autores verifican además que las mejoras de AdamW no son un artefacto de cambiar la learning rate efectiva: la comparación se realiza con step sizes ajustadas por separado para cada variante, y AdamW domina a Adam-con-L₂ en toda la cuadrícula bidimensional $(\alpha, \lambda)$ , no solo en un único óptimo.

Impacto

AdamW se ha convertido en el optimizador estándar para una gran parte del aprendizaje profundo contemporáneo, en particular para los transformers de lenguaje y visión. Los frameworks principales incluyen implementaciones nativas (torch.optim.AdamW en PyTorch desde la versión 1.2, tf.keras.optimizers.AdamW en TensorFlow/Keras), y este optimizador es el predeterminado en pilas de entrenamiento populares como Hugging Face Transformers y timm. Los profesionales suelen ajustar AdamW con un coeficiente de weight decay pequeño (a menudo en torno a 0,01 a 0,1) y un schedule de learning rate cosine o con linear warmup, en línea con la receta AdamWR.

Más allá de la práctica de ingeniería, el artículo ha moldeado el modo en que se discute la regularización en la investigación en aprendizaje profundo: la distinción entre «weight decay verdadera» y «L₂ como penalización en la pérdida» es ahora terminología estándar, y trabajos posteriores sobre diseño de optimizadores — por ejemplo LAMB, AdaFactor y Lion — consideran explícitamente si y cómo desacoplar la contracción del escalado adaptativo. Los argumentos de normalización de hiperparámetros del artículo también influyeron en estudios posteriores sobre cómo learning rate, weight decay y batch size determinan conjuntamente la regularización implícita del entrenamiento con batch grande.

Una pregunta de seguimiento habitual es si aplicar la weight decay de forma uniforme o excluir términos de bias, escalas de layer-norm y tablas de embedding. El principio de desacoplamiento no responde por sí mismo a esta pregunta; simplemente clarifica que cualquier elección que se haga es respetada exactamente por AdamW, sin verse distorsionada por el escalado adaptativo. La mayoría de las recetas modernas de entrenamiento adoptan, sobre AdamW, la convención de «aplicar decay a todo excepto a las normalizaciones y los bias».

El artículo de 2017 fue finalmente publicado como artículo de conferencia en ICLR 2019, y las implementaciones de referencia de los autores para AdamW, SGDW, AdamWR y SGDWR siguen siendo un benchmark estándar para nuevos optimizadores adaptativos y esquemas de regularización.

Véase también

Referencias

Loshchilov, I., & Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101. Publicado en ICLR 2019.
Hanson, S. J., & Pratt, L. Y. (1988). Comparing biases for minimal network construction with back-propagation. Advances in Neural Information Processing Systems 1.
Kingma, D. P., & Ba, J. (2014). Adam: A Method for Stochastic Optimization. arXiv:1412.6980.
Loshchilov, I., & Hutter, F. (2016). SGDR: Stochastic Gradient Descent with Warm Restarts. arXiv:1608.03983.
Wilson, A. C., Roelofs, R., Stern, M., Srebro, N., & Recht, B. (2017). The Marginal Value of Adaptive Gradient Methods in Machine Learning. arXiv:1705.08292.
Reddi, S. J., Kale, S., & Kumar, S. (2018). On the Convergence of Adam and Beyond. ICLR 2018.
Código fuente: github.com/loshchil/AdamW-and-SGDW.