DeployBot: Batch translate Adam A Method for Stochastic Optimization unit 9 → es

2026-04-27T03:45:25Z

Batch translate Adam A Method for Stochastic Optimization unit 9 → es

New page

<languages />

{{PaperInfobox
| topic_area = Optimization
| difficulty = Research
| authors = Diederik P. Kingma; Jimmy Lei Ba
| year = 2015
| venue = ICLR
| arxiv_id = 1412.6980
| source_url = https://arxiv.org/abs/1412.6980
| pdf_url = https://arxiv.org/pdf/1412.6980
}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''Adam: A Method for Stochastic Optimization''' es un artículo de 2015 de Kingma y Ba que introdujo el optimizador '''Adam''', un algoritmo para la optimización basada en gradientes de primer orden de funciones objetivo estocásticas. Adam combina las ventajas de dos métodos anteriores — '''AdaGrad''' (que adapta las tasas de aprendizaje por parámetro) y '''RMSProp''' (que utiliza un promedio móvil de los gradientes al cuadrado) — en un único algoritmo con estimaciones de momentos corregidas por sesgo. Adam se ha convertido en el optimizador predeterminado para entrenar redes neuronales en la mayoría de los dominios.

== Resumen ==

Entrenar redes neuronales profundas requiere minimizar una función objetivo de alta dimensión y no convexa utilizando estimaciones estocásticas del gradiente. El descenso de gradiente estocástico estándar (SGD) utiliza una única tasa de aprendizaje global para todos los parámetros, lo cual puede ser subóptimo cuando diferentes parámetros tienen gradientes de magnitudes muy distintas o cuando la superficie de pérdida presenta una curvatura altamente anisotrópica.

Los métodos adaptativos previos, como AdaGrad, acumulaban gradientes al cuadrado a lo largo de toda la ejecución del entrenamiento, lo que provocaba que las tasas de aprendizaje decayeran monótonamente hasta cero, algo problemático para problemas no convexos. RMSProp abordó esto utilizando un promedio móvil exponencial, pero carecía de corrección de sesgo. Adam unificó estas ideas mediante estimaciones corregidas por sesgo tanto del primer momento (media) como del segundo momento (varianza no centrada) de los gradientes, proporcionando un optimizador eficaz y computacionalmente eficiente con hiperparámetros predeterminados de buen comportamiento.

== Contribuciones clave ==

* '''Optimizador Adam''': Un método de tasa de aprendizaje adaptativa que mantiene tasas de aprendizaje por parámetro basadas en estimaciones corregidas por sesgo del primer y segundo momento de los gradientes.
* '''Corrección de sesgo''': Un mecanismo para contrarrestar el sesgo de inicialización de las estimaciones de momento hacia cero, lo cual es especialmente importante en los pasos iniciales del entrenamiento.
* '''Variante AdaMax''': Una generalización basada en la norma infinito que en ocasiones puede superar a Adam en problemas con gradientes dispersos.
* '''Valores predeterminados prácticos''': Valores recomendados de hiperparámetros (<math>\beta_1 = 0.9</math>, <math>\beta_2 = 0.999</math>, <math>\epsilon = 10^{-8}</math>) que funcionan bien en una amplia variedad de problemas.

== Métodos ==

Adam mantiene dos promedios móviles exponenciales: <math>m_t</math> para el primer momento (media de los gradientes) y <math>v_t</math> para el segundo momento (media de los gradientes al cuadrado):

<math>m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t</math>

<math>v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2</math>

donde <math>g_t = \nabla_\theta f_t(\theta_{t-1})</math> es el gradiente en el paso <math>t</math>, y <math>\beta_1, \beta_2 \in [0, 1)</math> controlan las tasas de decaimiento exponencial.

Dado que <math>m_t</math> y <math>v_t</math> se inicializan como vectores cero, están sesgados hacia cero durante los pasos iniciales. Adam corrige esto con '''estimaciones corregidas por sesgo''':

<math>\hat{m}_t = \frac{m_t}{1 - \beta_1^t}</math>

<math>\hat{v}_t = \frac{v_t}{1 - \beta_2^t}</math>

La regla de actualización de los parámetros es entonces:

<math>\theta_t = \theta_{t-1} - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}</math>

donde <math>\alpha</math> es el tamaño del paso (tasa de aprendizaje) y <math>\epsilon</math> es una pequeña constante para la estabilidad numérica.

La estimación del primer momento proporciona un comportamiento similar al momentum, acelerando la convergencia a lo largo de direcciones de gradiente consistentes. La estimación del segundo momento escala la tasa de aprendizaje de forma inversa a la raíz cuadrática media de los gradientes recientes, otorgando a cada parámetro su propia tasa de aprendizaje efectiva. La combinación implica que los parámetros con gradientes consistentemente grandes reciben actualizaciones más pequeñas, mientras que los parámetros con gradientes pequeños o ruidosos reciben actualizaciones relativamente mayores.

El artículo también introduce '''AdaMax''', que reemplaza la norma <math>L^2</math> utilizada en el segundo momento de Adam por la norma <math>L^\infty</math>, dando lugar a una regla de actualización más simple que evita la corrección de sesgo para el segundo momento.

== Resultados ==

El artículo evaluó Adam en varios puntos de referencia:

* '''Regresión logística''' en MNIST: Adam convergió más rápido que SGD con momentum, AdaGrad y RMSProp.
* '''Redes neuronales multicapa''' en MNIST: Adam alcanzó el menor costo de entrenamiento, con una velocidad de convergencia comparable o superior a la de los métodos competidores.
* '''Redes neuronales convolucionales''' en CIFAR-10: Adam tuvo un desempeño comparable al de SGD con momentum y programaciones de tasa de aprendizaje cuidadosamente ajustados.
* '''Autoencoders variacionales''' (VAEs): Adam se utilizó con éxito para optimizar la cota inferior variacional, demostrando su aplicabilidad a los modelos generativos.

El artículo proporcionó un análisis de convergencia que demuestra que Adam alcanza una cota de arrepentimiento de <math>O(\sqrt{T})</math> en el marco de la optimización convexa en línea, igualando las mejores cotas conocidas para los métodos adaptativos.

== Impacto ==

Adam se convirtió en el optimizador más utilizado en el aprendizaje profundo, siendo elegido como predeterminado en la mayoría de los artículos de investigación y sistemas en producción desde finales de la década de 2010 hasta la década de 2020. Su robustez frente a las elecciones de hiperparámetros y su eficacia en diversas arquitecturas lo convirtieron en el algoritmo de referencia para los profesionales.

Trabajos posteriores identificaron limitaciones, incluyendo problemas de convergencia en ciertos escenarios (abordados por AMSGrad), posibles brechas de generalización en comparación con SGD bien ajustado (particularmente para clasificación de imágenes) y sensibilidad a la elección de <math>\epsilon</math>. Variantes como AdamW (que desacopla el decaimiento de pesos de la tasa de aprendizaje adaptativa) se volvieron preferidas para entrenar grandes modelos Transformer. A pesar de estos refinamientos, Adam y sus variantes siguen siendo la columna vertebral de la optimización moderna de redes neuronales.

== Véase también ==

* [[Batch Normalization Accelerating Deep Network Training]]
* [[Deep Residual Learning for Image Recognition]]
* [[Dropout A Simple Way to Prevent Overfitting]]

== Referencias ==

* Kingma, D. P. & Ba, J. (2015). Adam: A Method for Stochastic Optimization. ''Proceedings of ICLR 2015''. [https://arxiv.org/abs/1412.6980 arXiv:1412.6980]
* Duchi, J., Hazan, E., & Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. ''JMLR 12''.
* Loshchilov, I. & Hutter, F. (2019). Decoupled Weight Decay Regularization. ''ICLR 2019''. arXiv:1711.05101.

[[Category:Optimization]] [[Category:Research]] [[Category:Research Papers]]

Adam A Method for Stochastic Optimization/es - Revision history

DeployBot: Batch translate Adam A Method for Stochastic Optimization unit 9 → es