Translations:Stochastic Gradient Descent/25/es

Método	Idea principal	Referencia
Momentum	Acumula un promedio móvil con decaimiento exponencial de los gradientes pasados	Polyak, 1964
Gradiente acelerado de Nesterov	Evalúa el gradiente en una posición de "anticipación"	Nesterov, 1983
Adagrad	Tasas por parámetro que disminuyen para características que se actualizan con frecuencia	Duchi et al., 2011
RMSProp	Corrige las tasas decrecientes de Adagrad usando un promedio móvil de gradientes al cuadrado	Hinton (notas de clase), 2012
Adam	Combina momentum con tasas adaptativas al estilo de RMSProp	Kingma y Ba, 2015
AdamW	Desacopla la regularización por decaimiento de pesos del paso de gradiente adaptativo	Loshchilov y Hutter, 2019