Translations:Stochastic Gradient Descent/25/es
| Método | Idea principal | Referencia |
|---|---|---|
| Momentum | Acumula un promedio móvil con decaimiento exponencial de los gradientes pasados | Polyak, 1964 |
| Gradiente acelerado de Nesterov | Evalúa el gradiente en una posición de "anticipación" | Nesterov, 1983 |
| Adagrad | Tasas por parámetro que disminuyen para características que se actualizan con frecuencia | Duchi et al., 2011 |
| RMSProp | Corrige las tasas decrecientes de Adagrad usando un promedio móvil de gradientes al cuadrado | Hinton (notas de clase), 2012 |
| Adam | Combina momentum con tasas adaptativas al estilo de RMSProp | Kingma y Ba, 2015 |
| AdamW | Desacopla la regularización por decaimiento de pesos del paso de gradiente adaptativo | Loshchilov y Hutter, 2019 |