| Método |
Idea principal |
Referencia
|
| Momentum |
Acumula un promedio móvil con decaimiento exponencial de los gradientes pasados |
Polyak, 1964
|
| Gradiente acelerado de Nesterov |
Evalúa el gradiente en una posición de "anticipación" |
Nesterov, 1983
|
| Adagrad |
Tasas por parámetro que disminuyen para características que se actualizan con frecuencia |
Duchi et al., 2011
|
| RMSProp |
Corrige las tasas decrecientes de Adagrad usando un promedio móvil de gradientes al cuadrado |
Hinton (notas de clase), 2012
|
| Adam |
Combina momentum con tasas adaptativas al estilo de RMSProp |
Kingma y Ba, 2015
|
| AdamW |
Desacopla la regularización por decaimiento de pesos del paso de gradiente adaptativo |
Loshchilov y Hutter, 2019
|