Translations:Gradient Descent/31/es

momento — acumula un vector de velocidad a partir de los gradientes anteriores, ayudando a acelerar la convergencia en paisajes con forma de barranco.
Gradiente acelerado de Nesterov — una variante con momento que evalúa el gradiente en una posición anticipada, obteniendo mejores tasas teóricas de convergencia.
Métodos adaptativos (adagrad, RMSProp, adam) — mantienen tasas de aprendizaje por parámetro que se adaptan según el historial de los gradientes.
Métodos de segundo orden — algoritmos como el método de Newton y L-BFGS utilizan información de curvatura (la Hessiana o su aproximación) para una convergencia más rápida, pero a menudo son demasiado costosos para problemas a gran escala.