Translations:Gradient Descent/27/es

Demasiado grande — las iteraciones oscilan o divergen.
Demasiado pequeña — la convergencia es inaceptablemente lenta.
Programaciones de la tasa de aprendizaje — muchos profesionales comienzan con una tasa mayor y la reducen con el tiempo (decaimiento por pasos, decaimiento exponencial, recocido por coseno).
Búsqueda en línea — los métodos numéricos clásicos eligen $\eta$ en cada paso para satisfacer condiciones como las de Wolfe o Armijo, aunque esto es poco frecuente en el aprendizaje profundo.