Translations:Gradient Descent/27/es
- Demasiado grande — las iteraciones oscilan o divergen.
- Demasiado pequeña — la convergencia es inaceptablemente lenta.
- Programaciones de la tasa de aprendizaje — muchos profesionales comienzan con una tasa mayor y la reducen con el tiempo (decaimiento por pasos, decaimiento exponencial, recocido por coseno).
- Búsqueda en línea — los métodos numéricos clásicos eligen $ \eta $ en cada paso para satisfacer condiciones como las de Wolfe o Armijo, aunque esto es poco frecuente en el aprendizaje profundo.