Translations:Gradient Descent/27/es

    From Marovi AI
    • Demasiado grande — las iteraciones oscilan o divergen.
    • Demasiado pequeña — la convergencia es inaceptablemente lenta.
    • Programaciones de la tasa de aprendizaje — muchos profesionales comienzan con una tasa mayor y la reducen con el tiempo (decaimiento por pasos, decaimiento exponencial, recocido por coseno).
    • Búsqueda en línea — los métodos numéricos clásicos eligen $ \eta $ en cada paso para satisfacer condiciones como las de Wolfe o Armijo, aunque esto es poco frecuente en el aprendizaje profundo.