Translations:Gradient Descent/33/es
- Escalado de características — normalizar las características de entrada para que tengan rangos similares mejora drásticamente la convergencia, porque la superficie de pérdida se vuelve más isotrópica.
- recorte de gradiente — limitar la norma del gradiente evita actualizaciones excesivamente grandes.
- Inicialización aleatoria — partir de una inicialización aleatoria razonable (p. ej. inicialización de Xavier o He para redes neuronales) evita problemas de ruptura de simetría.
- Monitorización de la curva de pérdida — graficar la pérdida de entrenamiento a lo largo de las iteraciones es el diagnóstico más simple: una curva que disminuye suavemente indica un entrenamiento saludable; las oscilaciones sugieren que la tasa de aprendizaje es demasiado alta.