Translations:Stochastic Gradient Descent/27/es
- Mezcla de datos — Reordena aleatoriamente el conjunto de datos en cada época para evitar patrones cíclicos.
- Recorte de gradiente — Limita la norma del gradiente para evitar actualizaciones explosivas, especialmente en redes recurrentes.
- Normalización por lotes — Normalizar las entradas de cada capa reduce la sensibilidad a la tasa de aprendizaje.
- Entrenamiento de precisión mixta — Usar números de punto flotante de media precisión acelera SGD en GPUs modernas con una pérdida mínima de exactitud.