Translations:Stochastic Gradient Descent/27/es

Mezcla de datos — Reordena aleatoriamente el conjunto de datos en cada época para evitar patrones cíclicos.
Recorte de gradiente — Limita la norma del gradiente para evitar actualizaciones explosivas, especialmente en redes recurrentes.
Normalización por lotes — Normalizar las entradas de cada capa reduce la sensibilidad a la tasa de aprendizaje.
Entrenamiento de precisión mixta — Usar números de punto flotante de media precisión acelera SGD en GPUs modernas con una pérdida mínima de exactitud.