Translations:Stochastic Gradient Descent/27/es

    From Marovi AI
    • Mezcla de datos — Reordena aleatoriamente el conjunto de datos en cada época para evitar patrones cíclicos.
    • Recorte de gradiente — Limita la norma del gradiente para evitar actualizaciones explosivas, especialmente en redes recurrentes.
    • Normalización por lotes — Normalizar las entradas de cada capa reduce la sensibilidad a la tasa de aprendizaje.
    • Entrenamiento de precisión mixta — Usar números de punto flotante de media precisión acelera SGD en GPUs modernas con una pérdida mínima de exactitud.