All translations

Enter a message name below to show all available translations.

Found 3 translations.

Name	Current message text
^h English (en)	* '''Data shuffling''' — Re-shuffle the dataset each {{Term\|epoch}} to avoid cyclic patterns. * '''{{Term\|gradient clipping\|Gradient clipping}}''' — Cap the gradient norm to prevent exploding updates, especially in recurrent networks. * '''{{Term\|batch normalization\|Batch normalisation}}''' — Normalising layer inputs reduces sensitivity to the {{Term\|learning rate}}. * '''Mixed-precision training''' — Using half-precision floats accelerates SGD on modern GPUs with minimal accuracy loss.
^h Spanish (es)	* '''Mezcla de datos''' — Reordena aleatoriamente el conjunto de datos en cada época para evitar patrones cíclicos. * '''{{Term\|gradient clipping\|Recorte de gradiente}}''' — Limita la norma del gradiente para evitar actualizaciones explosivas, especialmente en redes recurrentes. * '''{{Term\|batch normalization\|Normalización por lotes}}''' — Normalizar las entradas de cada capa reduce la sensibilidad a la {{Term\|learning rate\|tasa de aprendizaje}}. * '''Entrenamiento de precisión mixta''' — Usar números de punto flotante de media precisión acelera SGD en GPUs modernas con una pérdida mínima de exactitud.
^h Chinese (zh)	* '''数据洗牌''' —— 在每个 epoch 重新打乱数据集，避免出现循环模式。 * '''{{Term\|gradient clipping\|梯度裁剪}}''' —— 对梯度范数进行截断，以防止更新爆炸，尤其是在循环神经网络中。 * '''{{Term\|batch normalization\|批归一化}}''' —— 对层输入进行归一化可降低对{{Term\|learning rate\|学习率}}的敏感度。 * '''混合精度训练''' —— 使用半精度浮点数能在现代 GPU 上加速 SGD，同时几乎不损失精度。