All translations

Enter a message name below to show all available translations.

Found 3 translations.

Name	Current message text
^h English (en)	* '''Feature scaling''' — normalising input features so they have similar {{Term\|column space\|ranges}} dramatically improves {{Term\|convergence}}, because the {{Term\|loss landscape\|loss surface}} becomes more isotropic. * '''{{Term\|gradient clipping}}''' — capping the norm of the gradient prevents excessively large updates. * '''Random initialisation''' — starting from a reasonable random initialisation (e.g. Xavier or {{Term\|he initialization\|He initialisation}} for neural networks) avoids symmetry-breaking issues. * '''Monitoring the loss curve''' — plotting the training loss over {{Term\|iteration\|iterations}} is the simplest diagnostic: a smoothly decreasing curve indicates healthy training; oscillations suggest the {{Term\|learning rate}} is too high.
^h Spanish (es)	* '''Escalado de características''' — normalizar las características de entrada para que tengan {{Term\|column space\|rangos}} similares mejora drásticamente la {{Term\|convergence\|convergencia}}, ya que la {{Term\|loss landscape\|superficie de pérdida}} se vuelve más isotrópica. * '''{{Term\|gradient clipping\|Recorte de gradiente}}''' — limitar la norma del gradiente evita actualizaciones excesivamente grandes. * '''Inicialización aleatoria''' — partir de una inicialización aleatoria razonable (por ejemplo, Xavier o {{Term\|he initialization\|inicialización de He}} para redes neuronales) evita problemas de ruptura de simetría. * '''Monitorización de la curva de pérdida''' — graficar la pérdida de entrenamiento a lo largo de las {{Term\|iteration\|iteraciones}} es el diagnóstico más simple: una curva que decrece suavemente indica un entrenamiento saludable; las oscilaciones sugieren que la {{Term\|learning rate\|tasa de aprendizaje}} es demasiado alta.
^h Chinese (zh)	* '''特征缩放''' — 对输入特征进行归一化，使其具有相似的{{Term\|column space\|取值范围}}，可显著改善{{Term\|convergence\|收敛}}，因为{{Term\|loss landscape\|损失曲面}}变得更各向同性。 * '''{{Term\|gradient clipping\|梯度裁剪}}''' — 限制梯度的范数可以防止过大的更新。 * '''随机初始化''' — 从合理的随机初始化开始（例如，神经网络的 Xavier 或 {{Term\|he initialization\|He 初始化}}）可以避免对称性破缺问题。 * '''监控损失曲线''' — 绘制训练损失随{{Term\|iteration\|迭代}}的变化是最简单的诊断方法：平滑下降的曲线表示训练健康；振荡则表明{{Term\|learning rate\|学习率}}过高。