All translations
Enter a message name below to show all available translations.
Found 3 translations.
| Name | Current message text |
|---|---|
| h English (en) | * '''Feature scaling''' — normalising input features so they have similar {{Term|column space|ranges}} dramatically improves {{Term|convergence}}, because the {{Term|loss landscape|loss surface}} becomes more isotropic. * '''{{Term|gradient clipping}}''' — capping the norm of the gradient prevents excessively large updates. * '''Random initialisation''' — starting from a reasonable random initialisation (e.g. Xavier or {{Term|he initialization|He initialisation}} for neural networks) avoids symmetry-breaking issues. * '''Monitoring the loss curve''' — plotting the training loss over {{Term|iteration|iterations}} is the simplest diagnostic: a smoothly decreasing curve indicates healthy training; oscillations suggest the {{Term|learning rate}} is too high. |
| h Spanish (es) | * '''Escalado de características''' — normalizar las características de entrada para que tengan {{Term|column space|rangos}} similares mejora drásticamente la {{Term|convergence|convergencia}}, ya que la {{Term|loss landscape|superficie de pérdida}} se vuelve más isotrópica. * '''{{Term|gradient clipping|Recorte de gradiente}}''' — limitar la norma del gradiente evita actualizaciones excesivamente grandes. * '''Inicialización aleatoria''' — partir de una inicialización aleatoria razonable (por ejemplo, Xavier o {{Term|he initialization|inicialización de He}} para redes neuronales) evita problemas de ruptura de simetría. * '''Monitorización de la curva de pérdida''' — graficar la pérdida de entrenamiento a lo largo de las {{Term|iteration|iteraciones}} es el diagnóstico más simple: una curva que decrece suavemente indica un entrenamiento saludable; las oscilaciones sugieren que la {{Term|learning rate|tasa de aprendizaje}} es demasiado alta. |
| h Chinese (zh) | * '''特征缩放''' — 对输入特征进行归一化,使其具有相似的{{Term|column space|取值范围}},可显著改善{{Term|convergence|收敛}},因为{{Term|loss landscape|损失曲面}}变得更各向同性。 * '''{{Term|gradient clipping|梯度裁剪}}''' — 限制梯度的范数可以防止过大的更新。 * '''随机初始化''' — 从合理的随机初始化开始(例如,神经网络的 Xavier 或 {{Term|he initialization|He 初始化}})可以避免对称性破缺问题。 * '''监控损失曲线''' — 绘制训练损失随{{Term|iteration|迭代}}的变化是最简单的诊断方法:平滑下降的曲线表示训练健康;振荡则表明{{Term|learning rate|学习率}}过高。 |