All translations

Enter a message name below to show all available translations.

Message

Found 3 translations.

NameCurrent message text
 h English (en)* '''Feature scaling''' — normalising input features so they have similar {{Term|column space|ranges}} dramatically improves {{Term|convergence}}, because the {{Term|loss landscape|loss surface}} becomes more isotropic.
* '''{{Term|gradient clipping}}''' — capping the norm of the gradient prevents excessively large updates.
* '''Random initialisation''' — starting from a reasonable random initialisation (e.g. Xavier or {{Term|he initialization|He initialisation}} for neural networks) avoids symmetry-breaking issues.
* '''Monitoring the loss curve''' — plotting the training loss over {{Term|iteration|iterations}} is the simplest diagnostic: a smoothly decreasing curve indicates healthy training; oscillations suggest the {{Term|learning rate}} is too high.
 h Spanish (es)* '''Escalado de características''' — normalizar las características de entrada para que tengan {{Term|column space|rangos}} similares mejora drásticamente la {{Term|convergence|convergencia}}, ya que la {{Term|loss landscape|superficie de pérdida}} se vuelve más isotrópica.
* '''{{Term|gradient clipping|Recorte de gradiente}}''' — limitar la norma del gradiente evita actualizaciones excesivamente grandes.
* '''Inicialización aleatoria''' — partir de una inicialización aleatoria razonable (por ejemplo, Xavier o {{Term|he initialization|inicialización de He}} para redes neuronales) evita problemas de ruptura de simetría.
* '''Monitorización de la curva de pérdida''' — graficar la pérdida de entrenamiento a lo largo de las {{Term|iteration|iteraciones}} es el diagnóstico más simple: una curva que decrece suavemente indica un entrenamiento saludable; las oscilaciones sugieren que la {{Term|learning rate|tasa de aprendizaje}} es demasiado alta.
 h Chinese (zh)* '''特征缩放''' — 对输入特征进行归一化,使其具有相似的{{Term|column space|取值范围}},可显著改善{{Term|convergence|收敛}},因为{{Term|loss landscape|损失曲面}}变得更各向同性。
* '''{{Term|gradient clipping|梯度裁剪}}''' — 限制梯度的范数可以防止过大的更新。
* '''随机初始化''' — 从合理的随机初始化开始(例如,神经网络的 Xavier 或 {{Term|he initialization|He 初始化}})可以避免对称性破缺问题。
* '''监控损失曲线''' — 绘制训练损失随{{Term|iteration|迭代}}的变化是最简单的诊断方法:平滑下降的曲线表示训练健康;振荡则表明{{Term|learning rate|学习率}}过高。