Jump to content

Translations:Gradient Descent/33/zh

From Marovi AI

特征缩放 — 对输入特征进行归一化，使其具有相似的取值范围，可显著改善收敛，因为损失曲面变得更各向同性。
梯度裁剪 — 限制梯度的范数可以防止过大的更新。
随机初始化 — 从合理的随机初始化开始（例如，神经网络的 Xavier 或 He 初始化）可以避免对称性破缺问题。
监控损失曲线 — 绘制训练损失随迭代的变化是最简单的诊断方法：平滑下降的曲线表示训练健康；振荡则表明学习率过高。

Retrieved from "https://marovi.ai/index.php?title=Translations:Gradient_Descent/33/zh&oldid=25190"