Jump to content

Translations:Gradient Descent/33/zh

From Marovi AI

特征缩放 —— 将输入特征归一化使其具有相似的范围可以大幅改善收敛，因为损失曲面变得更加各向同性。
梯度裁剪 —— 限制梯度的范数可防止过大的更新。
随机初始化 —— 从合理的随机初始化开始（例如，神经网络的 Xavier 或 He 初始化）可避免对称性破坏问题。
监控损失曲线 —— 绘制训练损失随迭代次数的变化是最简单的诊断方法：平滑递减的曲线表明训练健康；振荡则表明学习率过高。

Retrieved from "https://marovi.ai/index.php?title=Translations:Gradient_Descent/33/zh&oldid=17841"