Jump to content

Translations:Gradient Descent/33/zh

From Marovi AI

特徵縮放 — 對輸入特徵進行歸一化，使其具有相似的取值範圍，可顯著改善收斂，因為損失曲面變得更各向同性。
梯度裁剪 — 限制梯度的範數可以防止過大的更新。
隨機初始化 — 從合理的隨機初始化開始（例如，神經網絡的 Xavier 或 He 初始化）可以避免對稱性破缺問題。
監控損失曲線 — 繪製訓練損失隨迭代的變化是最簡單的診斷方法：平滑下降的曲線表示訓練健康；振盪則表明學習率過高。

Retrieved from "https://marovi.ai/index.php?title=Translations:Gradient_Descent/33/zh&oldid=25190"