Translations:Gradient Descent/31/zh

    From Marovi AI
    • 動量 — 從過去的梯度中累積一個速度向量,有助於在峽谷狀的地形中加速收斂
    • Nesterov 加速梯度 — 一種動量變體,在前瞻位置計算梯度,從而獲得更好的理論收斂速率。
    • 自適應方法adagradrmspropadam) — 維護按參數自適應的學習率,根據梯度歷史進行調整。
    • 二階方法牛頓法和 L-bfgs 等算法利用曲率信息(Hessian 矩陣或其近似)來加快收斂,但對大規模問題往往代價過高。