Translations:Gradient Descent/31/zh

    From Marovi AI
    • 动量 — 从过去的梯度中累积一个速度向量,有助于在峡谷状的地形中加速收敛
    • Nesterov 加速梯度 — 一种动量变体,在前瞻位置计算梯度,从而获得更好的理论收敛速率。
    • 自适应方法adagradrmspropadam) — 维护按参数自适应的学习率,根据梯度历史进行调整。
    • 二阶方法牛顿法和 L-bfgs 等算法利用曲率信息(Hessian 矩阵或其近似)来加快收敛,但对大规模问题往往代价过高。