Translations:Gradient Descent/31/zh

    From Marovi AI
    • 动量 —— 从过去的梯度累积一个速度向量,有助于在峡谷状地形中加速收敛
    • Nesterov 加速梯度 —— 一种在前瞻位置评估梯度的动量变体,能获得更好的理论收敛速率。
    • 自适应方法adagrad、RMSProp、adam)—— 维护每个参数的学习率,根据梯度的历史进行自适应。
    • 二阶方法 —— 牛顿法和 L-BFGS 等算法利用曲率信息(Hessian 矩阵或其近似)实现更快的收敛,但对于大规模问题通常过于昂贵。