Translations:Adam A Method for Stochastic Optimization/19/zh

一阶矩估计提供类似动量的行为,沿着一致的梯度方向加速收敛。二阶矩估计将学习率与最近梯度平方的均值的平方根成反比缩放,使每个参数都拥有自己的有效学习率。这种组合意味着梯度持续较大的参数获得较小的更新,而梯度较小或梯度噪声较大的参数获得相对较大的更新。