一階矩估計提供類似動量的行為,沿著一致的梯度方向加速收斂。二階矩估計將學習率與最近梯度平方的均值的平方根成反比縮放,使每個參數都擁有自己的有效學習率。這種組合意味著梯度持續較大的參數獲得較小的更新,而梯度較小或梯度噪聲較大的參數獲得相對較大的更新。