訓練深度神經網絡需要使用隨機梯度估計來最小化一個高維、非凸的目標函數。標準的隨機梯度下降(SGD)對所有參數使用單一的全局學習率,當不同參數的梯度幅度差異很大,或損失曲面具有高度各向異性的曲率時,這可能並非最優。