像 adagrad 這樣的早期自適應方法在整個訓練過程中累積平方梯度,導致學習率單調衰減至零 —— 這對非凸問題來說是一個隱患。rmsprop 通過使用指數移動平均解決了這一問題,但缺乏偏差校正。Adam 將這些思想統一起來,對梯度的一階矩(均值)和二階矩(未中心化的方差)均給出偏差校正後的估計,提供了一個有效且計算高效的優化器,並具有表現良好的默認超參數。