Translations:Adam A Method for Stochastic Optimization/7/zh
- Adam 優化器:一種自適應學習率方法,基於梯度一階矩和二階矩的偏差校正估計為每個參數維護學習率。
- 偏差校正:一種用於抵消矩估計在初始化時趨向零的偏差的機制,這在訓練的初始步驟中尤為重要。
- AdaMax 變體:一種基於無窮範數的推廣,在稀疏梯度問題上有時可優於 Adam。
- 實用默認值:推薦的超參數值($ \beta_1 = 0.9 $、$ \beta_2 = 0.999 $、$ \epsilon = 10^{-8} $),在廣泛範圍的問題上效果良好。