Translations:Adam A Method for Stochastic Optimization/7/zh

    From Marovi AI
    • Adam 優化器:一種自適應學習率方法,基於梯度一階矩和二階矩的偏差校正估計為每個參數維護學習率
    • 偏差校正:一種用於抵消矩估計在初始化時趨向零的偏差的機制,這在訓練的初始步驟中尤為重要。
    • AdaMax 變體:一種基於無窮範數的推廣,在稀疏梯度問題上有時可優於 Adam。
    • 實用默認值:推薦的超參數值($ \beta_1 = 0.9 $$ \beta_2 = 0.999 $$ \epsilon = 10^{-8} $),在廣泛範圍的問題上效果良好。