Translations:Stochastic Gradient Descent/25/zh

    From Marovi AI
    方法 核心思想 文獻
    Momentum 對歷史梯度累積指數衰減的移動平均 Polyak, 1964
    Nesterov 加速梯度 在「前瞻」位置上計算梯度 Nesterov, 1983
    Adagrad 為每個參數設置學習率,對頻繁更新的特徵逐步減小 Duchi et al., 2011
    RMSProp 利用平方梯度的移動平均修正 Adagrad 學習率不斷衰減的問題 Hinton(講義),2012
    Adam momentum 與 RMSProp 風格的自適應學習率結合 Kingma 與 Ba, 2015
    AdamW 將權重衰減與自適應梯度更新解耦 Loshchilov 與 Hutter, 2019