Translations:Stochastic Gradient Descent/25/zh

方法	核心思想	文獻
Momentum	對歷史梯度累積指數衰減的移動平均	Polyak, 1964
Nesterov 加速梯度	在「前瞻」位置上計算梯度	Nesterov, 1983
Adagrad	為每個參數設置學習率，對頻繁更新的特徵逐步減小	Duchi et al., 2011
RMSProp	利用平方梯度的移動平均修正 Adagrad 學習率不斷衰減的問題	Hinton（講義），2012
Adam	將 momentum 與 RMSProp 風格的自適應學習率結合	Kingma 與 Ba, 2015
AdamW	將權重衰減與自適應梯度更新解耦	Loshchilov 與 Hutter, 2019