Translations:Stochastic Gradient Descent/25/zh

方法	核心思想	文献
Momentum	对历史梯度累积指数衰减的移动平均	Polyak, 1964
Nesterov 加速梯度	在“前瞻”位置上计算梯度	Nesterov, 1983
Adagrad	为每个参数设置学习率，对频繁更新的特征逐步减小	Duchi et al., 2011
RMSProp	利用平方梯度的移动平均修正 Adagrad 学习率不断衰减的问题	Hinton（讲义），2012
Adam	将 momentum 与 RMSProp 风格的自适应学习率结合	Kingma 与 Ba, 2015
AdamW	将权重衰减与自适应梯度更新解耦	Loshchilov 与 Hutter, 2019