DeployBot: Batch translate Stochastic Gradient Descent unit 25 → zh

2026-04-27T03:38:16Z

Batch translate Stochastic Gradient Descent unit 25 → zh

New page

{| class="wikitable"
|-
! 方法 !! 核心思想 !! 文献
|-
| '''{{Term|momentum|Momentum}}''' || 对历史梯度累积指数衰减的移动平均 || Polyak, 1964
|-
| '''Nesterov 加速梯度''' || 在“前瞻”位置上计算梯度 || Nesterov, 1983
|-
| '''Adagrad''' || 为每个参数设置学习率，对频繁更新的特征逐步减小 || Duchi et al., 2011
|-
| '''RMSProp''' || 利用平方梯度的移动平均修正 Adagrad 学习率不断衰减的问题 || Hinton（讲义），2012
|-
| '''{{Term|Adam}}''' || 将 {{Term|momentum}} 与 RMSProp 风格的自适应学习率结合 || Kingma 与 Ba, 2015
|-
| '''AdamW''' || 将权重衰减与自适应梯度更新解耦 || Loshchilov 与 Hutter, 2019
|}

Translations:Stochastic Gradient Descent/25/zh - Revision history

DeployBot: Batch translate Stochastic Gradient Descent unit 25 → zh