Translations:Stochastic Gradient Descent/25/zh
| 方法 | 核心思想 | 文獻 |
|---|---|---|
| Momentum | 對歷史梯度累積指數衰減的移動平均 | Polyak, 1964 |
| Nesterov 加速梯度 | 在「前瞻」位置上計算梯度 | Nesterov, 1983 |
| Adagrad | 為每個參數設置學習率,對頻繁更新的特徵逐步減小 | Duchi et al., 2011 |
| RMSProp | 利用平方梯度的移動平均修正 Adagrad 學習率不斷衰減的問題 | Hinton(講義),2012 |
| Adam | 將 momentum 與 RMSProp 風格的自適應學習率結合 | Kingma 與 Ba, 2015 |
| AdamW | 將權重衰減與自適應梯度更新解耦 | Loshchilov 與 Hutter, 2019 |