DeployBot: Batch translate Adam A Method for Stochastic Optimization unit 24 → zh

2026-04-27T03:44:43Z

Batch translate Adam A Method for Stochastic Optimization unit 24 → zh

New page

<languages />

{{PaperInfobox
| topic_area = Optimization
| difficulty = Research
| authors = Diederik P. Kingma; Jimmy Lei Ba
| year = 2015
| venue = ICLR
| arxiv_id = 1412.6980
| source_url = https://arxiv.org/abs/1412.6980
| pdf_url = https://arxiv.org/pdf/1412.6980
}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''Adam: A Method for Stochastic Optimization''' 是 Kingma 和 Ba 于 2015 年发表的论文，提出了 '''Adam''' 优化器，这是一种针对随机目标函数的一阶基于梯度的优化算法。Adam 将两种早期方法的优势——'''AdaGrad'''（按参数自适应调整学习率）和 '''RMSProp'''（使用平方梯度的滑动平均）——结合到一个具有偏差校正矩估计的单一算法中。Adam 已成为大多数领域中训练神经网络的默认优化器。

== 概述 ==

训练深度神经网络需要使用随机梯度估计来最小化一个高维、非凸的目标函数。标准的随机梯度下降（SGD）对所有参数使用单一的全局学习率，当不同参数的梯度量级差异很大，或损失曲面具有高度各向异性的曲率时，这种方式可能并非最优。

先前的自适应方法（如 AdaGrad）在整个训练过程中累积平方梯度，导致学习率单调衰减至零——这对于非凸问题是有问题的。RMSProp 通过使用指数滑动平均解决了这一问题，但缺乏偏差校正。Adam 通过对梯度的一阶矩（均值）和二阶矩（非中心方差）进行偏差校正估计，将这些思想统一起来，提供了一个有效且计算高效的优化器，并具有表现良好的默认超参数。

== 主要贡献 ==

* '''Adam 优化器'''：一种自适应学习率方法，基于梯度一阶矩和二阶矩的偏差校正估计，为每个参数维护各自的学习率。
* '''偏差校正'''：一种用于抵消矩估计向零初始化偏差的机制，这在训练的初始步骤中尤为重要。
* '''AdaMax 变体'''：基于无穷范数的推广，在某些具有稀疏梯度的问题上有时能优于 Adam。
* '''实用默认值'''：推荐的超参数取值（<math>\beta_1 = 0.9</math>、<math>\beta_2 = 0.999</math>、<math>\epsilon = 10^{-8}</math>），在广泛的问题上表现良好。

== 方法 ==

Adam 维护两个指数滑动平均：<math>m_t</math> 表示一阶矩（梯度的均值），<math>v_t</math> 表示二阶矩（平方梯度的均值）：

<math>m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t</math>

<math>v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2</math>

其中 <math>g_t = \nabla_\theta f_t(\theta_{t-1})</math> 是第 <math>t</math> 步的梯度，<math>\beta_1, \beta_2 \in [0, 1)</math> 控制指数衰减率。

由于 <math>m_t</math> 和 <math>v_t</math> 被初始化为零向量，它们在初始步骤中会偏向零。Adam 通过 '''偏差校正估计''' 来纠正这一点：

<math>\hat{m}_t = \frac{m_t}{1 - \beta_1^t}</math>

<math>\hat{v}_t = \frac{v_t}{1 - \beta_2^t}</math>

参数更新规则随之为：

<math>\theta_t = \theta_{t-1} - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}</math>

其中 <math>\alpha</math> 是步长（学习率），<math>\epsilon</math> 是用于数值稳定性的小常数。

一阶矩估计提供了类似动量的行为，沿着一致的梯度方向加速收敛。二阶矩估计将学习率与近期梯度的均方根成反比缩放，使每个参数拥有各自的有效学习率。这种组合意味着梯度始终较大的参数获得较小的更新，而梯度较小或噪声较大的参数获得相对较大的更新。

论文还引入了 '''AdaMax'''，它将 Adam 中二阶矩使用的 <math>L^2</math> 范数替换为 <math>L^\infty</math> 范数，得到一种更简单的更新规则，避免了对二阶矩的偏差校正。

== 结果 ==

论文在多个基准测试上对 Adam 进行了评估：

* '''逻辑回归'''（MNIST 上）：Adam 的收敛速度快于带动量的 SGD、AdaGrad 和 RMSProp。
* '''多层神经网络'''（MNIST 上）：Adam 取得了最低的训练代价，其收敛速度与竞争方法相当或更优。
* '''卷积神经网络'''（CIFAR-10 上）：Adam 的表现与经过精细调优动量和学习率调度的 SGD 相当。
* '''变分自编码器'''（VAEs）：Adam 被成功用于优化变分下界，证明了其在生成模型中的适用性。

论文提供了收敛性分析，表明 Adam 在在线凸优化框架下可达到 <math>O(\sqrt{T})</math> 的遗憾界，与自适应方法已知的最佳界相匹配。

== 影响 ==

Adam 成为深度学习中使用最广泛的优化器，从 2010 年代后期一直延续到 2020 年代，被大多数研究论文和生产系统选作默认优化器。它对超参数选择的鲁棒性以及在各种架构下的有效性，使其成为从业者的首选算法。

后续工作指出了一些局限性，包括在某些情形下的收敛问题（由 AMSGrad 解决）、相较于精心调优的 SGD 可能存在的泛化差距（尤其是在图像分类中），以及对 <math>\epsilon</math> 取值的敏感性。诸如 AdamW（将权重衰减与自适应学习率解耦）等变体在训练大型 Transformer 模型时更受青睐。尽管有这些改进，Adam 及其变体仍然是现代神经网络优化的支柱。

== 参见 ==

* [[Batch Normalization Accelerating Deep Network Training]]
* [[Deep Residual Learning for Image Recognition]]
* [[Dropout A Simple Way to Prevent Overfitting]]

== 参考文献 ==

* Kingma, D. P. 与 Ba, J. (2015). Adam: A Method for Stochastic Optimization. ''Proceedings of ICLR 2015''. [https://arxiv.org/abs/1412.6980 arXiv:1412.6980]
* Duchi, J., Hazan, E., 与 Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. ''JMLR 12''.
* Loshchilov, I. 与 Hutter, F. (2019). Decoupled Weight Decay Regularization. ''ICLR 2019''. arXiv:1711.05101.

[[Category:Optimization]] [[Category:Research]] [[Category:Research Papers]]

Adam A Method for Stochastic Optimization/zh - Revision history

DeployBot: Batch translate Adam A Method for Stochastic Optimization unit 24 → zh