<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Adam_A_Method_for_Stochastic_Optimization%2Fzh</id>
	<title>Adam A Method for Stochastic Optimization/zh - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Adam_A_Method_for_Stochastic_Optimization%2Fzh"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Adam_A_Method_for_Stochastic_Optimization/zh&amp;action=history"/>
	<updated>2026-04-27T16:59:49Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Adam_A_Method_for_Stochastic_Optimization/zh&amp;diff=5730&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Adam A Method for Stochastic Optimization unit 24 → zh</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Adam_A_Method_for_Stochastic_Optimization/zh&amp;diff=5730&amp;oldid=prev"/>
		<updated>2026-04-27T03:44:43Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Adam A Method for Stochastic Optimization unit 24 → zh&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;lt;languages /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{{PaperInfobox&lt;br /&gt;
| topic_area  = Optimization&lt;br /&gt;
| difficulty  = Research&lt;br /&gt;
| authors     = Diederik P. Kingma; Jimmy Lei Ba&lt;br /&gt;
| year        = 2015&lt;br /&gt;
| venue       = ICLR&lt;br /&gt;
| arxiv_id    = 1412.6980&lt;br /&gt;
| source_url  = https://arxiv.org/abs/1412.6980&lt;br /&gt;
| pdf_url     = https://arxiv.org/pdf/1412.6980&lt;br /&gt;
}}&lt;br /&gt;
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Adam: A Method for Stochastic Optimization&amp;#039;&amp;#039;&amp;#039; 是 Kingma 和 Ba 于 2015 年发表的论文，提出了 &amp;#039;&amp;#039;&amp;#039;Adam&amp;#039;&amp;#039;&amp;#039; 优化器，这是一种针对随机目标函数的一阶基于梯度的优化算法。Adam 将两种早期方法的优势——&amp;#039;&amp;#039;&amp;#039;AdaGrad&amp;#039;&amp;#039;&amp;#039;（按参数自适应调整学习率）和 &amp;#039;&amp;#039;&amp;#039;RMSProp&amp;#039;&amp;#039;&amp;#039;（使用平方梯度的滑动平均）——结合到一个具有偏差校正矩估计的单一算法中。Adam 已成为大多数领域中训练神经网络的默认优化器。&lt;br /&gt;
&lt;br /&gt;
== 概述 ==&lt;br /&gt;
&lt;br /&gt;
训练深度神经网络需要使用随机梯度估计来最小化一个高维、非凸的目标函数。标准的随机梯度下降（SGD）对所有参数使用单一的全局学习率，当不同参数的梯度量级差异很大，或损失曲面具有高度各向异性的曲率时，这种方式可能并非最优。&lt;br /&gt;
&lt;br /&gt;
先前的自适应方法（如 AdaGrad）在整个训练过程中累积平方梯度，导致学习率单调衰减至零——这对于非凸问题是有问题的。RMSProp 通过使用指数滑动平均解决了这一问题，但缺乏偏差校正。Adam 通过对梯度的一阶矩（均值）和二阶矩（非中心方差）进行偏差校正估计，将这些思想统一起来，提供了一个有效且计算高效的优化器，并具有表现良好的默认超参数。&lt;br /&gt;
&lt;br /&gt;
== 主要贡献 ==&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Adam 优化器&amp;#039;&amp;#039;&amp;#039;：一种自适应学习率方法，基于梯度一阶矩和二阶矩的偏差校正估计，为每个参数维护各自的学习率。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;偏差校正&amp;#039;&amp;#039;&amp;#039;：一种用于抵消矩估计向零初始化偏差的机制，这在训练的初始步骤中尤为重要。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;AdaMax 变体&amp;#039;&amp;#039;&amp;#039;：基于无穷范数的推广，在某些具有稀疏梯度的问题上有时能优于 Adam。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;实用默认值&amp;#039;&amp;#039;&amp;#039;：推荐的超参数取值（&amp;lt;math&amp;gt;\beta_1 = 0.9&amp;lt;/math&amp;gt;、&amp;lt;math&amp;gt;\beta_2 = 0.999&amp;lt;/math&amp;gt;、&amp;lt;math&amp;gt;\epsilon = 10^{-8}&amp;lt;/math&amp;gt;），在广泛的问题上表现良好。&lt;br /&gt;
&lt;br /&gt;
== 方法 ==&lt;br /&gt;
&lt;br /&gt;
Adam 维护两个指数滑动平均：&amp;lt;math&amp;gt;m_t&amp;lt;/math&amp;gt; 表示一阶矩（梯度的均值），&amp;lt;math&amp;gt;v_t&amp;lt;/math&amp;gt; 表示二阶矩（平方梯度的均值）：&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中 &amp;lt;math&amp;gt;g_t = \nabla_\theta f_t(\theta_{t-1})&amp;lt;/math&amp;gt; 是第 &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt; 步的梯度，&amp;lt;math&amp;gt;\beta_1, \beta_2 \in [0, 1)&amp;lt;/math&amp;gt; 控制指数衰减率。&lt;br /&gt;
&lt;br /&gt;
由于 &amp;lt;math&amp;gt;m_t&amp;lt;/math&amp;gt; 和 &amp;lt;math&amp;gt;v_t&amp;lt;/math&amp;gt; 被初始化为零向量，它们在初始步骤中会偏向零。Adam 通过 &amp;#039;&amp;#039;&amp;#039;偏差校正估计&amp;#039;&amp;#039;&amp;#039; 来纠正这一点：&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;\hat{m}_t = \frac{m_t}{1 - \beta_1^t}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;\hat{v}_t = \frac{v_t}{1 - \beta_2^t}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
参数更新规则随之为：&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;\theta_t = \theta_{t-1} - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中 &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt; 是步长（学习率），&amp;lt;math&amp;gt;\epsilon&amp;lt;/math&amp;gt; 是用于数值稳定性的小常数。&lt;br /&gt;
&lt;br /&gt;
一阶矩估计提供了类似动量的行为，沿着一致的梯度方向加速收敛。二阶矩估计将学习率与近期梯度的均方根成反比缩放，使每个参数拥有各自的有效学习率。这种组合意味着梯度始终较大的参数获得较小的更新，而梯度较小或噪声较大的参数获得相对较大的更新。&lt;br /&gt;
&lt;br /&gt;
论文还引入了 &amp;#039;&amp;#039;&amp;#039;AdaMax&amp;#039;&amp;#039;&amp;#039;，它将 Adam 中二阶矩使用的 &amp;lt;math&amp;gt;L^2&amp;lt;/math&amp;gt; 范数替换为 &amp;lt;math&amp;gt;L^\infty&amp;lt;/math&amp;gt; 范数，得到一种更简单的更新规则，避免了对二阶矩的偏差校正。&lt;br /&gt;
&lt;br /&gt;
== 结果 ==&lt;br /&gt;
&lt;br /&gt;
论文在多个基准测试上对 Adam 进行了评估：&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;逻辑回归&amp;#039;&amp;#039;&amp;#039;（MNIST 上）：Adam 的收敛速度快于带动量的 SGD、AdaGrad 和 RMSProp。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;多层神经网络&amp;#039;&amp;#039;&amp;#039;（MNIST 上）：Adam 取得了最低的训练代价，其收敛速度与竞争方法相当或更优。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;卷积神经网络&amp;#039;&amp;#039;&amp;#039;（CIFAR-10 上）：Adam 的表现与经过精细调优动量和学习率调度的 SGD 相当。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;变分自编码器&amp;#039;&amp;#039;&amp;#039;（VAEs）：Adam 被成功用于优化变分下界，证明了其在生成模型中的适用性。&lt;br /&gt;
&lt;br /&gt;
论文提供了收敛性分析，表明 Adam 在在线凸优化框架下可达到 &amp;lt;math&amp;gt;O(\sqrt{T})&amp;lt;/math&amp;gt; 的遗憾界，与自适应方法已知的最佳界相匹配。&lt;br /&gt;
&lt;br /&gt;
== 影响 ==&lt;br /&gt;
&lt;br /&gt;
Adam 成为深度学习中使用最广泛的优化器，从 2010 年代后期一直延续到 2020 年代，被大多数研究论文和生产系统选作默认优化器。它对超参数选择的鲁棒性以及在各种架构下的有效性，使其成为从业者的首选算法。&lt;br /&gt;
&lt;br /&gt;
后续工作指出了一些局限性，包括在某些情形下的收敛问题（由 AMSGrad 解决）、相较于精心调优的 SGD 可能存在的泛化差距（尤其是在图像分类中），以及对 &amp;lt;math&amp;gt;\epsilon&amp;lt;/math&amp;gt; 取值的敏感性。诸如 AdamW（将权重衰减与自适应学习率解耦）等变体在训练大型 Transformer 模型时更受青睐。尽管有这些改进，Adam 及其变体仍然是现代神经网络优化的支柱。&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
&lt;br /&gt;
* [[Batch Normalization Accelerating Deep Network Training]]&lt;br /&gt;
* [[Deep Residual Learning for Image Recognition]]&lt;br /&gt;
* [[Dropout A Simple Way to Prevent Overfitting]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&lt;br /&gt;
* Kingma, D. P. 与 Ba, J. (2015). Adam: A Method for Stochastic Optimization. &amp;#039;&amp;#039;Proceedings of ICLR 2015&amp;#039;&amp;#039;. [https://arxiv.org/abs/1412.6980 arXiv:1412.6980]&lt;br /&gt;
* Duchi, J., Hazan, E., 与 Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. &amp;#039;&amp;#039;JMLR 12&amp;#039;&amp;#039;.&lt;br /&gt;
* Loshchilov, I. 与 Hutter, F. (2019). Decoupled Weight Decay Regularization. &amp;#039;&amp;#039;ICLR 2019&amp;#039;&amp;#039;. arXiv:1711.05101.&lt;br /&gt;
&lt;br /&gt;
[[Category:Optimization]] [[Category:Research]] [[Category:Research Papers]]&lt;/div&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>