<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Gradient_Descent%2Fzh</id>
	<title>Gradient Descent/zh - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Gradient_Descent%2Fzh"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Gradient_Descent/zh&amp;action=history"/>
	<updated>2026-04-24T13:02:16Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Gradient_Descent/zh&amp;diff=2166&amp;oldid=prev</id>
		<title>DeployBot: [deploy-bot] Deploy from CI (8c92aeb)</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Gradient_Descent/zh&amp;diff=2166&amp;oldid=prev"/>
		<updated>2026-04-24T07:09:02Z</updated>

		<summary type="html">&lt;p&gt;[deploy-bot] Deploy from CI (8c92aeb)&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Revision as of 07:09, 24 April 2026&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l114&quot;&gt;Line 114:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 114:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Optimization]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Optimization]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Introductory]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Introductory]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;!--v1.2.0 cache-bust--&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;!-- pass 2 --&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key mediawiki:diff::1.12:old-2100:rev-2166 --&gt;
&lt;/table&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
	<entry>
		<id>https://marovi.ai/index.php?title=Gradient_Descent/zh&amp;diff=2100&amp;oldid=prev</id>
		<title>DeployBot: Pass 2 force re-parse</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Gradient_Descent/zh&amp;diff=2100&amp;oldid=prev"/>
		<updated>2026-04-24T07:00:46Z</updated>

		<summary type="html">&lt;p&gt;Pass 2 force re-parse&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Revision as of 07:00, 24 April 2026&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l115&quot;&gt;Line 115:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 115:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Introductory]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Introductory]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;!--v1.2.0 cache-bust--&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;!--v1.2.0 cache-bust--&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;!-- pass 2 --&gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key mediawiki:diff::1.12:old-2063:rev-2100 --&gt;
&lt;/table&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
	<entry>
		<id>https://marovi.ai/index.php?title=Gradient_Descent/zh&amp;diff=2063&amp;oldid=prev</id>
		<title>DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Gradient_Descent/zh&amp;diff=2063&amp;oldid=prev"/>
		<updated>2026-04-24T06:58:10Z</updated>

		<summary type="html">&lt;p&gt;Force re-parse after Math source-mode rollout (v1.2.0)&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Revision as of 06:58, 24 April 2026&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l114&quot;&gt;Line 114:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 114:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Optimization]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Optimization]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Introductory]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Introductory]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;!--v1.2.0 cache-bust--&gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key mediawiki:diff::1.12:old-2015:rev-2063 --&gt;
&lt;/table&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
	<entry>
		<id>https://marovi.ai/index.php?title=Gradient_Descent/zh&amp;diff=2015&amp;oldid=prev</id>
		<title>DeployBot: [deploy-bot] Deploy from CI (775ba6e)</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Gradient_Descent/zh&amp;diff=2015&amp;oldid=prev"/>
		<updated>2026-04-24T04:01:52Z</updated>

		<summary type="html">&lt;p&gt;[deploy-bot] Deploy from CI (775ba6e)&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{LanguageBar | page = Gradient Descent}}&lt;br /&gt;
{{ArticleInfobox | topic_area = Optimization | difficulty = Introductory | prerequisites = }}&lt;br /&gt;
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;梯度下降（Gradient Descent）&amp;#039;&amp;#039;&amp;#039;是一种用于求解可微函数局部最小值的一阶迭代优化算法。它是几乎所有现代机器学习训练过程的基础，从简单的线性回归（Linear Regression）到拥有数十亿参数的深度神经网络。&lt;br /&gt;
&lt;br /&gt;
== 直觉理解 ==&lt;br /&gt;
&lt;br /&gt;
想象你站在浓雾弥漫的山坡上。你看不到谷底，但能感受到脚下的坡度。最自然的策略就是朝最陡峭的下坡方向迈出一步，然后重新评估。梯度下降正是将这一想法形式化：在每一步中，算法计算函数最陡上升方向（即&amp;#039;&amp;#039;&amp;#039;梯度&amp;#039;&amp;#039;&amp;#039;），然后朝相反方向移动。&lt;br /&gt;
&lt;br /&gt;
每步的大小由一个标量控制，称为&amp;#039;&amp;#039;&amp;#039;学习率（Learning Rate）&amp;#039;&amp;#039;&amp;#039;（通常记为 &amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt;）。较大的学习率前进速度快，但有越过最小值的风险；较小的学习率收敛更可靠，但可能需要过多的步数。&lt;br /&gt;
&lt;br /&gt;
== 数学公式 ==&lt;br /&gt;
&lt;br /&gt;
给定一个可微的目标函数 &amp;lt;math&amp;gt;f:\mathbb{R}^n \to \mathbb{R}&amp;lt;/math&amp;gt;，梯度下降通过以下&amp;#039;&amp;#039;&amp;#039;更新规则&amp;#039;&amp;#039;&amp;#039;生成一系列迭代点：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\theta_{t+1} = \theta_t - \eta \, \nabla f(\theta_t)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中 &amp;lt;math&amp;gt;\nabla f(\theta_t)&amp;lt;/math&amp;gt; 是在当前点 &amp;lt;math&amp;gt;\theta_t&amp;lt;/math&amp;gt; 处计算的梯度向量，&amp;lt;math&amp;gt;\eta &amp;gt; 0&amp;lt;/math&amp;gt; 是学习率。&lt;br /&gt;
&lt;br /&gt;
在一维情况下，公式简化为：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\theta_{t+1} = \theta_t - \eta \, f&amp;#039;(\theta_t)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
梯度 &amp;lt;math&amp;gt;\nabla f&amp;lt;/math&amp;gt; 指向最陡上升方向，因此减去它会使迭代点向下移动。&lt;br /&gt;
&lt;br /&gt;
== 批量、随机和小批量变体 ==&lt;br /&gt;
&lt;br /&gt;
当目标函数具有数据点平均值的形式时，&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;f(\theta) = \frac{1}{N}\sum_{i=1}^{N} \ell(\theta;\, x_i, y_i)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
三种常见策略在用多少数据来估计梯度方面有所不同：&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! 变体 !! 梯度计算范围 !! 每步计算成本 !! 梯度噪声&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;批量（全量）梯度下降&amp;#039;&amp;#039;&amp;#039; || 所有 &amp;lt;math&amp;gt;N&amp;lt;/math&amp;gt; 个样本 || 高 || 无&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;随机梯度下降（SGD）&amp;#039;&amp;#039;&amp;#039; || 1个随机样本 || 低 || 高&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;小批量梯度下降（Mini-batch Gradient Descent）&amp;#039;&amp;#039;&amp;#039; || &amp;lt;math&amp;gt;B&amp;lt;/math&amp;gt; 个随机样本（&amp;lt;math&amp;gt;1 &amp;lt; B &amp;lt; N&amp;lt;/math&amp;gt;） || 中 || 中&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
全量批量梯度下降计算精确梯度，因此沿着平滑轨迹向最小值移动。[[Stochastic Gradient Descent|随机梯度下降]]使用单个样本来估计梯度，大幅减少每步计算量，但代价是轨迹更加嘈杂。小批量梯度下降在两者之间取得平衡，是实践中最常见的选择，典型的批量大小在32到512之间。&lt;br /&gt;
&lt;br /&gt;
== 收敛性 ==&lt;br /&gt;
&lt;br /&gt;
=== 凸函数 ===&lt;br /&gt;
&lt;br /&gt;
对于具有利普希茨连续梯度（常数 &amp;lt;math&amp;gt;L&amp;lt;/math&amp;gt;）的凸函数（Convex Function），使用固定学习率 &amp;lt;math&amp;gt;\eta \leq 1/L&amp;lt;/math&amp;gt; 的梯度下降以 &amp;lt;math&amp;gt;O(1/t)&amp;lt;/math&amp;gt; 的速率收敛。如果函数还具有参数 &amp;lt;math&amp;gt;\mu &amp;gt; 0&amp;lt;/math&amp;gt; 的&amp;#039;&amp;#039;&amp;#039;强凸性&amp;#039;&amp;#039;&amp;#039;，则收敛加速为线性（指数）速率：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;f(\theta_t) - f(\theta^*) \leq \left(1 - \frac{\mu}{L}\right)^t \bigl(f(\theta_0) - f(\theta^*)\bigr)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
比值 &amp;lt;math&amp;gt;\kappa = L / \mu&amp;lt;/math&amp;gt; 称为&amp;#039;&amp;#039;&amp;#039;条件数（Condition Number）&amp;#039;&amp;#039;&amp;#039;，它决定了算法收敛的速度。病态问题（较大的 &amp;lt;math&amp;gt;\kappa&amp;lt;/math&amp;gt;）收敛缓慢。&lt;br /&gt;
&lt;br /&gt;
=== 非凸函数 ===&lt;br /&gt;
&lt;br /&gt;
大多数深度学习目标函数是非凸的。在这种情况下，梯度下降只能保证收敛到驻点（Stationary Point）（其中 &amp;lt;math&amp;gt;\nabla f = 0&amp;lt;/math&amp;gt;），这可能是局部最小值、鞍点（Saddle Point），甚至是局部最大值。在实践中，高维空间中鞍点比局部最小值更成问题。&lt;br /&gt;
&lt;br /&gt;
== 学习率选择 ==&lt;br /&gt;
&lt;br /&gt;
选择学习率是最重要的实际决策之一：&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;过大&amp;#039;&amp;#039;&amp;#039; — 迭代点振荡或发散。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;过小&amp;#039;&amp;#039;&amp;#039; — 收敛速度慢得无法接受。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;学习率调度（Learning Rate Schedule）&amp;#039;&amp;#039;&amp;#039; — 许多实践者从较大的学习率开始，随时间逐渐减小（阶梯衰减、指数衰减、余弦退火）。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;线搜索（Line Search）&amp;#039;&amp;#039;&amp;#039; — 经典数值方法在每步选择 &amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt; 以满足沃尔夫条件或阿米霍条件等，但这在深度学习中很少使用。&lt;br /&gt;
&lt;br /&gt;
一种常用的启发式方法是在对数尺度上尝试多个值（例如 &amp;lt;math&amp;gt;10^{-1}, 10^{-2}, 10^{-3}&amp;lt;/math&amp;gt;），然后选择在不产生不稳定性的前提下损失下降最快的那个。&lt;br /&gt;
&lt;br /&gt;
== 扩展与改进 ==&lt;br /&gt;
&lt;br /&gt;
几种重要的改进方法解决了原始梯度下降的局限性：&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;动量（Momentum）&amp;#039;&amp;#039;&amp;#039; — 从过去的梯度中积累速度向量，帮助在峡谷状地形中加速收敛。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;涅斯捷罗夫加速梯度（Nesterov Accelerated Gradient）&amp;#039;&amp;#039;&amp;#039; — 一种动量变体，在前瞻位置评估梯度，具有更好的理论收敛速率。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;自适应方法（Adaptive Methods）&amp;#039;&amp;#039;&amp;#039;（Adagrad、RMSProp、Adam）— 根据梯度历史为每个参数维护自适应学习率。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;二阶方法（Second-order Methods）&amp;#039;&amp;#039;&amp;#039; — 如牛顿法和L-BFGS等算法使用曲率信息（海森矩阵或其近似）以加速收敛，但对大规模问题通常计算成本过高。&lt;br /&gt;
&lt;br /&gt;
== 实践技巧 ==&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;特征缩放（Feature Scaling）&amp;#039;&amp;#039;&amp;#039; — 归一化输入特征使其具有相似的范围可以显著改善收敛性，因为损失曲面变得更加各向同性。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;梯度裁剪（Gradient Clipping）&amp;#039;&amp;#039;&amp;#039; — 限制梯度的范数以防止过大的更新。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;随机初始化&amp;#039;&amp;#039;&amp;#039; — 从合理的随机初始化开始（例如神经网络中的Xavier或He初始化）可以避免对称性破缺问题。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;监控损失曲线&amp;#039;&amp;#039;&amp;#039; — 绘制训练损失随迭代次数的变化是最简单的诊断方法：平滑下降的曲线表示训练健康；振荡则表明学习率过高。&lt;br /&gt;
&lt;br /&gt;
== 应用 ==&lt;br /&gt;
&lt;br /&gt;
梯度下降及其变体广泛应用于科学和工程领域：&lt;br /&gt;
&lt;br /&gt;
* 训练机器学习模型（线性模型、神经网络、支持向量机）&lt;br /&gt;
* 信号处理与控制系统&lt;br /&gt;
* 物理和成像中的逆问题&lt;br /&gt;
* 运筹学和物流优化&lt;br /&gt;
* 经济学和博弈论均衡计算&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
&lt;br /&gt;
* [[Stochastic Gradient Descent]]&lt;br /&gt;
* [[Backpropagation]]&lt;br /&gt;
* [[Loss Functions]]&lt;br /&gt;
* [[Neural Networks]]&lt;br /&gt;
* [[Overfitting and Regularization]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&lt;br /&gt;
* Cauchy, A. (1847). &amp;quot;Méthode générale pour la résolution des systèmes d&amp;#039;équations simultanées&amp;quot;. &amp;#039;&amp;#039;Comptes Rendus de l&amp;#039;Académie des Sciences&amp;#039;&amp;#039;.&lt;br /&gt;
* Boyd, S. and Vandenberghe, L. (2004). &amp;#039;&amp;#039;Convex Optimization&amp;#039;&amp;#039;. Cambridge University Press.&lt;br /&gt;
* Ruder, S. (2016). &amp;quot;An overview of gradient descent optimization algorithms&amp;quot;. &amp;#039;&amp;#039;arXiv:1609.04747&amp;#039;&amp;#039;.&lt;br /&gt;
* Goodfellow, I., Bengio, Y. and Courville, A. (2016). &amp;#039;&amp;#039;Deep Learning&amp;#039;&amp;#039;, Chapter 8. MIT Press.&lt;br /&gt;
&lt;br /&gt;
[[Category:Optimization]]&lt;br /&gt;
[[Category:Introductory]]&lt;/div&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>