<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Overfitting_and_Regularization%2Fzh</id>
	<title>Overfitting and Regularization/zh - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Overfitting_and_Regularization%2Fzh"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Overfitting_and_Regularization/zh&amp;action=history"/>
	<updated>2026-04-27T19:26:06Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Overfitting_and_Regularization/zh&amp;diff=5729&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Overfitting and Regularization unit 5 → zh</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Overfitting_and_Regularization/zh&amp;diff=5729&amp;oldid=prev"/>
		<updated>2026-04-27T03:44:02Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Overfitting and Regularization unit 5 → zh&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;lt;languages /&amp;gt;&lt;br /&gt;
{{ArticleInfobox | topic_area = Machine Learning | difficulty = Intermediate | prerequisites = [[Loss Functions]], [[Neural Networks]]}}&lt;br /&gt;
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}&lt;br /&gt;
&lt;br /&gt;
当机器学习模型对训练数据学习得过于充分——捕捉到噪声和特异性而非潜在模式——从而在未见过的数据上表现不佳时,就会发生&amp;#039;&amp;#039;&amp;#039;过拟合&amp;#039;&amp;#039;&amp;#039;。&amp;#039;&amp;#039;&amp;#039;正则化&amp;#039;&amp;#039;&amp;#039;是用于防止过拟合并提高模型泛化能力的一系列技术。&lt;br /&gt;
&lt;br /&gt;
== 偏差-方差权衡 ==&lt;br /&gt;
&lt;br /&gt;
对未见过数据的预测误差可以分解为三个组成部分:&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\text{Error} = \text{Bias}^2 + \text{Variance} + \text{Irreducible noise}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;偏差&amp;#039;&amp;#039;&amp;#039;衡量模型的平均预测与真实值的距离。高偏差表明模型过于简单,无法捕捉数据的结构(&amp;#039;&amp;#039;&amp;#039;欠拟合&amp;#039;&amp;#039;&amp;#039;)。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;方差&amp;#039;&amp;#039;&amp;#039;衡量预测在不同训练集之间的波动程度。高方差表明模型对特定训练数据过于敏感(&amp;#039;&amp;#039;&amp;#039;过拟合&amp;#039;&amp;#039;&amp;#039;)。&lt;br /&gt;
&lt;br /&gt;
目标是找到使总误差最小化的最佳平衡点。参数过少的模型会欠拟合(高偏差);参数过多的模型会过拟合(高方差)。正则化技术通过约束模型复杂度来调整这种平衡,接受略高的偏差以换取大幅降低的方差。&lt;br /&gt;
&lt;br /&gt;
== 检测过拟合 ==&lt;br /&gt;
&lt;br /&gt;
最清晰的诊断方法是比较训练和验证的性能:&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;训练损失下降,验证损失也下降&amp;#039;&amp;#039;&amp;#039; —— 模型仍在学习;继续训练。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;训练损失下降,验证损失上升&amp;#039;&amp;#039;&amp;#039; —— 模型正在过拟合;应用正则化或停止训练。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;训练损失高,验证损失高&amp;#039;&amp;#039;&amp;#039; —— 模型欠拟合;增加容量或延长训练时间。&lt;br /&gt;
&lt;br /&gt;
在训练迭代过程中绘制这些&amp;#039;&amp;#039;&amp;#039;学习曲线&amp;#039;&amp;#039;&amp;#039;是必不可少的实践。训练准确率与验证准确率之间的较大差距是过拟合的标志。&lt;br /&gt;
&lt;br /&gt;
== L2 正则化(权重衰减) ==&lt;br /&gt;
&lt;br /&gt;
L2 正则化添加一个与权重平方大小成正比的惩罚项:&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;J(\theta) = L(\theta) + \frac{\lambda}{2}\|\theta\|_2^2 = L(\theta) + \frac{\lambda}{2}\sum_j \theta_j^2&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
正则化项的梯度为 &amp;lt;math&amp;gt;\lambda \theta&amp;lt;/math&amp;gt;,因此每个权重在每次更新时都会以乘法方式向零收缩——这就是&amp;#039;&amp;#039;&amp;#039;权重衰减&amp;#039;&amp;#039;&amp;#039;名称的由来。超参数 &amp;lt;math&amp;gt;\lambda&amp;lt;/math&amp;gt; 控制正则化的强度。&lt;br /&gt;
&lt;br /&gt;
从贝叶斯角度看,L2 正则化等价于对权重施加高斯先验。它鼓励小的、分布式的权重,并抑制任何单个权重变得过大。&lt;br /&gt;
&lt;br /&gt;
== L1 正则化 ==&lt;br /&gt;
&lt;br /&gt;
L1 正则化对绝对值之和进行惩罚:&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;J(\theta) = L(\theta) + \lambda \|\theta\|_1 = L(\theta) + \lambda \sum_j |\theta_j|&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
与 L2 不同,L1 惩罚会将许多权重精确地驱动至零,产生&amp;#039;&amp;#039;&amp;#039;稀疏&amp;#039;&amp;#039;&amp;#039;模型。这使得 L1 正则化对特征选择非常有用。LASSO(Least Absolute Shrinkage and Selection Operator,最小绝对值收缩与选择算子)是 L1 正则化线性回归的经典例子。&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! 属性 !! L1 !! L2&lt;br /&gt;
|-&lt;br /&gt;
| 惩罚项 || &amp;lt;math&amp;gt;\lambda\sum|\theta_j|&amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt;\frac{\lambda}{2}\sum\theta_j^2&amp;lt;/math&amp;gt;&lt;br /&gt;
|-&lt;br /&gt;
| 对权重的影响 || 将许多权重驱动至精确为零 || 将所有权重收缩至零附近&lt;br /&gt;
|-&lt;br /&gt;
| 稀疏性 || 是 || 否&lt;br /&gt;
|-&lt;br /&gt;
| 贝叶斯解释 || 拉普拉斯先验 || 高斯先验&lt;br /&gt;
|-&lt;br /&gt;
| 使用场景 || 特征选择、可解释性 || 通用正则化&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Dropout ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Dropout&amp;#039;&amp;#039;&amp;#039;(Srivastava 等,2014)是一种专门用于神经网络的正则化技术。在训练期间,每个神经元在每次前向传播时以概率 &amp;lt;math&amp;gt;p&amp;lt;/math&amp;gt; 被随机&amp;quot;丢弃&amp;quot;(置零)。这可以防止神经元相互协同适应,并迫使网络学习冗余表示。&lt;br /&gt;
&lt;br /&gt;
在测试时,所有神经元都处于激活状态,但其输出被缩放 &amp;lt;math&amp;gt;(1 - p)&amp;lt;/math&amp;gt; 倍以补偿较多的激活单元数量(或等效地,在训练期间输出被缩放 &amp;lt;math&amp;gt;1/(1-p)&amp;lt;/math&amp;gt; 倍——&amp;#039;&amp;#039;&amp;#039;inverted dropout&amp;#039;&amp;#039;&amp;#039;)。&lt;br /&gt;
&lt;br /&gt;
Dropout 可以解释为一种近似的集成方法:每个训练步骤使用不同的子网络,而最终模型近似于指数级多个子网络的平均预测。&lt;br /&gt;
&lt;br /&gt;
== 早停 ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;早停&amp;#039;&amp;#039;&amp;#039;(early stopping)在训练期间监控验证损失,并在验证损失停止改善时停止优化。这是最简单且最有效的正则化策略之一。&lt;br /&gt;
&lt;br /&gt;
在实践中,&amp;#039;&amp;#039;&amp;#039;耐心(patience)&amp;#039;&amp;#039;&amp;#039;参数指定了在最后一次改善之后等待多少个 epoch 再停止。模型权重在验证损失最低的时刻被保存,并在结束时恢复。&lt;br /&gt;
&lt;br /&gt;
早停作为一种隐式的正则化形式:它限制了训练步骤的有效数量,防止模型完全记忆训练数据。&lt;br /&gt;
&lt;br /&gt;
== 数据增强 ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;数据增强&amp;#039;&amp;#039;&amp;#039;(data augmentation)通过应用保留标签的变换来增加训练集的有效规模和多样性。对于图像数据,常见的增强方法包括:&lt;br /&gt;
&lt;br /&gt;
* 随机水平/垂直翻转&lt;br /&gt;
* 随机裁剪和缩放&lt;br /&gt;
* 颜色抖动(亮度、对比度、饱和度)&lt;br /&gt;
* 旋转和仿射变换&lt;br /&gt;
* Mixup(对图像对及其标签进行线性插值)&lt;br /&gt;
* Cutout(遮蔽随机区域)&lt;br /&gt;
&lt;br /&gt;
对于文本数据,增强方法包括同义词替换、回译和释义。数据增强通过让模型接触更多样化的输入而无需收集额外数据,从而减少过拟合。&lt;br /&gt;
&lt;br /&gt;
== 其他正则化技术 ==&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Batch normalization&amp;#039;&amp;#039;&amp;#039; —— 对层输入进行归一化可以减少内部协变量偏移,并具有轻微的正则化效果。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;标签平滑(label smoothing)&amp;#039;&amp;#039;&amp;#039; —— 将 one-hot 目标替换为混合形式,例如 &amp;lt;math&amp;gt;y_{\text{smooth}} = (1 - \epsilon)\, y + \epsilon / C&amp;lt;/math&amp;gt;,以防止过度自信。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;噪声注入&amp;#039;&amp;#039;&amp;#039; —— 在训练期间向输入、权重或梯度添加高斯噪声。&lt;br /&gt;
&lt;br /&gt;
== 实用指南 ==&lt;br /&gt;
&lt;br /&gt;
# 从一个足够大、能够对训练数据过拟合的模型开始 —— 这能确认模型具有足够的容量。&lt;br /&gt;
# 逐步添加正则化(dropout、权重衰减、数据增强)并监控验证性能。&lt;br /&gt;
# 使用早停作为安全网。&lt;br /&gt;
# 在可能的情况下,优先选择更多训练数据而非更强的正则化 —— 正则化是数据的替代品,而非真正的替代方案。&lt;br /&gt;
# 使用验证集而非测试集来调整正则化强度(&amp;lt;math&amp;gt;\lambda&amp;lt;/math&amp;gt;、dropout 比率)。&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
&lt;br /&gt;
* [[Loss Functions|损失函数]]&lt;br /&gt;
* [[Neural Networks|神经网络]]&lt;br /&gt;
* [[Gradient Descent|梯度下降]]&lt;br /&gt;
* [[Convolutional Neural Networks|卷积神经网络]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&lt;br /&gt;
* Srivastava, N. et al. (2014). &amp;quot;Dropout: A Simple Way to Prevent Neural Networks from Overfitting&amp;quot;. &amp;#039;&amp;#039;JMLR&amp;#039;&amp;#039;, 15, 1929–1958.&lt;br /&gt;
* Tibshirani, R. (1996). &amp;quot;Regression Shrinkage and Selection via the Lasso&amp;quot;. &amp;#039;&amp;#039;JRSS Series B&amp;#039;&amp;#039;, 58(1), 267–288.&lt;br /&gt;
* Goodfellow, I., Bengio, Y. 与 Courville, A. (2016). &amp;#039;&amp;#039;Deep Learning&amp;#039;&amp;#039;, 第 7 章. MIT Press.&lt;br /&gt;
* Zhang, C. et al. (2017). &amp;quot;Understanding deep learning requires rethinking generalization&amp;quot;. &amp;#039;&amp;#039;ICLR&amp;#039;&amp;#039;.&lt;br /&gt;
* Shorten, C. 与 Khoshgoftaar, T. M. (2019). &amp;quot;A survey on Image Data Augmentation for Deep Learning&amp;quot;. &amp;#039;&amp;#039;Journal of Big Data&amp;#039;&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
[[Category:Machine Learning]]&lt;br /&gt;
[[Category:Intermediate]]&lt;/div&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>