<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Batch_Normalization_Accelerating_Deep_Network_Training%2Fzh</id>
	<title>Batch Normalization Accelerating Deep Network Training/zh - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Batch_Normalization_Accelerating_Deep_Network_Training%2Fzh"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Batch_Normalization_Accelerating_Deep_Network_Training/zh&amp;action=history"/>
	<updated>2026-04-27T16:58:17Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Batch_Normalization_Accelerating_Deep_Network_Training/zh&amp;diff=6439&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Batch Normalization Accelerating Deep Network Training unit 17 -&gt; zh</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Batch_Normalization_Accelerating_Deep_Network_Training/zh&amp;diff=6439&amp;oldid=prev"/>
		<updated>2026-04-27T04:14:44Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Batch Normalization Accelerating Deep Network Training unit 17 -&amp;gt; zh&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;lt;languages /&amp;gt;&lt;br /&gt;
{{LanguageBar | page = Batch Normalization Accelerating Deep Network Training}}&lt;br /&gt;
&lt;br /&gt;
{{PaperInfobox&lt;br /&gt;
| topic_area  = Deep Learning&lt;br /&gt;
| difficulty  = Research&lt;br /&gt;
| authors     = Sergey Ioffe; Christian Szegedy&lt;br /&gt;
| year        = 2015&lt;br /&gt;
| venue       = ICML&lt;br /&gt;
| arxiv_id    = 1502.03167&lt;br /&gt;
| source_url  = https://arxiv.org/abs/1502.03167&lt;br /&gt;
| pdf_url     = https://arxiv.org/pdf/1502.03167&lt;br /&gt;
}}&lt;br /&gt;
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift&amp;#039;&amp;#039;&amp;#039; 是 Google 的 Ioffe 和 Szegedy 于 2015 年发表的论文，该论文提出了&amp;#039;&amp;#039;&amp;#039;批量归一化&amp;#039;&amp;#039;&amp;#039;（BatchNorm），这是一种在神经网络训练过程中对层输入进行归一化的技术。通过减少作者所称的&amp;#039;&amp;#039;&amp;#039;内部协变量偏移&amp;#039;&amp;#039;&amp;#039;（internal covariate shift）——即随着参数更新，网络激活分布发生的变化——批量归一化允许使用更高的学习率，降低了对初始化的敏感性，并且在某些情况下起到了正则化的作用，从而消除了对 dropout 的需求。&lt;br /&gt;
&lt;br /&gt;
== 概述 ==&lt;br /&gt;
&lt;br /&gt;
训练深度神经网络的复杂之处在于，随着所有前面各层参数的更新，每一层的输入分布在训练过程中会发生变化。作者将这种现象称为内部协变量偏移，它迫使人们使用较低的学习率并对参数进行精心初始化，从而显著减慢了训练速度。&lt;br /&gt;
&lt;br /&gt;
批量归一化通过使用基于当前 mini-batch 计算的统计量对每一层的输入进行归一化来解决这一问题。这确保了每一层接收到的输入具有稳定的均值和方差，而不受前面各层变化的影响。该技术作为一种可微变换被插入到网络架构中，因而与标准的 backpropagation 和随机梯度下降兼容。&lt;br /&gt;
&lt;br /&gt;
== 主要贡献 ==&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;批量归一化&amp;#039;&amp;#039;&amp;#039;：一种在 mini-batch 上独立地对每个标量特征进行归一化的方法，使用可学习的缩放和平移参数以保持表征能力。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;内部协变量偏移假设&amp;#039;&amp;#039;&amp;#039;：识别并形式化了训练过程中输入分布变化作为优化困难成因的问题。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;训练加速&amp;#039;&amp;#039;&amp;#039;：证明了批量归一化在 ImageNet 上能够以 14 倍的速度更快地收敛到相同的准确率水平，并允许使用更高的学习率。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Inception-BN 架构&amp;#039;&amp;#039;&amp;#039;：GoogLeNet（Inception）的批量归一化版本，其准确率超过了原始模型，并在 ImageNet 上接近了人类水平的表现。&lt;br /&gt;
&lt;br /&gt;
== 方法 ==&lt;br /&gt;
&lt;br /&gt;
对于给定层中激活值的一个 mini-batch &amp;lt;math&amp;gt;\mathcal{B} = \{x_1, x_2, \ldots, x_m\}&amp;lt;/math&amp;gt;，批量归一化变换计算如下：&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;\mu_{\mathcal{B}} = \frac{1}{m} \sum_{i=1}^{m} x_i&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;\sigma_{\mathcal{B}}^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_{\mathcal{B}})^2&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;\hat{x}_i = \frac{x_i - \mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^2 + \epsilon}}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;y_i = \gamma \hat{x}_i + \beta&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中 &amp;lt;math&amp;gt;\epsilon&amp;lt;/math&amp;gt; 是用于数值稳定性的一个小常数，&amp;lt;math&amp;gt;\gamma&amp;lt;/math&amp;gt; 和 &amp;lt;math&amp;gt;\beta&amp;lt;/math&amp;gt; 是可学习的参数，允许网络在归一化没有益处时撤销归一化。这些缩放和平移参数至关重要：没有它们，归一化会将表示限制为零均值和单位方差，从而可能降低模型的表达能力。&lt;br /&gt;
&lt;br /&gt;
在训练期间，均值和方差按 mini-batch 计算。在推理期间，batch 统计量被&amp;#039;&amp;#039;&amp;#039;总体统计量&amp;#039;&amp;#039;&amp;#039;替代——即在训练期间累积的滑动平均值——以确保单个样本的输出是确定性的，且不依赖于 batch 中的其他样本。&lt;br /&gt;
&lt;br /&gt;
批量归一化通常应用于激活函数之前、线性或卷积变换之后。当与卷积层一起使用时，归一化是按特征图（通道）进行的，而不是按单个激活进行，并在一个特征图内的所有空间位置之间共享统计量。&lt;br /&gt;
&lt;br /&gt;
作者还观察到，批量归一化降低了对精确初始化的依赖，允许使用更高的学习率而不发散，并提供了温和的正则化效果，因为每个样本的归一化值依赖于其 mini-batch 中的其他样本，从而引入了随机噪声。&lt;br /&gt;
&lt;br /&gt;
== 结果 ==&lt;br /&gt;
&lt;br /&gt;
在 ImageNet 分类任务上：&lt;br /&gt;
&lt;br /&gt;
* 一个采用批量归一化的网络仅用&amp;#039;&amp;#039;&amp;#039;7% 的训练步数&amp;#039;&amp;#039;&amp;#039;（加速 14 倍）就达到了原始 Inception 模型的准确率。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;BN-Inception&amp;#039;&amp;#039;&amp;#039;（采用批量归一化和其他改进）取得了 4.82% 的 top-5 验证误差，超过了原始 GoogLeNet 的准确率（6.67%）并接近人类水平。&lt;br /&gt;
* 使用批量归一化使得训练时可以采用比基线高 10 倍的学习率而不发散。&lt;br /&gt;
* 在某些配置下，批量归一化消除了对 dropout 的需求且不损失准确率，从而简化了架构并进一步缩短了训练时间。&lt;br /&gt;
&lt;br /&gt;
消融实验表明，批量归一化与更高学习率以及去除 dropout 的组合产生了最佳的结果。&lt;br /&gt;
&lt;br /&gt;
== 影响 ==&lt;br /&gt;
&lt;br /&gt;
批量归一化成为深度学习架构中最普遍的组件之一。在 2010 年代后期，它在卷积网络中几乎被普遍采用，并且在许多架构中仍然是标准做法。该技术的成功启发了一系列归一化方法，包括 layer normalization（在 Transformers 和循环网络中更受青睐）、instance normalization（用于风格迁移）以及 group normalization（在小 batch size 下很有用）。&lt;br /&gt;
&lt;br /&gt;
尽管最初关于内部协变量偏移的解释存在争议——Santurkar 等人（2018 年）的后续工作认为其主要益处来自于平滑优化曲面，而不是减少分布偏移——但批量归一化的实际有效性是无可争议的。它是训练深度网络的关键推动力，而这些深度网络推动了 2010 年代计算机视觉领域的进展。&lt;br /&gt;
&lt;br /&gt;
批量归一化也影响了从业者对网络设计的思考方式。通过稳定训练动态，它使超参数搜索更具容错性，并鼓励了更深、更宽架构的发展。该技术与其他组件——学习率、权重初始化和正则化——之间的相互作用仍是一个活跃的研究领域。&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
&lt;br /&gt;
* [[Deep Residual Learning for Image Recognition]]&lt;br /&gt;
* [[ImageNet Classification with Deep CNNs]]&lt;br /&gt;
* [[Dropout A Simple Way to Prevent Overfitting]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&lt;br /&gt;
* Ioffe, S. y Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. &amp;#039;&amp;#039;Proceedings of ICML 2015&amp;#039;&amp;#039;. [https://arxiv.org/abs/1502.03167 arXiv:1502.03167]&lt;br /&gt;
* Szegedy, C., Liu, W., Jia, Y., et al. (2015). Going Deeper with Convolutions. &amp;#039;&amp;#039;CVPR 2015&amp;#039;&amp;#039;.&lt;br /&gt;
* Santurkar, S., Tsipras, D., Ilyas, A. 与 Madry, A. (2018). How Does Batch Normalization Help Optimization? &amp;#039;&amp;#039;NeurIPS 2018&amp;#039;&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
[[Category:Deep Learning]] [[Category:Research]] [[Category:Research Papers]]&lt;/div&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>