<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Attention_Is_All_You_Need%2Fzh</id>
	<title>Attention Is All You Need/zh - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Attention_Is_All_You_Need%2Fzh"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Attention_Is_All_You_Need/zh&amp;action=history"/>
	<updated>2026-04-27T20:39:29Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Attention_Is_All_You_Need/zh&amp;diff=6264&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Attention Is All You Need unit 17 -&gt; zh</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Attention_Is_All_You_Need/zh&amp;diff=6264&amp;oldid=prev"/>
		<updated>2026-04-27T04:10:02Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Attention Is All You Need unit 17 -&amp;gt; zh&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;lt;languages /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{{PaperInfobox&lt;br /&gt;
| topic_area  = NLP&lt;br /&gt;
| difficulty  = Research&lt;br /&gt;
| authors     = Ashish Vaswani; Noam Shazeer; Niki Parmar; Jakob Uszkoreit; Llion Jones; Aidan N. Gomez; Lukasz Kaiser; Illia Polosukhin&lt;br /&gt;
| year        = 2017&lt;br /&gt;
| venue       = NeurIPS&lt;br /&gt;
| arxiv_id    = 1706.03762&lt;br /&gt;
| source_url  = https://arxiv.org/abs/1706.03762&lt;br /&gt;
| pdf_url     = https://arxiv.org/pdf/1706.03762&lt;br /&gt;
}}&lt;br /&gt;
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Attention Is All You Need&amp;#039;&amp;#039;&amp;#039;是 Vaswani 等人于 2017 年发表的里程碑式论文，提出了&amp;#039;&amp;#039;&amp;#039;Transformer&amp;#039;&amp;#039;&amp;#039;架构——一种完全基于注意力机制的新型神经网络设计。该论文证明，此前被认为对序列到序列任务必不可少的循环层与卷积层，可以由自注意力（self-attention）取而代之，从而获得更优的性能和大幅提升的训练效率。&lt;br /&gt;
&lt;br /&gt;
== 概述 ==&lt;br /&gt;
&lt;br /&gt;
在 Transformer 出现之前，主流的序列转换模型依赖循环神经网络（RNN），尤其是 LSTM 和 GRU，并通常辅以注意力机制。这些架构按顺序处理 token，形成了一个根本性的瓶颈，使训练无法并行化。Transformer 通过完全依靠注意力来捕捉输入与输出序列之间的全局依赖关系，消除了这一限制，实现了远更高的并行度，并将当时硬件上的训练时间从数天缩短到数小时。&lt;br /&gt;
&lt;br /&gt;
该模型在 WMT 2014 共享任务的英德和英法翻译基准上进行了评估，取得了新的最先进 BLEU 分数，同时所需的训练计算量远低于同期竞争模型。&lt;br /&gt;
&lt;br /&gt;
== 主要贡献 ==&lt;br /&gt;
&lt;br /&gt;
* 提出 Transformer，第一个完全基于注意力、不含循环或卷积的序列转换模型。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;缩放点积注意力&amp;#039;&amp;#039;&amp;#039;（scaled dot-product attention）机制以及&amp;#039;&amp;#039;&amp;#039;多头注意力&amp;#039;&amp;#039;&amp;#039;（multi-head attention），使模型能够在不同位置同时关注来自不同表示子空间的信息。&lt;br /&gt;
* 使用正弦函数的&amp;#039;&amp;#039;&amp;#039;位置编码&amp;#039;&amp;#039;&amp;#039;，在没有循环的情况下为模型提供 token 顺序信息。&lt;br /&gt;
* 证明仅基于注意力的模型可以在机器翻译上取得最先进的结果，同时具有更好的并行性和更快的训练速度。&lt;br /&gt;
&lt;br /&gt;
== 方法 ==&lt;br /&gt;
&lt;br /&gt;
Transformer 采用编码器-解码器结构。编码器将输入的符号表示序列映射为连续表示序列，解码器则以自回归方式逐元素生成输出序列。&lt;br /&gt;
&lt;br /&gt;
其核心运算是&amp;#039;&amp;#039;&amp;#039;缩放点积注意力&amp;#039;&amp;#039;&amp;#039;（scaled dot-product attention），定义为：&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中&amp;lt;math&amp;gt;Q&amp;lt;/math&amp;gt;、&amp;lt;math&amp;gt;K&amp;lt;/math&amp;gt;和&amp;lt;math&amp;gt;V&amp;lt;/math&amp;gt;分别是查询（queries）、键（keys）和值（values）的矩阵，&amp;lt;math&amp;gt;d_k&amp;lt;/math&amp;gt;是键的维度。缩放因子&amp;lt;math&amp;gt;\sqrt{d_k}&amp;lt;/math&amp;gt;可防止点积在数值上变得过大，否则会将 softmax 推入梯度极小的区域。&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;多头注意力&amp;#039;&amp;#039;&amp;#039;（multi-head attention）并行地应用多个注意力函数，每个函数使用不同的可学习线性投影：&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中每个&amp;lt;math&amp;gt;\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)&amp;lt;/math&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
编码器由六个相同的层组成，每层包含一个多头自注意力子层，之后是一个按位置作用的前馈（feed-forward）网络，每个子层周围都有残差连接和层归一化（layer normalization）。解码器额外增加了第三个子层，对编码器输出执行多头注意力，并在自注意力中对未来位置进行掩码，以保持自回归特性。&lt;br /&gt;
&lt;br /&gt;
由于模型不含循环结构，需要使用不同频率的正弦函数将&amp;#039;&amp;#039;&amp;#039;位置编码&amp;#039;&amp;#039;&amp;#039;加到输入 embedding 上：&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}})&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{\text{model}}})&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 结果 ==&lt;br /&gt;
&lt;br /&gt;
在 WMT 2014 英德翻译任务上，大型 Transformer 模型取得了 28.4 的 BLEU 分数，比此前包括集成模型在内的最佳结果高出 2 个 BLEU 点以上。在 WMT 2014 英法任务上，它达到 41.0 BLEU，以远低于此前模型的训练成本确立了新的单模型最先进水平。&lt;br /&gt;
&lt;br /&gt;
基础模型在 8 张 NVIDIA P100 GPU 上训练约需 12 小时，大型模型在相同硬件上需要 3.5 天——这仍远少于同期基于 RNN 的架构达到可比性能所需的时间。&lt;br /&gt;
&lt;br /&gt;
消融实验表明，多头注意力优于单头注意力，缩放因子对于较大的键维度十分重要，而可学习的位置 embedding 与正弦位置编码的表现相当。&lt;br /&gt;
&lt;br /&gt;
== 影响 ==&lt;br /&gt;
&lt;br /&gt;
Transformer 架构从根本上重塑了深度学习与自然语言处理的格局。它成为后续几乎所有大语言模型的基础，包括 BERT、GPT、T5 及其后继者。除自然语言处理之外，该架构还被应用于计算机视觉（Vision Transformer）、语音识别、蛋白质结构预测（AlphaFold 2）以及许多其他领域。&lt;br /&gt;
&lt;br /&gt;
该论文的标题——“Attention Is All You Need”——成为机器学习领域最具辨识度的表述之一，其提出的架构被誉为 2010 年代对人工智能最具影响力的贡献之一。截至 2026 年，Transformer 仍是各种模态下大规模神经网络模型的主导架构。&lt;br /&gt;
&lt;br /&gt;
原始论文已累积超过 10 万次引用，是计算机科学史上被引用最多的著作之一。八位共同作者后来分别创立或共同创立了多家人工智能公司，反映了 Transformer 这一发明所带来的巨大商业价值。&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
&lt;br /&gt;
* [[BERT Pre-training of Deep Bidirectional Transformers]]&lt;br /&gt;
* [[Language Models are Few-Shot Learners]]&lt;br /&gt;
* [[Efficient Estimation of Word Representations]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&lt;br /&gt;
* Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., 与 Polosukhin, I. (2017). Attention Is All You Need. &amp;#039;&amp;#039;Advances in Neural Information Processing Systems 30 (NeurIPS 2017)&amp;#039;&amp;#039;. [https://arxiv.org/abs/1706.03762 arXiv:1706.03762]&lt;br /&gt;
* Bahdanau, D., Cho, K., 与 Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. &amp;#039;&amp;#039;ICLR 2015&amp;#039;&amp;#039;.&lt;br /&gt;
* Wu, Y., Schuster, M., Chen, Z., Le, Q. V., et al. (2016). Google&amp;#039;s Neural Machine Translation System. &amp;#039;&amp;#039;arXiv:1609.08144&amp;#039;&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
[[Category:NLP]] [[Category:Research]] [[Category:Research Papers]]&lt;/div&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>