DeployBot: Batch translate Attention Is All You Need unit 17 -> zh

2026-04-27T04:10:02Z

Batch translate Attention Is All You Need unit 17 -> zh

New page

<languages />

{{PaperInfobox
| topic_area = NLP
| difficulty = Research
| authors = Ashish Vaswani; Noam Shazeer; Niki Parmar; Jakob Uszkoreit; Llion Jones; Aidan N. Gomez; Lukasz Kaiser; Illia Polosukhin
| year = 2017
| venue = NeurIPS
| arxiv_id = 1706.03762
| source_url = https://arxiv.org/abs/1706.03762
| pdf_url = https://arxiv.org/pdf/1706.03762
}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''Attention Is All You Need'''是 Vaswani 等人于 2017 年发表的里程碑式论文，提出了'''Transformer'''架构——一种完全基于注意力机制的新型神经网络设计。该论文证明，此前被认为对序列到序列任务必不可少的循环层与卷积层，可以由自注意力（self-attention）取而代之，从而获得更优的性能和大幅提升的训练效率。

== 概述 ==

在 Transformer 出现之前，主流的序列转换模型依赖循环神经网络（RNN），尤其是 LSTM 和 GRU，并通常辅以注意力机制。这些架构按顺序处理 token，形成了一个根本性的瓶颈，使训练无法并行化。Transformer 通过完全依靠注意力来捕捉输入与输出序列之间的全局依赖关系，消除了这一限制，实现了远更高的并行度，并将当时硬件上的训练时间从数天缩短到数小时。

该模型在 WMT 2014 共享任务的英德和英法翻译基准上进行了评估，取得了新的最先进 BLEU 分数，同时所需的训练计算量远低于同期竞争模型。

== 主要贡献 ==

* 提出 Transformer，第一个完全基于注意力、不含循环或卷积的序列转换模型。
* '''缩放点积注意力'''（scaled dot-product attention）机制以及'''多头注意力'''（multi-head attention），使模型能够在不同位置同时关注来自不同表示子空间的信息。
* 使用正弦函数的'''位置编码'''，在没有循环的情况下为模型提供 token 顺序信息。
* 证明仅基于注意力的模型可以在机器翻译上取得最先进的结果，同时具有更好的并行性和更快的训练速度。

== 方法 ==

Transformer 采用编码器-解码器结构。编码器将输入的符号表示序列映射为连续表示序列，解码器则以自回归方式逐元素生成输出序列。

其核心运算是'''缩放点积注意力'''（scaled dot-product attention），定义为：

<math>\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V</math>

其中<math>Q</math>、<math>K</math>和<math>V</math>分别是查询（queries）、键（keys）和值（values）的矩阵，<math>d_k</math>是键的维度。缩放因子<math>\sqrt{d_k}</math>可防止点积在数值上变得过大，否则会将 softmax 推入梯度极小的区域。

'''多头注意力'''（multi-head attention）并行地应用多个注意力函数，每个函数使用不同的可学习线性投影：

<math>\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O</math>

其中每个<math>\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)</math>。

编码器由六个相同的层组成，每层包含一个多头自注意力子层，之后是一个按位置作用的前馈（feed-forward）网络，每个子层周围都有残差连接和层归一化（layer normalization）。解码器额外增加了第三个子层，对编码器输出执行多头注意力，并在自注意力中对未来位置进行掩码，以保持自回归特性。

由于模型不含循环结构，需要使用不同频率的正弦函数将'''位置编码'''加到输入 embedding 上：

<math>PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}})</math>

<math>PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{\text{model}}})</math>

== 结果 ==

在 WMT 2014 英德翻译任务上，大型 Transformer 模型取得了 28.4 的 BLEU 分数，比此前包括集成模型在内的最佳结果高出 2 个 BLEU 点以上。在 WMT 2014 英法任务上，它达到 41.0 BLEU，以远低于此前模型的训练成本确立了新的单模型最先进水平。

基础模型在 8 张 NVIDIA P100 GPU 上训练约需 12 小时，大型模型在相同硬件上需要 3.5 天——这仍远少于同期基于 RNN 的架构达到可比性能所需的时间。

消融实验表明，多头注意力优于单头注意力，缩放因子对于较大的键维度十分重要，而可学习的位置 embedding 与正弦位置编码的表现相当。

== 影响 ==

Transformer 架构从根本上重塑了深度学习与自然语言处理的格局。它成为后续几乎所有大语言模型的基础，包括 BERT、GPT、T5 及其后继者。除自然语言处理之外，该架构还被应用于计算机视觉（Vision Transformer）、语音识别、蛋白质结构预测（AlphaFold 2）以及许多其他领域。

该论文的标题——“Attention Is All You Need”——成为机器学习领域最具辨识度的表述之一，其提出的架构被誉为 2010 年代对人工智能最具影响力的贡献之一。截至 2026 年，Transformer 仍是各种模态下大规模神经网络模型的主导架构。

原始论文已累积超过 10 万次引用，是计算机科学史上被引用最多的著作之一。八位共同作者后来分别创立或共同创立了多家人工智能公司，反映了 Transformer 这一发明所带来的巨大商业价值。

== 参见 ==

* [[BERT Pre-training of Deep Bidirectional Transformers]]
* [[Language Models are Few-Shot Learners]]
* [[Efficient Estimation of Word Representations]]

== 参考文献 ==

* Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., 与 Polosukhin, I. (2017). Attention Is All You Need. ''Advances in Neural Information Processing Systems 30 (NeurIPS 2017)''. [https://arxiv.org/abs/1706.03762 arXiv:1706.03762]
* Bahdanau, D., Cho, K., 与 Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ''ICLR 2015''.
* Wu, Y., Schuster, M., Chen, Z., Le, Q. V., et al. (2016). Google's Neural Machine Translation System. ''arXiv:1609.08144''.

[[Category:NLP]] [[Category:Research]] [[Category:Research Papers]]

Attention Is All You Need/zh - Revision history

DeployBot: Batch translate Attention Is All You Need unit 17 -> zh