Attention Is All You Need/zh

Research Paper
Authors	Ashish Vaswani; Noam Shazeer; Niki Parmar; Jakob Uszkoreit; Llion Jones; Aidan N. Gomez; Lukasz Kaiser; Illia Polosukhin
Year	2017
Venue	NeurIPS
Topic area	NLP
Difficulty	Research
arXiv	1706.03762
PDF	Download PDF

This page is a translated version of the page Attention Is All You Need and the translation is 100% complete.

Other languages:

English
Español
中文

Attention Is All You Need是 Vaswani 等人于 2017 年发表的里程碑式论文，提出了Transformer架构——一种完全基于注意力机制的新型神经网络设计。该论文证明，此前被认为对序列到序列任务必不可少的循环层与卷积层，可以由自注意力（self-attention）取而代之，从而获得更优的性能和大幅提升的训练效率。

概述

在 Transformer 出现之前，主流的序列转换模型依赖循环神经网络（RNN），尤其是 LSTM 和 GRU，并通常辅以注意力机制。这些架构按顺序处理 token，形成了一个根本性的瓶颈，使训练无法并行化。Transformer 通过完全依靠注意力来捕捉输入与输出序列之间的全局依赖关系，消除了这一限制，实现了远更高的并行度，并将当时硬件上的训练时间从数天缩短到数小时。

该模型在 WMT 2014 共享任务的英德和英法翻译基准上进行了评估，取得了新的最先进 BLEU 分数，同时所需的训练计算量远低于同期竞争模型。

主要贡献

提出 Transformer，第一个完全基于注意力、不含循环或卷积的序列转换模型。
缩放点积注意力（scaled dot-product attention）机制以及多头注意力（multi-head attention），使模型能够在不同位置同时关注来自不同表示子空间的信息。
使用正弦函数的位置编码，在没有循环的情况下为模型提供 token 顺序信息。
证明仅基于注意力的模型可以在机器翻译上取得最先进的结果，同时具有更好的并行性和更快的训练速度。

方法

Transformer 采用编码器-解码器结构。编码器将输入的符号表示序列映射为连续表示序列，解码器则以自回归方式逐元素生成输出序列。

其核心运算是缩放点积注意力（scaled dot-product attention），定义为：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中 $$ Q $$ 、 $$ K $$ 和 $$ V $$ 分别是查询（queries）、键（keys）和值（values）的矩阵， $$ d_k $$ 是键的维度。缩放因子 $\sqrt{d_k}$ 可防止点积在数值上变得过大，否则会将 softmax 推入梯度极小的区域。

多头注意力（multi-head attention）并行地应用多个注意力函数，每个函数使用不同的可学习线性投影：

$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O$

其中每个 $\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$ 。

编码器由六个相同的层组成，每层包含一个多头自注意力子层，之后是一个按位置作用的前馈（feed-forward）网络，每个子层周围都有残差连接和层归一化（layer normalization）。解码器额外增加了第三个子层，对编码器输出执行多头注意力，并在自注意力中对未来位置进行掩码，以保持自回归特性。

由于模型不含循环结构，需要使用不同频率的正弦函数将位置编码加到输入 embedding 上：

$PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}})$

$PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{\text{model}}})$

结果

在 WMT 2014 英德翻译任务上，大型 Transformer 模型取得了 28.4 的 BLEU 分数，比此前包括集成模型在内的最佳结果高出 2 个 BLEU 点以上。在 WMT 2014 英法任务上，它达到 41.0 BLEU，以远低于此前模型的训练成本确立了新的单模型最先进水平。

基础模型在 8 张 NVIDIA P100 GPU 上训练约需 12 小时，大型模型在相同硬件上需要 3.5 天——这仍远少于同期基于 RNN 的架构达到可比性能所需的时间。

消融实验表明，多头注意力优于单头注意力，缩放因子对于较大的键维度十分重要，而可学习的位置 embedding 与正弦位置编码的表现相当。

影响

Transformer 架构从根本上重塑了深度学习与自然语言处理的格局。它成为后续几乎所有大语言模型的基础，包括 BERT、GPT、T5 及其后继者。除自然语言处理之外，该架构还被应用于计算机视觉（Vision Transformer）、语音识别、蛋白质结构预测（AlphaFold 2）以及许多其他领域。

该论文的标题——“Attention Is All You Need”——成为机器学习领域最具辨识度的表述之一，其提出的架构被誉为 2010 年代对人工智能最具影响力的贡献之一。截至 2026 年，Transformer 仍是各种模态下大规模神经网络模型的主导架构。

原始论文已累积超过 10 万次引用，是计算机科学史上被引用最多的著作之一。八位共同作者后来分别创立或共同创立了多家人工智能公司，反映了 Transformer 这一发明所带来的巨大商业价值。

参见

参考文献

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., 与 Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017). arXiv:1706.03762
Bahdanau, D., Cho, K., 与 Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015.
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., et al. (2016). Google's Neural Machine Translation System. arXiv:1609.08144.