Attention Is All You Need/zh

Research Paper
Authors	Ashish Vaswani; Noam Shazeer; Niki Parmar; Jakob Uszkoreit; Llion Jones; Aidan N. Gomez; Lukasz Kaiser; Illia Polosukhin
Year	2017
Venue	NeurIPS
Topic area	NLP
Difficulty	Research
arXiv	1706.03762
PDF	Download PDF

Other languages:

English
Español
中文

Attention Is All You Need是 Vaswani 等人於 2017 年發表的里程碑式論文，提出了Transformer架構——一種完全基於注意力機制的新型神經網絡設計。該論文證明，此前被認為對序列到序列任務必不可少的循環層與卷積層，可以由自注意力（self-attention）取而代之，從而獲得更優的性能和大幅提升的訓練效率。

概述

在 Transformer 出現之前，主流的序列轉換模型依賴循環神經網絡（RNN），尤其是 LSTM 和 GRU，並通常輔以注意力機制。這些架構按順序處理 token，形成了一個根本性的瓶頸，使訓練無法並行化。Transformer 通過完全依靠注意力來捕捉輸入與輸出序列之間的全局依賴關係，消除了這一限制，實現了遠更高的並行度，並將當時硬體上的訓練時間從數天縮短到數小時。

該模型在 WMT 2014 共享任務的英德和英法翻譯基準上進行了評估，取得了新的最先進 BLEU 分數，同時所需的訓練計算量遠低於同期競爭模型。

主要貢獻

提出 Transformer，第一個完全基於注意力、不含循環或卷積的序列轉換模型。
縮放點積注意力（scaled dot-product attention）機制以及多頭注意力（multi-head attention），使模型能夠在不同位置同時關注來自不同表示子空間的信息。
使用正弦函數的位置編碼，在沒有循環的情況下為模型提供 token 順序信息。
證明僅基於注意力的模型可以在機器翻譯上取得最先進的結果，同時具有更好的並行性和更快的訓練速度。

方法

Transformer 採用編碼器-解碼器結構。編碼器將輸入的符號表示序列映射為連續表示序列，解碼器則以自回歸方式逐元素生成輸出序列。

其核心運算是縮放點積注意力（scaled dot-product attention），定義為：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中 $$ Q $$ 、 $$ K $$ 和 $$ V $$ 分別是查詢（queries）、鍵（keys）和值（values）的矩陣， $$ d_k $$ 是鍵的維度。縮放因子 $\sqrt{d_k}$ 可防止點積在數值上變得過大，否則會將 softmax 推入梯度極小的區域。

多頭注意力（multi-head attention）並行地應用多個注意力函數，每個函數使用不同的可學習線性投影：

$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O$

其中每個 $\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$ 。

編碼器由六個相同的層組成，每層包含一個多頭自注意力子層，之後是一個按位置作用的前饋（feed-forward）網絡，每個子層周圍都有殘差連接和層歸一化（layer normalization）。解碼器額外增加了第三個子層，對編碼器輸出執行多頭注意力，並在自注意力中對未來位置進行掩碼，以保持自回歸特性。

由於模型不含循環結構，需要使用不同頻率的正弦函數將位置編碼加到輸入 embedding 上：

$PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}})$

$PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{\text{model}}})$

結果

在 WMT 2014 英德翻譯任務上，大型 Transformer 模型取得了 28.4 的 BLEU 分數，比此前包括集成模型在內的最佳結果高出 2 個 BLEU 點以上。在 WMT 2014 英法任務上，它達到 41.0 BLEU，以遠低於此前模型的訓練成本確立了新的單模型最先進水平。

基礎模型在 8 張 NVIDIA P100 GPU 上訓練約需 12 小時，大型模型在相同硬體上需要 3.5 天——這仍遠少於同期基於 RNN 的架構達到可比性能所需的時間。

消融實驗表明，多頭注意力優於單頭注意力，縮放因子對於較大的鍵維度十分重要，而可學習的位置 embedding 與正弦位置編碼的表現相當。

影響

Transformer 架構從根本上重塑了深度學習與自然語言處理的格局。它成為後續幾乎所有大語言模型的基礎，包括 BERT、GPT、T5 及其後繼者。除自然語言處理之外，該架構還被應用於計算機視覺（Vision Transformer）、語音識別、蛋白質結構預測（AlphaFold 2）以及許多其他領域。

該論文的標題——「Attention Is All You Need」——成為機器學習領域最具辨識度的表述之一，其提出的架構被譽為 2010 年代對人工智慧最具影響力的貢獻之一。截至 2026 年，Transformer 仍是各種模態下大規模神經網絡模型的主導架構。

原始論文已累積超過 10 萬次引用，是計算機科學史上被引用最多的著作之一。八位共同作者後來分別創立或共同創立了多家人工智慧公司，反映了 Transformer 這一發明所帶來的巨大商業價值。

參見

參考文獻

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., 與 Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017). arXiv:1706.03762
Bahdanau, D., Cho, K., 與 Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015.
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., et al. (2016). Google's Neural Machine Translation System. arXiv:1609.08144.