Attention Is All You Need/es

Research Paper
Authors	Ashish Vaswani; Noam Shazeer; Niki Parmar; Jakob Uszkoreit; Llion Jones; Aidan N. Gomez; Lukasz Kaiser; Illia Polosukhin
Year	2017
Venue	NeurIPS
Topic area	NLP
Difficulty	Research
arXiv	1706.03762
PDF	Download PDF

This page is a translated version of the page Attention Is All You Need and the translation is 100% complete.

Other languages:

English
Español
中文

Attention Is All You Need es un artículo emblemático de 2017 de Vaswani et al. que introdujo la arquitectura Transformer, un novedoso diseño de red neuronal basado por completo en mecanismos de atención. El artículo demostró que las capas recurrentes y convolucionales, antes consideradas esenciales para tareas de secuencia a secuencia, podían reemplazarse por autoatención, obteniendo un rendimiento superior y una eficiencia de entrenamiento drásticamente mejorada.

Resumen

Antes del Transformer, los modelos dominantes de transducción de secuencias se basaban en redes neuronales recurrentes (RNN), en particular LSTM y GRU, a menudo potenciadas con mecanismos de atención. Estas arquitecturas procesaban los tokens de manera secuencial, creando un cuello de botella fundamental que impedía la paralelización durante el entrenamiento. El Transformer eliminó esta limitación al apoyarse únicamente en la atención para capturar dependencias globales entre las secuencias de entrada y de salida, permitiendo un paralelismo mucho mayor y reduciendo los tiempos de entrenamiento de días a horas en el hardware contemporáneo.

El modelo se evaluó en los benchmarks de traducción inglés-alemán e inglés-francés de la tarea compartida WMT 2014, donde alcanzó nuevas puntuaciones BLEU de vanguardia exigiendo sustancialmente menos cómputo para entrenarse que los modelos competidores.

Contribuciones clave

Introducción del Transformer, el primer modelo de transducción de secuencias basado por completo en atención, sin recurrencia ni convolución.
El mecanismo de atención de producto punto escalada (scaled dot-product attention) y la atención de múltiples cabezas (multi-head attention), que permiten al modelo atender de forma conjunta a información proveniente de distintos subespacios de representación en distintas posiciones.
Codificaciones posicionales mediante funciones sinusoidales, que aportan al modelo información sobre el orden de los tokens sin recurrencia.
Demostración de que los modelos basados solo en atención pueden lograr resultados de vanguardia en traducción automática siendo a la vez más paralelizables y más rápidos de entrenar.

Métodos

El Transformer sigue una estructura codificador-decodificador. El codificador asigna una secuencia de entrada de representaciones simbólicas a una secuencia de representaciones continuas, y el decodificador genera una secuencia de salida elemento por elemento de manera autorregresiva.

La operación central es la atención de producto punto escalada (scaled dot-product attention), definida como:

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

donde $$ Q $$ , $$ K $$ y $$ V $$ son matrices de consultas (queries), claves (keys) y valores (values), respectivamente, y $$ d_k $$ es la dimensionalidad de las claves. El factor de escala $\sqrt{d_k}$ evita que los productos punto crezcan en magnitud, lo que empujaría al softmax a regiones con gradientes extremadamente pequeños.

La atención de múltiples cabezas (multi-head attention) aplica varias funciones de atención en paralelo, cada una con distintas proyecciones lineales aprendidas:

$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O$

donde cada $\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$ .

El codificador consta de seis capas idénticas, cada una con una subcapa de autoatención de múltiples cabezas seguida de una red feed-forward aplicada por posición, con conexiones residuales y normalización de capa alrededor de cada subcapa. El decodificador añade una tercera subcapa que realiza atención de múltiples cabezas sobre la salida del codificador y enmascara las posiciones futuras en la autoatención para preservar la propiedad autorregresiva.

Dado que el modelo no contiene recurrencia, se añaden codificaciones posicionales a los embeddings de entrada utilizando funciones sinusoidales de distintas frecuencias:

$PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}})$

$PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{\text{model}}})$

Resultados

En la tarea de traducción inglés-alemán de WMT 2014, el modelo Transformer grande alcanzó una puntuación BLEU de 28,4, superando los mejores resultados previos, incluidos los ensembles, en más de 2 puntos BLEU. En la tarea inglés-francés de WMT 2014, alcanzó 41,0 BLEU, estableciendo un nuevo estado del arte para un único modelo a una fracción del costo de entrenamiento de los modelos previos.

El modelo base se entrenó en aproximadamente 12 horas en 8 GPUs NVIDIA P100, mientras que el modelo grande requirió 3,5 días en el mismo hardware: aún así, sustancialmente menos de lo que las arquitecturas competidoras basadas en RNN necesitaban para un rendimiento comparable.

Los estudios de ablación mostraron que la atención de múltiples cabezas superaba a la de una sola cabeza, que el factor de escala era importante para dimensiones de clave grandes y que las codificaciones posicionales aprendidas tenían un rendimiento comparable al de las codificaciones sinusoidales.

Impacto

La arquitectura Transformer remodeló de manera fundamental el panorama del aprendizaje profundo y el procesamiento del lenguaje natural. Se convirtió en la base de prácticamente todos los modelos de lenguaje grandes posteriores, incluidos BERT, GPT, T5 y sus sucesores. Más allá del PLN, la arquitectura fue adoptada en visión por computadora (Vision Transformer), reconocimiento del habla, predicción de la estructura de proteínas (AlphaFold 2) y muchos otros dominios.

El título del artículo —«Attention Is All You Need»— se convirtió en una de las frases más reconocibles del aprendizaje automático, y la arquitectura que introdujo ha sido descrita como una de las contribuciones más influyentes a la inteligencia artificial de la década de 2010. A fecha de 2026, el Transformer sigue siendo la arquitectura dominante para los modelos de redes neuronales a gran escala en todas las modalidades.

El artículo original ha acumulado más de 100 000 citas, lo que lo convierte en uno de los trabajos más citados en la historia de la informática. Los ocho coautores pasaron a fundar o cofundar varias empresas de IA, reflejando el enorme valor comercial que se derivó de la invención del Transformer.

Véase también

Referencias

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., y Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017). arXiv:1706.03762
Bahdanau, D., Cho, K., y Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015.
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., et al. (2016). Google's Neural Machine Translation System. arXiv:1609.08144.