FuzzyBot: Updating to match new version of source page

2026-04-27T07:59:00Z

Updating to match new version of source page

New page

<languages />
{{PaperTabs}}
{{PaperInfobox
| topic_area = NLP
| difficulty = Research
| authors = Yann N. Dauphin; Angela Fan; Michael Auli; David Grangier
| year = 2016
| arxiv_id = 1612.08083
| source_url = https://arxiv.org/abs/1612.08083
| pdf_url = https://arxiv.org/pdf/1612.08083.pdf
}}
{{ContentMeta
| generated_by = claude-code-direct
| model_used = claude-opus-4-7
| generated_date = 2026-04-27
}}

'''Language Modeling with Gated Convolutional Networks''' es un artículo de 2016 de Yann N. Dauphin, Angela Fan, Michael Auli y David Grangier, de Facebook AI Research, que introduce la red neuronal convolucional con compuertas (gated convolutional neural network, GCNN) para el modelado del lenguaje y la activación gated linear unit (GLU). El artículo cuestiona la suposición predominante de que las redes recurrentes son necesarias para alcanzar perplexity de vanguardia en benchmarks de modelado del lenguaje a gran escala, y muestra que una pila convolucional de contexto finito y paralelizable, equipada con compuertas multiplicativas, puede igualar o superar a sólidas líneas base LSTM mientras ejecuta inferencia un orden de magnitud más rápido. Se publicó en ICML 2017.

== Visión general ==

Los modelos estadísticos del lenguaje estiman la probabilidad de una secuencia de tokens factorizándola en un producto de probabilidades condicionales de la siguiente palabra. Hasta 2016, el enfoque neuronal dominante utilizaba redes recurrentes —típicamente LSTMs— cuya fortaleza se atribuía a su contexto efectivo no acotado. Los autores sostienen que esta propiedad no es estrictamente necesaria: una pila convolucional suficientemente profunda puede representar contextos lo bastante grandes para el modelado práctico del lenguaje, y la ausencia de una recurrencia temporal hace que un modelo así sea trivialmente paralelo en la dimensión del tiempo.

La contribución es doble. Primero, una arquitectura: convoluciones causales 1-D apiladas, organizadas en bloques residuales tipo bottleneck con pre-activación y rematadas por una capa de salida adaptive softmax. Segundo, una función de activación: la gated linear unit, que preserva un camino de gradiente lineal sin renunciar a la capacidad de las compuertas para modular el flujo de información. La combinación produce una convergencia y una perplexity final que se comparan favorablemente con líneas base LSTM cuidadosamente ajustadas, y lo hace con una latencia de inferencia notablemente menor.

== Contribuciones principales ==

* Propone la '''Gated Linear Unit (GLU)''', una activación multiplicativa en la que una convolución lineal es modulada por la sigmoide de una convolución paralela, lo que produce un camino de gradiente lineal que no se desvanece.
* Introduce la '''Gated Convolutional Network (GCNN)''' —convoluciones causales 1-D apiladas con bloques residuales bottleneck y adaptive softmax— como el primer modelo no recurrente competitivo con los LSTMs en modelado del lenguaje a gran escala.
* Alcanza un nuevo estado del arte de modelo único de 37.2 de perplexity en '''WikiText-103''', superando la línea base previa LSTM-1024 con 48.7.
* Establece un nuevo mejor resultado en una sola GPU en el benchmark '''Google Billion Word''' y alcanza 31.9 de perplexity con una configuración de 8 GPUs entrenada durante 2 semanas (frente a 30.6 del LSTM de Jozefowicz et al. entrenado durante 3 semanas en 32 GPUs).
* Demuestra una '''mejora de 20× en responsiveness''' (latencia secuencial por token) frente a un LSTM comparable, aprovechando la estructura paralela de las convoluciones.
* Aporta una comparación empírica controlada de mecanismos de gating, mostrando que GLU supera al GTU basado en tanh de van den Oord et al. (2016), así como a redes con ReLU o Tanh simples.

== Métodos ==

El modelo recibe una secuencia de embeddings de palabras <math>\mathbf{E} = [\mathbf{D}_{w_0}, \ldots, \mathbf{D}_{w_N}]</math> y la pasa a través de una pila de bloques residuales, cada uno de los cuales calcula la gated linear unit

:<math>h_l(\mathbf{X}) = (\mathbf{X} \ast \mathbf{W} + \mathbf{b}) \otimes \sigma(\mathbf{X} \ast \mathbf{V} + \mathbf{c})</math>

donde <math>\ast</math> es la convolución 1-D a lo largo del eje temporal, <math>\sigma</math> es la sigmoide y <math>\otimes</math> es la multiplicación elemento a elemento. La causalidad se garantiza rellenando con ceros la izquierda de la entrada en <math>k-1</math> posiciones, de modo que el kernel nunca vea tokens futuros. La salida de la pila se alimenta a un '''adaptive softmax''' que asigna más capacidad a las palabras frecuentes, reduciendo drásticamente el coste de la distribución de salida para vocabularios de cientos de miles de tipos.

La elección de la activación es la contribución metodológica central. El gradiente de la GLU,

:<math>\nabla[\mathbf{X} \otimes \sigma(\mathbf{X})] = \nabla\mathbf{X} \otimes \sigma(\mathbf{X}) + \mathbf{X} \otimes \sigma'(\mathbf{X})\nabla\mathbf{X}</math>

contiene un término no atenuado <math>\nabla\mathbf{X} \otimes \sigma(\mathbf{X})</math> para las unidades de gating activas, en contraste con la gated tanh unit (GTU) tipo LSTM, cuyo gradiente se ve escalado tanto por <math>\tanh'</math> como por <math>\sigma'</math> y por tanto se desvanece más rápido con la profundidad. Los autores describen la GLU como una conexión skip multiplicativa: la red sigue pudiendo modular multiplicativamente el flujo de información, pero el camino lineal mantiene los gradientes bien condicionados en pilas profundas.

Arquitectónicamente, cada bloque contiene hasta cinco capas siguiendo un patrón bottleneck con pre-activación (una convolución más ancha con <math>k>1</math> intercalada entre dos proyecciones <math>k=1</math>) y se envuelve en una suma residual. Los modelos del artículo van de 8 a 14 bloques, con anchos ocultos de 800–2048 y tamaños de embedding de 128–280. El entrenamiento usa momento de Nesterov con momento 0.99, gradient clipping a 0.1, weight normalization, inicialización de Kaiming y tasas de aprendizaje entre 1.0 y 2.0. El uso de gradient clipping —usualmente motivado por la explosión del gradiente recurrente— se justifica aquí desde la perspectiva de los métodos de región de confianza y acelera notablemente el entrenamiento. La implementación es en Torch sobre GPUs Tesla M40, y los modelos más grandes se entrenan en 8 GPUs mediante SGD síncrono con paralelismo de datos.

== Resultados ==

En el benchmark '''Google Billion Word''', el GCNN-13 alcanza 38.1 de perplexity de prueba en una sola GPU, superando al LSTM-2048 comparable con 39.8. Escalado a 8 GPUs, el GCNN-14 Bottleneck alcanza 31.9 de perplexity, acercándose a 30.6 del LSTM-8192-1024 de 2 capas, mucho mayor, de Jozefowicz et al., requiriendo aproximadamente un tercio del tiempo de GPU. En '''WikiText-103''', cuyas entradas son párrafos completos de Wikipedia con un promedio de 4000 tokens, el GCNN-14 logra 37.2 de perplexity, una mejora sustancial sobre la línea base LSTM-1024 con 48.7 y el primer estado del arte no recurrente en este benchmark. El modelo también alcanza 29.4 de perplexity en '''Gigaword''' (frente a 55.6 de una línea base completamente conectada), pero rinde por debajo en el pequeño '''Penn Treebank''', donde los autores observan sobreajuste y concluyen que la arquitectura está mejor adaptada a problemas de gran escala.

En cuanto a eficiencia computacional, un GCNN-8 Bottleneck iguala el throughput de un LSTM-2048 fuertemente optimizado con cuDNN (alrededor de 45,800 tokens/s en GPU) en el mismo punto de operación de 43.9 de perplexity, al tiempo que ofrece 20× mejor responsiveness (latencia secuencial por token), porque cada token puede evaluarse de forma independiente sin esperar a un estado oculto recurrente. La ablación sobre mecanismos de gating muestra que GLU converge más rápido y a una perplexity más baja que GTU, ReLU o Tanh, y que las brechas en las curvas de aprendizaje entre variantes con y sin gating son grandes y consistentes en ambos conjuntos de datos. Aumentar el campo receptivo más allá de aproximadamente 20 tokens de contexto produce rendimientos decrecientes, lo que respalda la afirmación de que los contextos finitos bastan para la mayor parte del modelado práctico del lenguaje.

== Impacto ==

El artículo es una referencia fundacional para el desplazamiento más amplio desde los modelos de secuencias puramente recurrentes. La gated linear unit que introdujo es hoy una activación estándar: GLU y sus variantes —en particular SwiGLU y GeGLU, de la familia analizada por Shazeer (2020)— se utilizan en las subcapas feed-forward de grandes modelos de lenguaje como PaLM, LLaMA y muchos transformers de código abierto, donde superan de forma consistente a la simple ReLU o GeLU en perplexity con el mismo número de parámetros.

El argumento arquitectónico de que modelos paralelizables y de contexto finito pueden competir con los recurrentes también ayudó a despejar el terreno conceptual para el trabajo de sequence-to-sequence convolucional de Gehring et al. (2017) en el mismo laboratorio y, en última instancia, para el '''Transformer''' (Vaswani et al., 2017), que reemplazó tanto la convolución como la recurrencia por self-attention, heredando el argumento de paralelismo y (en muchas variantes posteriores) la activación GLU. Dentro de los pipelines de habla y traducción, la ventaja de latencia fue explotada directamente por sistemas convolucionales y con compuertas posteriores, antes de que los decodificadores basados en attention se volvieran dominantes.

Un legado metodológico secundario es la nítida separación que el artículo hace entre '''throughput''' (tokens por segundo bajo batching) y '''responsiveness''' (latencia secuencial por token). Esta distinción se ha vuelto desde entonces un estándar al evaluar modelos de secuencia para despliegue en producción, donde un modelo con el mismo throughput de entrenamiento que una línea base puede, no obstante, resultar inutilizable si no logra decodificar una sola secuencia con la rapidez suficiente.

== Véase también ==

* [[Long short-term memory]]
* [[Convolutional neural network]]
* [[Recurrent neural network]]
* [[Language model]]
* [[Transformer (machine learning model)]]
* [[Attention Is All You Need]]
* [[WikiText-103]]

== Referencias ==

* Dauphin, Y. N.; Fan, A.; Auli, M.; Grangier, D. (2017). "Language Modeling with Gated Convolutional Networks". ''Proceedings of the 34th International Conference on Machine Learning'' (ICML).
* Jozefowicz, R.; Vinyals, O.; Schuster, M.; Shazeer, N.; Wu, Y. (2016). "Exploring the Limits of Language Modeling".
* Chelba, C. ''et al.'' (2013). "One Billion Word Benchmark for Measuring Progress in Statistical Language Modeling".
* Merity, S.; Xiong, C.; Bradbury, J.; Socher, R. (2016). "Pointer Sentinel Mixture Models" (introduce el corpus WikiText-103).
* van den Oord, A. ''et al.'' (2016). "Conditional Image Generation with PixelCNN Decoders" (la línea base de gated tanh unit tipo LSTM).
* Grave, E.; Joulin, A.; Cissé, M.; Grangier, D.; Jégou, H. (2017). "Efficient Softmax Approximation for GPUs" (adaptive softmax).
* Gehring, J.; Auli, M.; Grangier, D.; Yarats, D.; Dauphin, Y. N. (2017). "Convolutional Sequence to Sequence Learning".
* Vaswani, A. ''et al.'' (2017). "Attention Is All You Need".
* Shazeer, N. (2020). "GLU Variants Improve Transformer" (análisis posterior de las activaciones de la familia GLU en las capas feed-forward de los transformers).
* Hochreiter, S.; Schmidhuber, J. (1997). "Long Short-Term Memory". ''Neural Computation'' 9(8): 1735–1780.

[[Category:NLP]]
[[Category:Research]]
[[Category:Research Papers]]

Language Modeling with Gated Convolutional Networks/es - Revision history

FuzzyBot: Updating to match new version of source page