DeployBot: Batch translate BERT Pre-training of Deep Bidirectional Transformers unit 17 -> es

2026-04-27T04:27:42Z

Batch translate BERT Pre-training of Deep Bidirectional Transformers unit 17 -> es

New page

<languages />

{{PaperInfobox
| topic_area = NLP
| difficulty = Research
| authors = Jacob Devlin; Ming-Wei Chang; Kenton Lee; Kristina Toutanova
| year = 2019
| venue = NAACL
| arxiv_id = 1810.04805
| source_url = https://arxiv.org/abs/1810.04805
| pdf_url = https://arxiv.org/pdf/1810.04805
}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding''' es un artículo de 2019 de Devlin et al. de Google AI Language que presentó '''BERT''' (Bidirectional Encoder Representations from Transformers), un método para el pre-entrenamiento de representaciones lingüísticas bidireccionales profundas. BERT revolucionó el PLN al demostrar que un único modelo pre-entrenado podía someterse a fine-tuning para alcanzar resultados de vanguardia en una amplia gama de tareas posteriores con modificaciones mínimas de arquitectura específicas para cada tarea.

== Visión general ==

Antes de BERT, las representaciones lingüísticas pre-entrenadas eran o bien unidireccionales (como GPT, que lee de izquierda a derecha) o bien usaban una concatenación superficial de modelos entrenados independientemente de izquierda a derecha y de derecha a izquierda (como ELMo). Estos enfoques eran subóptimos porque los modelos de lenguaje estándar son intrínsecamente unidireccionales, lo que impide que los tokens atiendan al contexto en ambos lados simultáneamente.

BERT abordó esta limitación introduciendo un objetivo de pre-entrenamiento novedoso —el '''modelado de lenguaje enmascarado''' (MLM)— que permite un pre-entrenamiento genuinamente bidireccional. Combinado con una tarea de '''predicción de la siguiente oración''' (NSP), BERT aprendió representaciones contextuales ricas que podían transferirse a tareas posteriores mediante un simple fine-tuning, eliminando la necesidad de arquitecturas específicas para cada tarea.

== Contribuciones clave ==

* '''Modelado de lenguaje enmascarado''' (MLM): Un objetivo de pre-entrenamiento que enmascara aleatoriamente tokens de entrada y entrena al modelo para predecirlos a partir del contexto bidireccional, permitiendo el aprendizaje genuino de representaciones bidireccionales.
* '''Predicción de la siguiente oración''' (NSP): Una tarea de pre-entrenamiento de clasificación binaria que enseña al modelo a comprender las relaciones entre pares de oraciones.
* Un '''paradigma de fine-tuning''' simple y efectivo: añadir una única capa de salida al modelo pre-entrenado basta para una amplia variedad de tareas de PLN, desde la clasificación hasta la respuesta a preguntas.
* Demostración de que el pre-entrenamiento bidireccional profundo es de importancia crítica para aprender representaciones lingüísticas de propósito general.

== Métodos ==

BERT utiliza la parte del codificador de la arquitectura Transformer. El modelo toma una secuencia de tokens como entrada y produce un embedding contextualizado para cada token. Se publicaron dos tamaños de modelo: BERT-Base (12 capas, 768 unidades ocultas, 12 cabezales de attention, 110M de parámetros) y BERT-Large (24 capas, 1024 unidades ocultas, 16 cabezales de attention, 340M de parámetros).

El objetivo de '''modelado de lenguaje enmascarado''' funciona enmascarando aleatoriamente el 15% de los tokens de entrada. De estas posiciones enmascaradas, el 80% se reemplaza con el token [MASK], el 10% con un token aleatorio y el 10% se deja sin cambios. El modelo predice el token original en cada posición enmascarada utilizando una pérdida de entropía cruzada:

<math>L_{\text{MLM}} = -\sum_{i \in \mathcal{M}} \log P(x_i \mid \mathbf{x}_{\backslash \mathcal{M}})</math>

donde <math>\mathcal{M}</math> es el conjunto de posiciones enmascaradas y <math>\mathbf{x}_{\backslash \mathcal{M}}</math> representa la entrada corrompida.

Para la '''predicción de la siguiente oración''', el modelo recibe pares de oraciones (A y B) y predice si B es la verdadera oración siguiente a A en el corpus, o una oración muestreada aleatoriamente. Un token especial [CLS] al inicio de la entrada captura la representación agregada de la secuencia que se utiliza para esta clasificación binaria.

La representación de entrada combina embeddings de tokens, embeddings de segmento (que indican la oración A o B) y embeddings posicionales. BERT utiliza tokenización WordPiece con un vocabulario de 30.000 tokens.

El pre-entrenamiento utilizó el BooksCorpus (800M de palabras) y la Wikipedia en inglés (2.500M de palabras), ejecutándose durante 1M de pasos con un batch de 256 secuencias. El cómputo total de pre-entrenamiento fue considerable para su época, requiriendo cuatro días en 4 a 16 Cloud TPUs (para Base y Large respectivamente).

El fine-tuning es directo: para cada tarea posterior, se conectan al modelo pre-entrenado entradas y salidas específicas de la tarea, y todos los parámetros se ajustan de extremo a extremo. Para tareas a nivel de token, como el reconocimiento de entidades nombradas, el vector oculto final de cada token se introduce en una capa de clasificación. Para tareas a nivel de secuencia, como el análisis de sentimientos, se utiliza la representación del token [CLS].

== Resultados ==

BERT alcanzó resultados de vanguardia en once benchmarks de PLN en el momento de su publicación:

* '''Benchmark GLUE''': BERT-Large alcanzó una puntuación promedio de 80,5, una mejora de 7,7 puntos sobre el estado del arte anterior.
* '''SQuAD v1.1''' (respuesta a preguntas): puntuación F1 de 93,2, superando el rendimiento humano (91,2 F1).
* '''SQuAD v2.0''': puntuación F1 de 83,1, una mejora de 5,1 puntos sobre los sistemas previos.
* '''SWAG''' (razonamiento de sentido común): 86,3% de exactitud, superando el rendimiento de expertos humanos (85,0%).

Los estudios de ablación demostraron que ambas tareas de pre-entrenamiento eran importantes, y que la bidireccionalidad era el factor más significativo: eliminarla provocaba grandes caídas en todas las tareas. Aumentar el tamaño del modelo mejoraba los resultados de manera consistente, incluso en tareas a pequeña escala cuando se realizaba un fine-tuning apropiado.

El artículo también mostró que las representaciones de BERT podían utilizarse como extractores de características fijos (sin fine-tuning) y aun así obtener resultados sólidos, aunque el fine-tuning superaba consistentemente al enfoque basado en características.

== Impacto ==

BERT catalizó un cambio de paradigma en el PLN hacia la metodología de "pre-entrenar y luego fine-tuning". Generó una extensa familia de modelos derivados, entre ellos RoBERTa (que mejoró el pre-entrenamiento), ALBERT (variante eficiente en parámetros), DistilBERT (destilación de conocimiento) y variantes específicas de dominio como BioBERT y SciBERT. El enfoque también influyó en modelos multimodales y en representaciones translingüísticas a través de modelos como mBERT y XLM.

BERT demostró que el pre-entrenamiento no supervisado a gran escala podía transferir efectivamente conocimiento lingüístico a las tareas posteriores, reduciendo la necesidad de datos etiquetados y de ingeniería específicos para cada tarea. Este paradigma de pre-entrenar y luego hacer fine-tuning sigue siendo fundamental en la práctica moderna del PLN.

El artículo recibió más de 100.000 citas en sus primeros cinco años y es uno de los trabajos más citados en informática. Google integró BERT en su motor de búsqueda en 2019, marcando una de las mayores implementaciones de un modelo neuronal de lenguaje para la recuperación de información. La influencia del modelo se extiende más allá del ámbito académico hacia una amplia adopción industrial, donde los sistemas basados en BERT impulsan búsquedas, moderación de contenido, atención al cliente y muchas otras aplicaciones.

== Véase también ==

* [[Attention Is All You Need]]
* [[Language Models are Few-Shot Learners]]
* [[Efficient Estimation of Word Representations]]

== Referencias ==

* Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ''Proceedings of NAACL-HLT 2019''. [https://arxiv.org/abs/1810.04805 arXiv:1810.04805]
* Peters, M. E., Neumann, M., Iyyer, M., et al. (2018). Deep Contextualized Word Representations. ''NAACL 2018''.
* Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. ''OpenAI''.

[[Category:NLP]] [[Category:Research]] [[Category:Research Papers]]

BERT Pre-training of Deep Bidirectional Transformers/es - Revision history

DeployBot: Batch translate BERT Pre-training of Deep Bidirectional Transformers unit 17 -> es