DeployBot: Batch translate Language Models are Few-Shot Learners unit 23 -> es

2026-04-27T04:12:41Z

Batch translate Language Models are Few-Shot Learners unit 23 -> es

New page

<languages />
{{LanguageBar | page = Language Models are Few-Shot Learners}}

{{PaperInfobox
| topic_area = NLP
| difficulty = Research
| authors = Tom B. Brown; Benjamin Mann; Nick Ryder; Melanie Subbiah; Jared Kaplan; Prafulla Dhariwal; Arvind Neelakantan; Pranav Shyam; Girish Sastry; Amanda Askell; Sandhini Agarwal; Ariel Herbert-Voss; Gretchen Krueger; Tom Henighan; Rewon Child; Aditya Ramesh; Daniel M. Ziegler; Jeffrey Wu; Clemens Winter; Christopher Hesse; Mark Chen; Eric Sigler; Mateusz Litwin; Scott Gray; Benjamin Chess; Jack Clark; Christopher Berner; Sam McCandlish; Alec Radford; Ilya Sutskever; Dario Amodei
| year = 2020
| venue = NeurIPS
| arxiv_id = 2005.14165
| source_url = https://arxiv.org/abs/2005.14165
| pdf_url = https://arxiv.org/pdf/2005.14165
}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''Language Models are Few-Shot Learners''' es un artículo de 2020 de Brown et al. de OpenAI que presentó '''GPT-3''', un modelo de lenguaje autorregresivo con 175 mil millones de parámetros. El artículo demostró que los modelos de lenguaje suficientemente grandes pueden realizar una amplia variedad de tareas de PLN mediante el '''aprendizaje en contexto''' (in-context learning), simplemente condicionándose con unos pocos ejemplos proporcionados en el prompt, sin actualizaciones de gradiente ni ajuste fino.

== Resumen ==

El paradigma dominante en PLN en aquella época implicaba preentrenar un modelo en grandes corpus y luego realizar ajuste fino sobre conjuntos de datos etiquetados específicos para cada tarea. Aunque eficaz, este enfoque requería conjuntos de datos curados para cada nueva tarea, introducía la posibilidad de correlaciones espurias con distribuciones de entrenamiento estrechas y no se correspondía con la forma en que los humanos aprenden tareas a partir de instrucciones mínimas.

GPT-3 exploró una alternativa: escalar un modelo de lenguaje autorregresivo a un tamaño sin precedentes y evaluarlo en escenarios zero-shot, one-shot y few-shot, donde el modelo recibe únicamente una descripción en lenguaje natural y posiblemente unos pocos ejemplos de la tarea dentro del prompt de entrada. Los resultados mostraron que la escala por sí sola podía desbloquear capacidades emergentes de aprendizaje few-shot, competitivas con o superiores a los modelos ajustados finamente en muchos benchmarks.

== Contribuciones principales ==

* '''GPT-3''': Un modelo de lenguaje Transformer autorregresivo con 175 mil millones de parámetros, más de 100 veces mayor que GPT-2, entrenado en un corpus diverso de texto de internet.
* '''Aprendizaje en contexto''': Demostración de que los modelos de lenguaje grandes pueden aprender tareas a partir de ejemplos presentados en el prompt sin actualizaciones de parámetros.
* '''Leyes de escalado para el rendimiento few-shot''': Evidencia de que el rendimiento few-shot escala suavemente con el tamaño del modelo a lo largo de tres órdenes de magnitud (de 125M a 175B parámetros).
* Análisis de los impactos sociales y el posible mal uso de los modelos de lenguaje grandes, incluyendo sesgo, equidad y consumo energético.

== Métodos ==

GPT-3 utiliza la misma arquitectura que GPT-2 —un Transformer solo decodificador con prenormalización— pero escalado a 175 mil millones de parámetros distribuidos en 96 capas, con un tamaño oculto de 12.288 y 96 cabezas de atención. En las capas se utilizaron patrones de atención alternantes, densos y dispersos en bandas locales.

El modelo se entrenó con un conjunto de datos filtrado y deduplicado de aproximadamente 570 GB de texto, extraído principalmente de Common Crawl (filtrado por calidad mediante un clasificador entrenado con corpus de referencia de alta calidad), complementado con WebText2, Books1, Books2 y la Wikipedia en inglés. El entrenamiento empleó un tamaño de batch que aumentaba de 32K a 3,2M tokens y una programación de tasa de aprendizaje con calentamiento.

El artículo evaluó tres escenarios de aprendizaje en contexto:

* '''Zero-shot''': El modelo recibe únicamente una instrucción en lenguaje natural que describe la tarea.
* '''One-shot''': El modelo recibe un ejemplo de demostración junto con la instrucción.
* '''Few-shot''': El modelo recibe un pequeño número de ejemplos de demostración (típicamente entre 10 y 100), limitado por la ventana de contexto de 2048 tokens.

En todos los escenarios, el modelo genera respuestas de forma autorregresiva sin actualizaciones de pesos. El rendimiento de la tarea se mide comparando las salidas del modelo con las respuestas esperadas.

== Resultados ==

GPT-3 logró sólidos resultados few-shot en una amplia gama de tareas de PLN:

* '''Traducción''': El GPT-3 few-shot superó a métodos no supervisados anteriores en varios pares de idiomas, aunque se mantuvo por debajo de los sistemas supervisados de vanguardia.
* '''Respuesta a preguntas''': En TriviaQA, el GPT-3 few-shot alcanzó una precisión del 71,2 %, competitiva con modelos ajustados finamente que acceden a sistemas externos de recuperación.
* '''Tareas cloze y de completado''': En LAMBADA, el GPT-3 few-shot logró una precisión del 86,4 %, superando el estado del arte en más de 18 puntos.
* '''SuperGLUE''': El GPT-3 few-shot se aproximó al rendimiento de BERT-Large ajustado finamente en varias tareas, aunque rindió por debajo en algunas en las que el contexto bidireccional resulta crítico.

El rendimiento mejoró de forma consistente con la escala del modelo. La brecha entre el rendimiento zero-shot y few-shot también se amplió con la escala, lo que sugiere que los modelos más grandes son mejores aprovechando los ejemplos en contexto. El artículo entrenó ocho tamaños de modelo, desde 125M hasta 175B parámetros, para establecer estas tendencias de escalado.

GPT-3 también demostró capacidades en aritmética, desordenamiento de palabras y uso de palabras nuevas, lo que sugiere la emergencia de habilidades de razonamiento más generales a una escala suficiente.

== Impacto ==

GPT-3 marcó un punto de inflexión en la investigación y comercialización de la IA. Demostró que la escala podía servir como sustituto de la supervisión específica para cada tarea, catalizando el desarrollo de modelos de lenguaje aún mayores y el paradigma del "modelo fundacional". El artículo condujo directamente a la creación de la GPT API, uno de los primeros servicios de modelos de lenguaje grandes ampliamente disponibles, que dio origen a un ecosistema de aplicaciones construidas sobre el aprendizaje en contexto y la ingeniería de prompts.

El análisis del artículo sobre los impactos sociales —incluyendo la amplificación de sesgos, el potencial para usos indebidos en la generación de desinformación y los costos ambientales del entrenamiento— ayudó a establecer la divulgación responsable de la IA como una norma en las publicaciones de modelos grandes. Las leyes de escalado que demostró influyeron en direcciones de investigación posteriores, incluyendo el análisis de escalado de Chinchilla y los esfuerzos hacia un entrenamiento más eficiente computacionalmente.

El concepto de aprendizaje en contexto introducido por GPT-3 cambió fundamentalmente la forma en que los profesionales interactúan con los modelos de lenguaje. En lugar de entrenar modelos especializados para cada tarea, los usuarios podían ahora escribir prompts en lenguaje natural para inducir el comportamiento deseado, una práctica que evolucionó hasta convertirse en el campo de la ingeniería de prompts. Este cambio redujo la barrera para el desarrollo de aplicaciones de IA y permitió a personas no expertas aprovechar los modelos de lenguaje grandes para una amplia variedad de tareas.

El costo de entrenamiento de GPT-3, estimado en varios millones de dólares, también suscitó debates importantes sobre la concentración de capacidades de IA en organizaciones bien financiadas y la huella ambiental del entrenamiento de modelos a gran escala.

La evaluación exhaustiva del artículo a través de docenas de benchmarks estableció un nuevo estándar sobre cómo se evalúan los modelos de lenguaje grandes, yendo más allá de las clasificaciones de tareas individuales hacia evaluaciones amplias de capacidades que caracterizan mejor la inteligencia general de un modelo.

== Véase también ==

* [[Attention Is All You Need]]
* [[BERT Pre-training of Deep Bidirectional Transformers]]
* [[Efficient Estimation of Word Representations]]

== Referencias ==

* Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. ''Advances in Neural Information Processing Systems 33 (NeurIPS 2020)''. [https://arxiv.org/abs/2005.14165 arXiv:2005.14165]
* Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., y Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. ''OpenAI''.
* Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models. ''arXiv:2001.08361''.

[[Category:NLP]] [[Category:Research]] [[Category:Research Papers]]

Language Models are Few-Shot Learners/es - Revision history

DeployBot: Batch translate Language Models are Few-Shot Learners unit 23 -> es