This page is a translated version of the page Language Models are Few-Shot Learners/paper and the translation is 100% complete.

Other languages:

SummarySource

Language Models are Few-Shot Learners

Research Paper
Authors	Tom B. Brown; Benjamin Mann; Nick Ryder; Melanie Subbiah; Jared Kaplan; Prafulla Dhariwal; Arvind Neelakantan; Pranav Shyam; Girish Sastry; Amanda Askell; Sandhini Agarwal; Ariel Herbert-Voss; Gretchen Krueger; Tom Henighan; Rewon Child; Aditya Ramesh; Daniel M. Ziegler; Jeffrey Wu; Clemens Winter; Christopher Hesse; Mark Chen; Eric Sigler; Mateusz Litwin; Scott Gray; Benjamin Chess; Jack Clark; Christopher Berner; Sam McCandlish; Alec Radford; Ilya Sutskever; Dario Amodei
Year	2020
Topic area	NLP
Difficulty	Research
arXiv	2005.14165
PDF	Download PDF

Tom B. Brown Benjamin Mann¹¹footnotemark: 1 Nick Ryder¹¹footnotemark: 1 Melanie Subbiah¹¹footnotemark: 1 Jared Kaplan Prafulla Dhariwal Arvind Neelakantan Pranav Shyam Girish Sastry Amanda Askell Sandhini Agarwal Ariel Herbert-Voss Gretchen Krueger Tom Henighan Rewon Child Aditya Ramesh Daniel M. Ziegler Jeffrey Wu Clemens Winter Christopher Hesse Mark Chen Eric Sigler Mateusz Litwin Scott Gray Benjamin Chess Jack Clark Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei
OpenAI Aporte equivalenteJohns Hopkins University, OpenAI

Aportes de los autores listados al final del artículo. (2020)

Resumen

Trabajos recientes han demostrado avances sustanciales en muchas tareas y benchmarks de PLN mediante preentrenamiento en un gran corpus de texto seguido de ajuste fino en una tarea específica. Aunque esta metodología suele ser agnóstica de tarea en cuanto a arquitectura, todavía requiere conjuntos de datos de ajuste fino específicos de la tarea con miles o decenas de miles de ejemplos. Por contraste, los humanos generalmente pueden realizar una nueva tarea lingüística a partir de solo unos pocos ejemplos o instrucciones simples — algo con lo que los sistemas actuales de PLN aún tienen serias dificultades. Aquí mostramos que escalar los modelos de lenguaje mejora enormemente el rendimiento few-shot agnóstico de tarea, llegando a veces incluso a ser competitivo con los métodos previos de ajuste fino de última generación. Específicamente, entrenamos GPT-3, un modelo de lenguaje autorregresivo con 175 mil millones de parámetros, 10 veces más que cualquier modelo de lenguaje no disperso anterior, y evaluamos su rendimiento en el régimen few-shot. Para todas las tareas, GPT-3 se aplica sin actualizaciones de gradiente ni ajuste fino, con las tareas y demostraciones few-shot especificadas puramente mediante interacción de texto con el modelo. GPT-3 alcanza un rendimiento sólido en muchos conjuntos de datos de PLN, incluidos traducción, respuesta a preguntas y tareas de tipo cloze, así como diversas tareas que requieren razonamiento sobre la marcha o adaptación de dominio, como descifrar palabras, usar una palabra novedosa en una oración o efectuar aritmética de tres dígitos. Al mismo tiempo, también identificamos algunos conjuntos de datos donde el aprendizaje few-shot de GPT-3 aún tiene dificultades, así como algunos conjuntos de datos donde GPT-3 enfrenta problemas metodológicos relacionados con el entrenamiento sobre grandes corpus web. Finalmente, encontramos que GPT-3 puede generar muestras de artículos de noticias que los evaluadores humanos tienen dificultad para distinguir de artículos escritos por humanos. Discutimos los impactos sociales más amplios de este hallazgo y de GPT-3 en general.

Índice

1 Introducción
2 Enfoque
3 Resultados
4 Medición y prevención de la memorización de benchmarks
5 Limitaciones
6 Impactos más amplios
7 Trabajo relacionado
8 Conclusión
A Detalles del filtrado de Common Crawl
B Detalles del entrenamiento del modelo
C Detalles de los estudios de contaminación del conjunto de prueba
D Cómputo total empleado para entrenar los modelos de lenguaje
E Evaluación humana de la calidad de los artículos sintéticos de noticias
F Muestras adicionales de GPT-3
G Detalles del enunciado y especificación de las tareas
H Resultados en todas las tareas para todos los tamaños de modelo

1 Introducción

En los últimos años se ha consolidado una tendencia hacia las representaciones de lenguaje preentrenadas en sistemas de PLN, aplicadas de formas cada vez más flexibles y agnósticas de tarea para la transferencia downstream. Primero se aprendieron representaciones de una sola capa mediante vectores de palabra [82, 102] y se alimentaron a arquitecturas específicas de tarea; después se utilizaron RNN con múltiples capas de representaciones y estado contextual para formar representaciones más fuertes [24, 81, 100] (aunque seguían aplicándose a arquitecturas específicas de tarea); y más recientemente los modelos de lenguaje recurrentes preentrenados o de tipo transformer [134] se han ajustado finamente de manera directa, eliminando por completo la necesidad de arquitecturas específicas de tarea [112, 20, 43].

Este último paradigma ha permitido un progreso sustancial en muchas tareas desafiantes de PLN como comprensión lectora, respuesta a preguntas, implicación textual y muchas otras, y ha continuado avanzando con base en nuevas arquitecturas y algoritmos [116, 74, 139, 62]. Sin embargo, una limitación importante de este enfoque es que, aunque la arquitectura sea agnóstica de tarea, sigue habiendo necesidad de conjuntos de datos específicos de tarea y de ajuste fino específico de tarea: alcanzar un rendimiento sólido en una tarea deseada normalmente requiere ajuste fino sobre un conjunto de datos con miles a cientos de miles de ejemplos específicos de esa tarea. Eliminar esta limitación sería deseable por varias razones.

Primero, desde una perspectiva práctica, la necesidad de un gran conjunto de datos etiquetados para cada nueva tarea limita la aplicabilidad de los modelos de lenguaje. Existe una gama muy amplia de posibles tareas lingüísticas útiles, desde corregir gramática hasta generar ejemplos de un concepto abstracto o criticar un cuento corto. Para muchas de estas tareas resulta difícil reunir un gran conjunto de datos de entrenamiento supervisado, especialmente cuando el proceso debe repetirse para cada nueva tarea.

Segundo, el potencial para explotar correlaciones espurias en los datos de entrenamiento crece fundamentalmente con la expresividad del modelo y la estrechez de la distribución de entrenamiento. Esto puede generar problemas para el paradigma de preentrenamiento más ajuste fino, donde los modelos se diseñan grandes para absorber información durante el preentrenamiento, pero luego se ajustan finamente sobre distribuciones de tarea muy estrechas. Por ejemplo, [41] observa que los modelos más grandes no necesariamente generalizan mejor fuera de la distribución. Hay evidencia que sugiere que la generalización lograda bajo este paradigma puede ser pobre porque el modelo se especializa demasiado en la distribución de entrenamiento y no generaliza bien fuera de ella [138, 88]. Así, el rendimiento de los modelos ajustados finamente en benchmarks específicos, aun cuando nominalmente alcance nivel humano, podría sobreestimar el rendimiento real en la tarea subyacente [36, 91].

Tercero, los humanos no requieren grandes conjuntos de datos supervisados para aprender la mayoría de tareas lingüísticas — una breve indicación en lenguaje natural (p. ej. «por favor, dime si esta oración describe algo alegre o algo triste») o, a lo sumo, un número muy pequeño de demostraciones (p. ej. «aquí tienes dos ejemplos de personas actuando con valentía; por favor, dame un tercer ejemplo de valentía») suele bastar para que un humano realice una nueva tarea con al menos un grado razonable de competencia. Más allá de señalar una limitación conceptual de nuestras técnicas actuales de PLN, esta adaptabilidad ofrece ventajas prácticas: permite a los humanos mezclar o alternar sin esfuerzo entre muchas tareas y habilidades, por ejemplo realizar sumas durante un diálogo prolongado. Para ser ampliamente útiles, algún día querríamos que nuestros sistemas de PLN tuvieran esta misma fluidez y generalidad.

Una posible vía para abordar estos problemas es el meta-aprendizaje¹¹1En el contexto de los modelos de lenguaje a esto a veces se le ha llamado «transferencia zero-shot», pero este término es potencialmente ambiguo: el método es «zero-shot» en el sentido de que no se realizan actualizaciones de gradiente, pero a menudo implica proporcionar demostraciones al modelo en tiempo de inferencia, por lo que no está realmente aprendiendo desde cero ejemplos. Para evitar esta confusión, usamos el término «meta-aprendizaje» para capturar la estructura de bucle interno / bucle externo del método general, y el término «aprendizaje en contexto» (in-context learning) para referirnos al bucle interno del meta-aprendizaje. Especializamos además la descripción a «zero-shot», «one-shot» o «few-shot» según cuántas demostraciones se proporcionen en tiempo de inferencia. Estos términos pretenden permanecer agnósticos respecto a la cuestión de si el modelo aprende nuevas tareas desde cero en tiempo de inferencia o simplemente reconoce patrones vistos durante el entrenamiento — un asunto importante que discutimos más adelante en el artículo, pero «meta-aprendizaje» pretende abarcar ambas posibilidades y se limita a describir la estructura de bucle interno-externo. — que en el contexto de los modelos de lenguaje significa que el modelo desarrolla un amplio repertorio de habilidades y capacidades de reconocimiento de patrones durante el entrenamiento, y luego utiliza esas habilidades en tiempo de inferencia para adaptarse rápidamente a la tarea deseada o reconocerla (ilustrado en la Figura 1.1). Trabajos recientes [117] intentan hacer esto mediante lo que llamamos «aprendizaje en contexto» (in-context learning), usando la entrada de texto de un modelo de lenguaje preentrenado como una forma de especificación de tarea: el modelo se condiciona con una instrucción en lenguaje natural y/o unas pocas demostraciones de la tarea, y luego se espera que complete instancias adicionales de la tarea simplemente prediciendo lo que viene a continuación.

Aunque ha mostrado una promesa inicial, este enfoque aún arroja resultados muy inferiores al ajuste fino — por ejemplo, [117] alcanza solo el 4% en Natural Questions, e incluso su resultado de 55 F1 en CoQa queda hoy a más de 35 puntos del estado del arte. El meta-aprendizaje requiere claramente una mejora sustancial para resultar viable como método práctico para resolver tareas lingüísticas.

Otra tendencia reciente en el modelado de lenguaje puede ofrecer una vía a seguir. En los últimos años, la capacidad de los modelos de lenguaje basados en transformer ha crecido sustancialmente, desde 100 millones de parámetros [112], a 300 millones de parámetros [20], a 1.500 millones de parámetros [117], a 8 mil millones de parámetros [125], 11 mil millones de parámetros [116], y finalmente 17 mil millones de parámetros [132]. Cada incremento ha traído mejoras en la síntesis de texto y/o en tareas de PLN downstream, y existe evidencia que sugiere que la log loss, que correlaciona bien con muchas tareas downstream, sigue una tendencia suave de mejora con la escala [57]. Dado que el aprendizaje en contexto implica absorber muchas habilidades y tareas dentro de los parámetros del modelo, es plausible que las capacidades de aprendizaje en contexto muestren ganancias similarmente fuertes con la escala.

En este artículo, ponemos a prueba esta hipótesis entrenando un modelo de lenguaje autorregresivo de 175 mil millones de parámetros, al que llamamos GPT-3, y midiendo sus capacidades de aprendizaje en contexto. Específicamente, evaluamos GPT-3 en más de dos docenas de conjuntos de datos de PLN, así como en varias tareas novedosas diseñadas para evaluar la adaptación rápida a tareas que es poco probable que estén directamente contenidas en el conjunto de entrenamiento. Para cada tarea, evaluamos GPT-3 bajo 3 condiciones: (a) «few-shot learning», o aprendizaje en contexto donde permitimos tantas demostraciones como quepan en la ventana de contexto del modelo (típicamente entre 10 y 100), (b) «one-shot learning», donde permitimos solo una demostración, y (c) aprendizaje «zero-shot», donde no se permiten demostraciones y solo se le da al modelo una instrucción en lenguaje natural. En principio, GPT-3 también podría evaluarse en el régimen tradicional de ajuste fino, pero esto lo dejamos para trabajos futuros.

La Figura 1.2 ilustra las condiciones que estudiamos y muestra el aprendizaje few-shot de una tarea sencilla que requiere que el modelo elimine símbolos extraños de una palabra. El rendimiento del modelo mejora con la adición de una descripción de la tarea en lenguaje natural y con el número de ejemplos en el contexto del modelo, ${\textstyle K}$ . El aprendizaje few-shot también mejora drásticamente con el tamaño del modelo. Aunque los resultados en este caso son particularmente llamativos, las tendencias generales tanto con el tamaño del modelo como con el número de ejemplos en contexto se mantienen para la mayoría de las tareas que estudiamos. Subrayamos que estas curvas de «aprendizaje» no implican actualizaciones de gradiente ni ajuste fino, sino solo un número creciente de demostraciones provistas como condicionamiento.

En términos generales, en tareas de PLN GPT-3 obtiene resultados prometedores en los regímenes zero-shot y one-shot, y en el régimen few-shot a veces es competitivo con el estado del arte e incluso lo supera ocasionalmente (a pesar de que el estado del arte está en manos de modelos ajustados finamente). Por ejemplo, GPT-3 alcanza 81,5 F1 en CoQA en el régimen zero-shot, 84,0 F1 en CoQA en el régimen one-shot y 85,0 F1 en el régimen few-shot. De manera similar, GPT-3 alcanza 64,3 % de exactitud en TriviaQA en el régimen zero-shot, 68,0 % en el one-shot y 71,2 % en el few-shot, siendo este último el estado del arte respecto a los modelos ajustados finamente que operan en la misma configuración a libro cerrado.

GPT-3 también muestra competencia one-shot y few-shot en tareas diseñadas para evaluar la adaptación rápida o el razonamiento sobre la marcha, lo que incluye descifrar palabras, realizar aritmética y usar palabras novedosas en una oración tras verlas definidas una sola vez. También mostramos que, en el régimen few-shot, GPT-3 puede generar artículos sintéticos de noticias que los evaluadores humanos tienen dificultad para distinguir de artículos generados por humanos.

Al mismo tiempo, también encontramos algunas tareas en las que el rendimiento few-shot tiene dificultades, incluso a la escala de GPT-3. Esto incluye tareas de inferencia de lenguaje natural como el conjunto de datos ANLI, y algunos conjuntos de datos de comprensión lectora como RACE o QuAC. Al presentar una caracterización amplia de las fortalezas y debilidades de GPT-3, incluidas estas limitaciones, esperamos estimular el estudio del aprendizaje few-shot en modelos de lenguaje y atraer Lua error: Internal error: The interpreter exited with status 1. hacia los puntos donde el progreso es más necesario.

Una visión heurística de los resultados generales puede verse en la Figura 1.3, que agrega las distintas tareas (aunque no debe considerarse en sí misma como un benchmark riguroso o significativo).

También emprendemos un estudio sistemático de la «contaminación de datos», un problema creciente al entrenar modelos de alta capacidad sobre conjuntos de datos como Common Crawl, los cuales pueden incluir potencialmente contenido proveniente de conjuntos de prueba simplemente porque dicho contenido suele existir en la web. En este artículo desarrollamos herramientas sistemáticas para medir la contaminación de datos y cuantificar sus efectos distorsionantes. Aunque encontramos que la contaminación de datos tiene un efecto mínimo sobre el rendimiento de GPT-3 en la mayoría de los conjuntos de datos, sí identificamos algunos conjuntos en los que podría estar inflando los resultados, y o bien no informamos resultados sobre estos conjuntos o los marcamos con un asterisco, según la gravedad.

Además de todo lo anterior, también entrenamos una serie de modelos más pequeños (con tamaños desde 125 millones de parámetros hasta 13 mil millones de parámetros) para comparar su rendimiento con el de GPT-3 en los regímenes zero-, one- y few-shot. En términos generales, para la mayoría de las tareas encontramos un escalado relativamente suave con la capacidad del modelo en los tres regímenes; un patrón notable es que la brecha entre el rendimiento zero-, one- y few-shot a menudo crece con la capacidad del modelo, lo que quizás sugiera que los modelos más grandes son meta-aprendices más competentes.

Por último, dado el amplio espectro de capacidades exhibido por GPT-3, discutimos preocupaciones sobre sesgo, equidad e impactos sociales más amplios, e intentamos un análisis preliminar de las características de GPT-3 a este respecto.

El resto del artículo se organiza de la siguiente manera. En la Sección 2 describimos nuestro enfoque y los métodos para entrenar GPT-3 y evaluarlo. La Sección 3 presenta resultados sobre toda la gama de tareas en los regímenes zero-, one- y few-shot. La Sección 4.1 aborda cuestiones de contaminación de datos (solapamiento entre entrenamiento y prueba). La Sección 5 discute las limitaciones de GPT-3. La Sección 6 discute los impactos más amplios. La Sección 7 revisa el trabajo relacionado y la Sección 8 concluye.

2 Enfoque

Error creating thumbnail: File with dimensions greater than 12.5 MP

Nuestro enfoque básico de Lua error: Internal error: The interpreter exited with status 1., incluidos modelo, datos y entrenamiento, es similar al proceso descrito en [117], con un escalado relativamente directo del tamaño del modelo, del tamaño y diversidad del conjunto de datos y de la duración del entrenamiento. Nuestro uso del aprendizaje en contexto también es similar a [117], pero en este trabajo exploramos sistemáticamente diferentes configuraciones para el aprendizaje dentro del contexto. Por lo tanto, comenzamos esta sección definiendo y contrastando explícitamente las distintas configuraciones bajo las cuales evaluaremos GPT-3 o las que en principio podríamos evaluar. Estas configuraciones pueden verse como ubicadas en un espectro según cuánto dato específico de tarea tienden a requerir. En concreto, podemos identificar al menos cuatro puntos en este espectro (véase la Figura 2.1 para una ilustración):

•

Fine-Tuning (FT) ha sido el enfoque más común en los últimos años, y consiste en actualizar los pesos de un modelo preentrenado entrenándolo sobre un conjunto de datos supervisado específico de la tarea deseada. Típicamente se usan miles a cientos de miles de ejemplos etiquetados. La principal ventaja del Lua error: Internal error: The interpreter exited with status 1. es un rendimiento sólido en muchos benchmarks. Las principales desventajas son la necesidad de un nuevo conjunto de datos grande para cada tarea, el potencial de mala generalización fuera de distribución [88] y el potencial de explotar características espurias de los datos de entrenamiento [36, 91], lo que podría resultar en una comparación injusta con el rendimiento humano. En este trabajo no hacemos Lua error: Internal error: The interpreter exited with status 1. sobre GPT-3 porque nos enfocamos en el rendimiento agnóstico de tarea, pero GPT-3 puede en principio ser ajustado finamente y esta es una dirección prometedora para trabajos futuros.
•

Few-Shot (FS) es el término que usaremos en este trabajo para referirnos al régimen en el que al modelo se le dan unas pocas demostraciones de la tarea en tiempo de inferencia como condicionamiento [117], pero no se permiten actualizaciones de pesos. Como se muestra en la Figura 2.1, para un conjunto de datos típico un ejemplo tiene un contexto y una compleción deseada (por ejemplo, una oración en inglés y la traducción al francés), y el few-shot funciona dando ${\textstyle K}$ ejemplos de contexto y compleción, y luego un ejemplo final de solo contexto, esperándose que el modelo proporcione la compleción. Normalmente fijamos ${\textstyle K}$ en el rango de 10 a 100, ya que es la cantidad de ejemplos que caben en la ventana de contexto del modelo ( ${\textstyle n_{ctx} = 2048}$ ). Las principales ventajas del few-shot son una gran reducción de la necesidad de datos específicos de tarea y una menor probabilidad de aprender una distribución demasiado estrecha a partir de un conjunto de Lua error: Internal error: The interpreter exited with status 1. grande pero estrecho. La principal desventaja es que los resultados de este método han sido hasta ahora muy inferiores a los de los modelos ajustados finamente de última generación. Además, todavía se requiere una pequeña cantidad de datos específicos de tarea. Como su nombre indica, el aprendizaje few-shot tal como aquí se describe para modelos de lenguaje está relacionado con el aprendizaje few-shot tal como se utiliza en otros contextos de ML [45, 133] — ambos implican aprender con base en una distribución amplia de tareas (en este caso implícita en los datos de Lua error: Internal error: The interpreter exited with status 1.) y luego adaptarse rápidamente a una nueva tarea.
•

One-Shot (1S) es lo mismo que few-shot salvo que solo se permite una demostración, además de una descripción en lenguaje natural de la tarea, como se muestra en la Figura 1. La razón para distinguir one-shot de few-shot y zero-shot (más abajo) es que coincide más estrechamente con la forma en que algunas tareas se comunican a humanos. Por ejemplo, al pedir a humanos que generen un conjunto de datos en un servicio de trabajadores humanos (por ejemplo Mechanical Turk), es habitual dar una demostración de la tarea. En contraste, a veces es difícil comunicar el contenido o el formato de una tarea si no se dan ejemplos.
•

Zero-Shot (0S) es lo mismo que one-shot, salvo que no se permiten demostraciones y al modelo solo se le da una instrucción en lenguaje natural que describe la tarea. Este método ofrece máxima conveniencia, potencial de robustez y evita correlaciones espurias (a menos que ocurran de manera muy generalizada en el gran corpus de datos de Lua error: Internal error: The interpreter exited with status 1.), pero también es el régimen más desafiante. En algunos casos puede incluso ser difícil para los humanos entender el formato de la tarea sin ejemplos previos, por lo que este régimen es en algunos casos «injustamente difícil». Por ejemplo, si se le pide a alguien que «haga una tabla de récords mundiales para los 200 m planos», la solicitud puede ser ambigua, ya que no necesariamente queda claro qué formato debe tener la tabla o qué debe incluir (e incluso con una aclaración cuidadosa, comprender con precisión lo que se desea puede ser difícil). No obstante, al menos en algunas configuraciones, zero-shot es lo más cercano a cómo los humanos realizan tareas — por ejemplo, en el ejemplo de traducción de la Figura 2.1, un humano probablemente sabría qué hacer solo con la instrucción en texto.

La Figura 2.1 muestra los cuatro métodos usando el ejemplo de traducción de inglés a francés. En este artículo nos centramos en zero-shot, one-shot y few-shot, con el objetivo de compararlos no como alternativas en competencia, sino como diferentes regímenes de problema que ofrecen un compromiso variable entre el rendimiento en benchmarks específicos y la eficiencia muestral. En particular destacamos los resultados few-shot, ya que muchos están solo ligeramente por detrás de los modelos ajustados finamente de última generación. En última instancia, sin embargo, one-shot, o incluso a veces zero-shot, parecen ser las comparaciones más justas con el rendimiento humano y son objetivos importantes para trabajos futuros.

Las Secciones 2.1-2.3 a continuación detallan, respectivamente, nuestros modelos, los datos de entrenamiento y el proceso de entrenamiento. La Sección 2.4 discute los detalles de cómo realizamos las evaluaciones few-shot, one-shot y zero-shot.

2.1 Modelo y Arquitecturas

Usamos el mismo modelo y arquitectura que GPT-2 [117], incluyendo la inicialización modificada, la pre-normalización y la Lua error: Internal error: The interpreter exited with status 1. reversible descritas allí, con la excepción de que utilizamos patrones de Lua error: Internal error: The interpreter exited with status 1. alternantes densos y dispersos en bandas locales en las capas del Lua error: Internal error: The interpreter exited with status 1., similar al Sparse Lua error: Internal error: The interpreter exited with status 1. [15]. Para estudiar la dependencia del rendimiento de ML respecto al tamaño del modelo, entrenamos 8 tamaños diferentes de modelo, abarcando tres órdenes de magnitud desde 125 millones de parámetros hasta 175 mil millones de parámetros, siendo el último el modelo que llamamos GPT-3. Trabajos previos [57] sugieren que con suficientes datos de entrenamiento, el escalado de la pérdida de validación debería ser aproximadamente una ley de potencia suave en función del tamaño; entrenar modelos de muchos tamaños distintos nos permite contrastar esta hipótesis tanto para la pérdida de validación como para tareas de lenguaje downstream.

Nombre del Modelo	${\textstyle n_{params}}$	${\textstyle n_{layers}}$	${\textstyle d_{model}}$	${\textstyle n_{heads}}$	${\textstyle d_{head}}$	Tamaño de Lote	Tasa de Aprendizaje
GPT-3 Small	125M	12	768	12	64	0.5M	${\textstyle 6.0 \times 10^{- 4}}$
GPT-3 Medium	350M	24	1024	16	64	0.5M	${\textstyle 3.0 \times 10^{- 4}}$
GPT-3 Large	760M	24	1536	16	96	0.5M	${\textstyle 2.5 \times 10^{- 4}}$
GPT-3 XL	1.3B	24	2048	24	128	1M	${\textstyle 2.0 \times 10^{- 4}}$
GPT-3 2.7B	2.7B	32	2560	32	80	1M	${\textstyle 1.6 \times 10^{- 4}}$
GPT-3 6.7B	6.7B	32	4096	32	128	2M	${\textstyle 1.2 \times 10^{- 4}}$
GPT-3 13B	13.0B	40	5140	40	128	2M	${\textstyle 1.0 \times 10^{- 4}}$
GPT-3 175B or “GPT-3”	175.0B	96	12288	96	128	3.2M	${\textstyle 0.6 \times 10^{- 4}}$

La Tabla 2.1 muestra los tamaños y arquitecturas de nuestros 8 modelos. Aquí ${\textstyle n_{params}}$ es el número total de parámetros entrenables, ${\textstyle n_{layers}}$ es el número total de capas, ${\textstyle d_{model}}$ es el número de unidades en cada capa de cuello de botella (siempre tenemos la capa feedforward cuatro veces más grande que la capa de cuello de botella, ${\textstyle d_{ff}}$ ${\textstyle = {4 \ast d_{model}}}$ ), y ${\textstyle d_{head}}$ es la dimensión de cada cabeza de Lua error: Internal error: The interpreter exited with status 1.. Todos los modelos usan una ventana de contexto de ${\textstyle n_{ctx} = 2048}$ tokens. Particionamos el modelo a través de las GPU tanto en la dimensión de profundidad como en la de anchura para minimizar la transferencia de datos entre nodos. Los parámetros arquitectónicos precisos para cada modelo se eligen con base en la eficiencia computacional y el balance de carga en la disposición de los modelos a través de las GPU. Trabajos previos [57] sugieren que la pérdida de validación no es muy sensible a estos parámetros dentro de un rango razonablemente amplio.

2.2 Conjunto de Datos de Entrenamiento

Los conjuntos de datos para modelos de lenguaje se han expandido rápidamente, culminando en el conjunto de datos Common Crawl²²2https://commoncrawl.org/the-data/ [116], que constituye casi un billón de palabras. Este tamaño de conjunto de datos es suficiente para entrenar nuestros modelos más grandes sin actualizar nunca dos veces sobre la misma secuencia. Sin embargo, hemos encontrado que las versiones sin filtrar o ligeramente filtradas de Common Crawl tienden a tener menor calidad que conjuntos de datos más curados. Por ello, tomamos 3 pasos para mejorar la calidad media de nuestros conjuntos de datos: (1) descargamos y filtramos una versión de CommonCrawl con base en la similitud con una serie de corpus de referencia de alta calidad, (2) realizamos deduplicación difusa a nivel de documento, dentro y entre conjuntos de datos, para evitar la redundancia y preservar la integridad de nuestro conjunto de validación reservado como medida precisa del Lua error: Internal error: The interpreter exited with status 1., y (3) también añadimos corpus de referencia conocidos de alta calidad a la mezcla de entrenamiento para complementar CommonCrawl y aumentar su diversidad.

Los detalles de los dos primeros puntos (procesamiento de Common Crawl) se describen en el Apéndice A. Para el tercero, añadimos varios conjuntos de datos curados de alta calidad, incluyendo una versión expandida del conjunto de datos WebText [117], recopilada raspando enlaces durante un período de tiempo más largo y descrita por primera vez en [57], dos corpus de libros basados en internet (Books1 y Books2) y la Wikipedia en inglés.

La Tabla 2.2 muestra la mezcla final de conjuntos de datos que usamos en el entrenamiento. Los datos de CommonCrawl se descargaron de 41 shards de CommonCrawl mensual cubriendo de 2016 a 2019, constituyendo 45TB de texto plano comprimido antes del filtrado y 570GB después del filtrado, aproximadamente equivalente a 400 mil millones de tokens codificados con byte-pair-encoding. Nótese que durante el entrenamiento los conjuntos de datos no se muestrean en proporción a su tamaño, sino que los conjuntos que consideramos de mayor calidad se muestrean con más frecuencia, de forma que CommonCrawl y Books2 se muestrean menos de una vez durante el entrenamiento, mientras que los demás se muestrean de 2 a 3 veces. Esto en esencia acepta una pequeña cantidad de Lua error: Internal error: The interpreter exited with status 1. a cambio de datos de entrenamiento de mayor calidad.

Conjunto de Datos	Cantidad (tokens)	Peso en la mezcla de entrenamiento	Lua error: Internal error: The interpreter exited with status 1. elapsed when training for 300B tokens
Common Crawl (filtered)	410 billion	60%	0.44
WebText2	19 billion	22%	2.9
Books1	12 billion	8%	1.9
Books2	55 billion	8%	0.43
Wikipedia	3 billion	3%	3.4

Una preocupación metodológica importante con los modelos de lenguaje preentrenados sobre una amplia franja de datos de internet, particularmente los modelos grandes con la capacidad de memorizar grandes cantidades de contenido, es la posible contaminación de las tareas downstream al haber visto inadvertidamente sus conjuntos de prueba o desarrollo durante el Lua error: Internal error: The interpreter exited with status 1.. Para reducir tal contaminación, buscamos e intentamos eliminar cualquier solapamiento con los conjuntos de desarrollo y prueba de todos los benchmarks estudiados en este artículo. Desafortunadamente, un error en el filtrado nos llevó a ignorar algunos solapamientos, y debido al coste del entrenamiento no fue factible reentrenar el modelo. En la Sección 4.1 caracterizamos el impacto de los solapamientos restantes, y en trabajos futuros eliminaremos la contaminación de datos de manera más agresiva.

2.3 Proceso de Entrenamiento

Como se encontró en [57, 85], los modelos más grandes pueden típicamente usar un batch size mayor, pero requieren una Lua error: Internal error: The interpreter exited with status 1. menor. Medimos la escala de ruido del gradiente durante el entrenamiento y la usamos para guiar nuestra elección del batch size [85]. La Tabla 2.1 muestra la configuración de parámetros que usamos. Para entrenar los modelos más grandes sin quedarnos sin memoria, usamos una mezcla de paralelismo de modelo dentro de cada multiplicación de matrices y paralelismo de modelo a través de las capas de la red. Todos los modelos se entrenaron en GPU V100, en parte de un clúster de alto ancho de banda proporcionado por Microsoft. Los detalles del proceso de entrenamiento y los ajustes de Lua error: Internal error: The interpreter exited with status 1. se describen en el Apéndice B.

2.4 Evaluación

Para el aprendizaje few-shot, evaluamos cada ejemplo del conjunto de evaluación tomando aleatoriamente ${\textstyle K}$ ejemplos del conjunto de entrenamiento de esa tarea como condicionamiento, delimitados por 1 o 2 saltos de línea según la tarea. Para LAMBADA y Storycloze no hay un conjunto de entrenamiento supervisado disponible, por lo que tomamos los ejemplos de condicionamiento del conjunto de desarrollo y evaluamos en el conjunto de prueba. Para Winograd (la versión original, no la de SuperGLUE) solo hay un conjunto, así que tomamos los ejemplos de condicionamiento directamente de él.

${\textstyle K}$ puede tomar cualquier valor desde 0 hasta el máximo permitido por la ventana de contexto del modelo, que es ${\textstyle n_{ctx} = 2048}$ para todos los modelos y suele caber entre ${\textstyle 10}$ y ${\textstyle 100}$ ejemplos. Valores mayores de ${\textstyle K}$ son normalmente, pero no siempre, mejores, así que cuando hay disponibles conjuntos de desarrollo y prueba separados, experimentamos con varios valores de ${\textstyle K}$ en el conjunto de desarrollo y luego ejecutamos el mejor valor en el conjunto de prueba. Para algunas tareas (véase el Apéndice G) también usamos un prompt en lenguaje natural además de (o, para ${\textstyle K = 0}$ , en lugar de) las demostraciones.

En tareas que implican elegir una compleción correcta entre varias opciones (selección múltiple), proporcionamos ${\textstyle K}$ ejemplos de contexto más compleción correcta, seguidos de un ejemplo de solo contexto, y comparamos la verosimilitud del LM para cada compleción. Para la mayoría de las tareas comparamos la verosimilitud por token (para normalizar por longitud); sin embargo, en un pequeño número de conjuntos de datos (ARC, OpenBookQA y RACE) obtenemos un beneficio adicional medido en el conjunto de desarrollo al normalizar por la probabilidad incondicional de cada compleción, calculando ${\textstyle \frac{P\hspace{0pt}{(\left. {completion} \middle| {context} \right.)}}{P\hspace{0pt}{(\left. {completion} \middle| {{answer}\hspace{0pt}\_\hspace{0pt}{context}} \right.)}}}$ , donde ${\textstyle {answer}\hspace{0pt}\_\hspace{0pt}{context}}$ es la cadena "Answer: " o "A: " y se usa para indicar que la compleción debe ser una respuesta, pero por lo demás es genérica.

En tareas que implican clasificación binaria, damos a las opciones nombres más significativos semánticamente (p. ej. «True» o «False» en lugar de 0 o 1) y luego tratamos la tarea como selección múltiple; a veces también enmarcamos la tarea de manera similar a lo hecho por [116] (véase el Apéndice G para detalles).

En tareas con compleción de forma libre, usamos beam search con los mismos parámetros que [116]: un ancho de haz de 4 y una penalización de longitud de ${\textstyle \alpha = 0.6}$ . Calificamos el modelo usando la puntuación de similitud F1, BLEU o coincidencia exacta, según lo que sea estándar para el conjunto de datos en cuestión.

Los resultados finales se reportan en el conjunto de prueba cuando está disponible públicamente, para cada tamaño de modelo y régimen de aprendizaje (zero-, one- y few-shot). Cuando el conjunto de prueba es privado, nuestro modelo a menudo es demasiado grande para caber en el servidor de prueba, así que reportamos resultados en el conjunto de desarrollo. Sí enviamos al servidor de prueba en un pequeño número de conjuntos de datos (SuperGLUE, TriviaQA, PiQa) en los que pudimos hacer que la presentación funcionara, y enviamos solo los resultados few-shot del modelo de 200B, reportando resultados de conjunto de desarrollo para todo lo demás.

3 Resultados

En la Figura 3.1 mostramos las curvas de entrenamiento para los 8 modelos descritos en la Sección 2. Para este gráfico también incluimos 6 modelos extra-pequeños adicionales con tan solo 100.000 parámetros. Como se observa en [57], el rendimiento del modelado de lenguaje sigue una ley de potencia cuando se hace un uso eficiente del cómputo de entrenamiento. Tras extender esta tendencia dos órdenes de magnitud más, observamos solo una ligera (si la hay) desviación de la ley de potencia. Uno podría preocuparse de que estas mejoras en Lua error: Internal error: The interpreter exited with status 1. provengan únicamente de modelar detalles espurios de nuestro corpus de entrenamiento. Sin embargo, en las secciones siguientes veremos que las mejoras en Lua error: Internal error: The interpreter exited with status 1. conducen a ganancias de rendimiento consistentes en un amplio espectro de tareas de lenguaje natural.

A continuación, evaluamos los 8 modelos descritos en la Sección 2 (el GPT-3 de 175 mil millones de parámetros y 7 modelos más pequeños) en una amplia gama de conjuntos de datos. Agrupamos los conjuntos de datos en 9 categorías que representan tareas aproximadamente similares.

En la Sección 3.1 evaluamos en tareas tradicionales de modelado de lenguaje y tareas similares al modelado de lenguaje, como tareas Cloze y tareas de compleción de oraciones/párrafos. En la Sección 3.2 evaluamos en tareas de respuesta a preguntas «a libro cerrado»: tareas que requieren usar la información almacenada en los parámetros del modelo para responder preguntas de conocimiento general. En la Sección 3.3 evaluamos la capacidad del modelo para traducir entre idiomas (especialmente one-shot y few-shot). En la Sección 3.4 evaluamos el rendimiento del modelo en tareas tipo Winograd Schema. En la Sección 3.5 evaluamos en conjuntos de datos que implican razonamiento de sentido común o respuesta a preguntas. En la Sección 3.6 evaluamos en tareas de comprensión lectora, en la Sección 3.7 evaluamos en el conjunto de benchmarks SuperGLUE, y en 3.8 exploramos brevemente NLI. Por último, en la Sección 3.9, inventamos algunas tareas adicionales diseñadas especialmente para sondear las capacidades de aprendizaje en contexto — estas tareas se centran en el razonamiento sobre la marcha, las habilidades de adaptación o la síntesis de texto abierta. Evaluamos todas las tareas en los regímenes few-shot, one-shot y zero-shot.

3.1 Modelado de Lenguaje, Cloze y Tareas de Completado

En esta sección probamos el rendimiento de GPT-3 en la tarea tradicional de modelado de lenguaje, así como en tareas relacionadas que implican predecir una palabra de interés, completar una oración o un párrafo, o elegir entre posibles compleciones de un fragmento de texto.

3.1.1 Modelado de Lenguaje

Calculamos la perplejidad zero-shot en el conjunto de datos Penn Tree Bank (PTB) [86] medido en [117]. Omitimos las 4 tareas relacionadas con Wikipedia de ese trabajo porque están enteramente contenidas en nuestros datos de entrenamiento, y también omitimos el benchmark one-billion word debido a que una alta fracción del conjunto de datos está contenida en nuestro conjunto de entrenamiento. PTB escapa de estos problemas por ser anterior a la internet moderna. Nuestro modelo más grande establece un nuevo SOTA en PTB por un margen sustancial de 15 puntos, alcanzando una perplejidad de 20,50. Nótese que, dado que PTB es un conjunto de datos tradicional de modelado de lenguaje, no tiene una separación clara de ejemplos en torno a la cual definir evaluación one-shot o few-shot, por lo que medimos solo zero-shot.

Configuración	PTB
SOTA (Zero-Shot)	35.8^a
GPT-3 Zero-Shot	20.5

3.1.2 LAMBADA

Configuración	LAMBADA (acc)	LAMBADA (ppl)	StoryCloze (acc)	HellaSwag (acc)
SOTA	68.0^a	8.63^b	91.8^c	85.6^d
GPT-3 Zero-Shot	76.2	3.00	83.2	78.9
GPT-3 One-Shot	72.5	3.35	84.7	78.1
GPT-3 Few-Shot	86.4	1.92	87.7	79.3

El conjunto de datos LAMBADA [99] evalúa el modelado de dependencias de largo alcance en el texto: se le pide al modelo predecir la última palabra de oraciones que requieren leer un párrafo de contexto. Recientemente se ha sugerido que el escalado continuo de los modelos de lenguaje está produciendo retornos decrecientes en este difícil benchmark. [9] reflexionan sobre la mejora del 1,5 % obtenida al duplicar el tamaño del modelo entre dos resultados recientes del estado del arte ([125] y [132]) y argumentan que «seguir expandiendo el hardware y los tamaños de datos en órdenes de magnitud no es el camino a seguir». Nosotros encontramos que ese camino sigue siendo prometedor y, en un régimen zero-shot, GPT-3 alcanza 76 % en LAMBADA, una ganancia del 8 % sobre el estado del arte previo.

LAMBADA es también una demostración de la flexibilidad del aprendizaje few-shot, ya que ofrece una manera de abordar un problema que clásicamente ocurre con este conjunto de datos. Aunque la compleción en LAMBADA es siempre la última palabra de una oración, un modelo de lenguaje estándar no tiene forma de saber este detalle. Por ello asigna probabilidad no solo al final correcto sino también a otras continuaciones válidas del párrafo. Este problema se ha abordado en parte en el pasado con filtros de palabras de paro [117] (que vetan palabras de «continuación»). El régimen few-shot, en cambio, nos permite «encuadrar» la tarea como un test cloze y permite que el modelo de lenguaje infiera a partir de los ejemplos que se desea una compleción de exactamente una palabra. Usamos el siguiente formato fill-in-the-blank:

Alice era amiga de Bob. Alice fue a visitar a su amigo . ${\textstyle \rightarrow}$ Bob

George compró algo de equipamiento de béisbol, una pelota, un guante y un . ${\textstyle \rightarrow}$

Cuando se presentan ejemplos formateados de esta manera, GPT-3 alcanza un 86,4 % de exactitud en el régimen few-shot, un aumento de más del 18 % respecto al estado del arte previo. Observamos que el rendimiento few-shot mejora notablemente con el tamaño del modelo. Mientras que este régimen disminuye el rendimiento del modelo más pequeño en casi un 20 %, para GPT-3 mejora la exactitud en un 10 %. Por último, el método fill-in-blank no es efectivo en one-shot, donde siempre rinde peor que el régimen zero-shot. Quizá esto se deba a que todos los modelos aún requieren varios ejemplos para reconocer el patrón.

Una nota de cautela es que un análisis de contaminación del conjunto de prueba identificó que una minoría significativa del conjunto de datos LAMBADA parece estar presente en nuestros datos de entrenamiento; sin embargo, el análisis realizado en la Sección 4.1 sugiere un impacto insignificante en el rendimiento.

3.1.3 HellaSwag

El conjunto de datos HellaSwag [140] consiste en escoger el mejor final para una historia o un conjunto de instrucciones. Los ejemplos se extrajeron de manera adversarial para que sean difíciles para los modelos de lenguaje y a la vez fáciles para los humanos (que alcanzan un 95,6 % de exactitud). GPT-3 alcanza un 78,1 % de exactitud en el régimen one-shot y un 79,3 % en el régimen few-shot, superando el 75,4 % de exactitud de un modelo de lenguaje ajustado finamente con 1,5 mil millones de parámetros [141], pero todavía bastante por debajo del SOTA general del 85,6 % alcanzado por el modelo multitarea ajustado finamente ALUM.

3.1.4 StoryCloze

A continuación evaluamos GPT-3 en el conjunto de datos StoryCloze 2016 [83], que consiste en seleccionar la oración final correcta para historias de cinco oraciones. Aquí GPT-3 alcanza un 83,2 % en el régimen zero-shot y un 87,7 % en el régimen few-shot (con ${\textstyle K = 70}$ ). Esto sigue siendo 4,1 % menos que el SOTA ajustado finamente que utiliza un modelo basado en BERT [64], pero mejora los resultados zero-shot anteriores en aproximadamente un 10 %.

3.2 Respuesta a Preguntas de Libro Cerrado

Configuración	NaturalQS	WebQS	TriviaQA
RAG (Fine-tuned, Open-Domain) [75]	44.5	45.5	68.0
T5-11B+SSM (Fine-tuned, Closed-Book) [115]	36.6	44.7	60.5
T5-11B (Fine-tuned, Closed-Book)	34.5	37.4	50.1
GPT-3 Zero-Shot	14.6	14.4	64.3
GPT-3 One-Shot	23.0	25.3	68.0
GPT-3 Few-Shot	29.9	41.5	71.2

En esta sección medimos la capacidad de GPT-3 para responder preguntas sobre conocimiento factual amplio. Dada la inmensa cantidad de consultas posibles, esta tarea normalmente se ha abordado utilizando un sistema de recuperación de información para encontrar texto relevante en combinación con un modelo que aprende a generar una respuesta dado la pregunta y el texto recuperado. Como este régimen permite a un sistema buscar y condicionar su respuesta sobre texto que potencialmente contiene la respuesta, se denomina «a libro abierto». [115] demostraron recientemente que un modelo de lenguaje grande puede desempeñarse sorprendentemente bien al responder directamente las preguntas sin condicionar sobre información auxiliar. Ellos denominan este régimen de evaluación más restrictivo como «a libro cerrado». Su trabajo sugiere que modelos de mayor capacidad podrían rendir incluso mejor, y nosotros ponemos a prueba esta hipótesis con GPT-3. Evaluamos GPT-3 en los 3 conjuntos de datos de [115]: Natural Questions [58], WebQuestions [5] y TriviaQA [49], usando las mismas particiones. Nótese que, además de que todos los resultados están en el régimen a libro cerrado, nuestro uso de evaluaciones few-shot, one-shot y zero-shot representa un régimen aún más estricto que el trabajo previo de QA a libro cerrado: además de no permitirse contenido externo, tampoco se permite el Lua error: Internal error: The interpreter exited with status 1. sobre el propio conjunto de Q&A.

Los resultados para GPT-3 se muestran en la Tabla 3.3. En TriviaQA alcanzamos 64,3 % en el régimen zero-shot, 68,0 % en el one-shot y 71,2 % en el few-shot. El resultado zero-shot ya supera al T5-11B ajustado finamente en 14,2 %, y también supera por 3,8 % a una versión con predicción de spans adaptada para Q&A durante el Lua error: Internal error: The interpreter exited with status 1.. El resultado one-shot mejora un 3,7 % e iguala el SOTA para un sistema de QA de dominio abierto que no solo se ajusta finamente sino que también utiliza un mecanismo de recuperación aprendido sobre un índice vectorial denso de 15,3 mil millones de parámetros sobre 21 millones de documentos [75]. El resultado few-shot de GPT-3 mejora aún más el rendimiento en otro 3,2 % por encima de esto.

En WebQuestions (WebQs), GPT-3 alcanza 14,4 % en el régimen zero-shot, 25,3 % en el one-shot y 41,5 % en el few-shot. Esto se compara con el 37,4 % del T5-11B ajustado finamente y el 44,7 % del T5-11B+SSM ajustado finamente, que utiliza un procedimiento de Lua error: Internal error: The interpreter exited with status 1. específico para Q&A. GPT-3 en el régimen few-shot se aproxima al rendimiento de los modelos de última generación ajustados finamente. Notablemente, en comparación con TriviaQA, WebQS muestra una ganancia mucho mayor desde zero-shot a few-shot (y de hecho su rendimiento zero-shot y one-shot es pobre), lo que quizá sugiera que las preguntas de WebQs y/o el estilo de sus respuestas están fuera de la distribución para GPT-3. Sin embargo, GPT-3 parece capaz de adaptarse a esta distribución, recuperando un fuerte rendimiento en el régimen few-shot.

En Natural Questions (NQs) GPT-3 alcanza 14,6 % en el régimen zero-shot, 23,0 % en el one-shot y 29,9 % en el few-shot, comparado con el 36,6 % del T5 11B+SSM ajustado finamente. De manera similar a WebQS, la gran ganancia de zero-shot a few-shot puede sugerir un cambio de distribución, y también puede explicar el rendimiento menos competitivo en comparación con TriviaQA y WebQS. En particular, las preguntas en NQs tienden hacia conocimiento muy granular específicamente sobre Wikipedia, lo que podría estar poniendo a prueba los límites de la capacidad de GPT-3 y la amplitud de la distribución de Lua error: Internal error: The interpreter exited with status 1..

En conjunto, en uno de los tres conjuntos de datos el one-shot de GPT-3 iguala el SOTA de Lua error: Internal error: The interpreter exited with status 1. de dominio abierto. En los otros dos conjuntos se acerca al rendimiento del SOTA a libro cerrado a pesar de no usar Lua error: Internal error: The interpreter exited with status 1.. En los 3 conjuntos de datos, encontramos que el rendimiento escala de manera muy suave con el tamaño del modelo (Figura 3.3 y Apéndice H Figura H.7), lo que posiblemente refleja la idea de que la capacidad del modelo se traduce directamente en más «conocimiento» absorbido en los parámetros del modelo.

3.3 Traducción

Para GPT-2 se utilizó un filtro sobre una colección multilingüe de documentos para producir un conjunto de datos solo en inglés debido a preocupaciones de capacidad. Aun con este filtrado, GPT-2 mostró cierta evidencia de capacidad multilingüe y se desempeñó de manera no trivial al traducir entre francés e inglés a pesar de entrenar solo con 10 megabytes de texto francés residual. Dado que aumentamos la capacidad en más de dos órdenes de magnitud de GPT-2 a GPT-3, también ampliamos el alcance del conjunto de datos de entrenamiento para incluir más representación de otros idiomas, aunque esta sigue siendo un área para mejorar. Como se discute en 2.2 la mayor parte de nuestros datos provienen del Common Crawl en bruto con solo filtrado basado en calidad. Aunque los datos de entrenamiento de GPT-3 siguen siendo principalmente en inglés (93 % por recuento de palabras), también incluyen un 7 % de texto en otros idiomas. Estos idiomas se documentan en el material complementario. Para entender mejor la capacidad de traducción, también ampliamos nuestro análisis para incluir dos idiomas adicionales comúnmente estudiados, alemán y rumano.

Los enfoques existentes de traducción automática no supervisada a menudo combinan Lua error: Internal error: The interpreter exited with status 1. sobre un par de conjuntos de datos monolingües con back-translation [123] para tender un puente entre los dos idiomas de manera controlada. En contraste, GPT-3 aprende de una mezcla de datos de entrenamiento que combina muchos idiomas de manera natural, mezclándolos a nivel de palabra, oración y documento. GPT-3 también utiliza un único objetivo de entrenamiento que no está personalizado ni diseñado para ninguna tarea en particular. Sin embargo, nuestros regímenes one/few-shot no son estrictamente comparables al trabajo no supervisado previo, ya que utilizan una pequeña cantidad de ejemplos pareados (1 o 64). Esto corresponde a hasta una o dos páginas de datos de entrenamiento en contexto.

Configuración	En ${\textstyle \rightarrow}$ Fr	Fr ${\textstyle \rightarrow}$ En	En ${\textstyle \rightarrow}$ De	De ${\textstyle \rightarrow}$ En	En ${\textstyle \rightarrow}$ Ro	Ro ${\textstyle \rightarrow}$ En
SOTA (Supervised)	45.6^a	35.0 ^b	41.2^c	40.2^d	38.5^e	39.9^e
XLM [61]	33.4	33.3	26.4	34.3	33.3	31.8
MASS [127]	37.5	34.9	28.3	35.2	35.2	33.1
mBART [66]	-	-	29.8	34.0	35.0	30.5
GPT-3 Zero-Shot	25.2	21.2	24.6	27.2	14.1	19.9
GPT-3 One-Shot	28.3	33.7	26.2	30.4	20.6	38.6
GPT-3 Few-Shot	32.6	39.2	29.7	40.6	21.0	39.5

Los resultados se muestran en la Tabla 3.4. El GPT-3 zero-shot, que solo recibe una descripción en lenguaje natural de la tarea, todavía rinde por debajo de los recientes resultados de NMT no supervisada. Sin embargo, proporcionar una sola demostración de ejemplo para cada tarea de traducción mejora el rendimiento en más de 7 BLEU y se acerca a un rendimiento competitivo con el trabajo previo. GPT-3 en el régimen few-shot completo mejora otros 4 BLEU adicionales, resultando en un rendimiento promedio similar al del trabajo previo de NMT no supervisada. GPT-3 muestra una notable asimetría en su rendimiento dependiendo de la dirección de idioma. Para los tres idiomas de entrada estudiados, GPT-3 supera significativamente al trabajo previo de NMT no supervisada al traducir al inglés, pero rinde peor al traducir en la otra dirección. El rendimiento en En-Ro es un valor atípico notable, más de 10 BLEU por debajo del trabajo previo de NMT no supervisada. Esto podría ser una debilidad debida a reutilizar el Lua error: Internal error: The interpreter exited with status 1. BPE a nivel de bytes de GPT-2, que se desarrolló para un conjunto de datos de entrenamiento casi enteramente en inglés. Para Fr-En y De-En, el GPT-3 few-shot supera el mejor resultado supervisado que pudimos encontrar pero, debido a nuestra falta de familiaridad con la literatura y a que estos parecen ser benchmarks no competitivos, no sospechamos que esos resultados representen el verdadero estado del arte. Para Ro-En, el GPT-3 few-shot rinde dentro de 0,5 BLEU del SOTA general, que se logra mediante una combinación de Lua error: Internal error: The interpreter exited with status 1. no supervisado, Lua error: Internal error: The interpreter exited with status 1. supervisado sobre 608K ejemplos etiquetados y back-translation [70].

Por último, en todos los pares de idiomas y en los tres regímenes (zero-, one- y few-shot), hay una tendencia suave de mejora con la capacidad del modelo. Esto se muestra en la Figura 3.4 para el caso de los resultados few-shot, y el escalado para los tres regímenes se presenta en el Apéndice H.

3.4 Tareas de Estilo Winograd

Configuración	Winograd	Winogrande (XL)
Fine-tuned SOTA	90.1^a	84.6^b
GPT-3 Zero-Shot	88.3*	70.2
GPT-3 One-Shot	89.7*	73.2
GPT-3 Few-Shot	88.6*	77.7

El Winograd Schemas Challenge [65] es una tarea clásica en PLN que consiste en determinar a qué palabra se refiere un pronombre cuando este es gramaticalmente ambiguo pero semánticamente inequívoco para un humano. Recientemente los modelos de lenguaje ajustados finamente han alcanzado un rendimiento cercano al humano en el conjunto de datos Winograd original, pero versiones más difíciles como el conjunto de datos Winogrande extraído de manera adversarial [118] aún quedan significativamente rezagados respecto al rendimiento humano. Probamos el rendimiento de GPT-3 tanto en Winograd como en Winogrande, como de costumbre en los regímenes zero-, one- y few-shot.

En Winograd evaluamos GPT-3 sobre el conjunto original de 273 esquemas de Winograd, usando el mismo método de «evaluación parcial» descrito en [117]. Nótese que este régimen difiere ligeramente de la tarea WSC en el benchmark SuperGLUE, que se presenta como clasificación binaria y requiere extracción de entidades para convertirla a la forma descrita en esta sección. En Winograd GPT-3 alcanza 88,3 %, 89,7 % y 88,6 % en los regímenes zero-shot, one-shot y few-shot, no mostrando un aprendizaje en contexto claro pero, en todos los casos, alcanzando resultados sólidos a solo unos puntos por debajo del estado del arte y del rendimiento humano estimado. Notamos que el análisis de contaminación encontró algunos esquemas Winograd en los datos de entrenamiento, pero esto parece tener solo un pequeño efecto en los resultados (véase la Sección 4.1).

En el conjunto de datos más difícil Winogrande sí encontramos ganancias para el aprendizaje en contexto: GPT-3 alcanza 70,2 % en el régimen zero-shot, 73,2 % en el one-shot y 77,7 % en el few-shot. A modo de comparación, un modelo RoBERTa ajustado finamente alcanza 79 %, el estado del arte es 84,6 % alcanzado con un modelo de alta capacidad ajustado finamente (T5), y el rendimiento humano en la tarea reportado por [118] es de 94,0 %.

3.5 Razonamiento de Sentido Común

Configuración	PIQA	ARC (Easy)	ARC (Challenge)	OpenBookQA
Fine-tuned SOTA	79.4	92.0[55]	78.5[55]	87.2[55]
GPT-3 Zero-Shot	80.5*	68.8	51.4	57.6
GPT-3 One-Shot	80.5*	71.2	53.2	58.8
GPT-3 Few-Shot	82.8*	70.1	51.5	65.4

A continuación consideramos tres conjuntos de datos que intentan capturar el razonamiento físico o científico, distinto de la compleción de oraciones, la comprensión lectora o la respuesta a preguntas de conocimiento general. El primero, PhysicalQA (PIQA) [11], hace preguntas de sentido común sobre cómo funciona el mundo físico y está pensado como una sonda de la comprensión arraigada del mundo. GPT-3 alcanza un 81,0 % de exactitud en zero-shot, 80,5 % en one-shot y 82,8 % en few-shot (esta última medida en el servidor de prueba de PIQA). Esto se compara favorablemente con el estado del arte previo del 79,4 % de un RoBERTa ajustado finamente. PIQA muestra un escalado relativamente superficial con el tamaño del modelo y todavía está más de 10 % por debajo del rendimiento humano, pero los resultados few-shot e incluso zero-shot de GPT-3 superan el estado del arte actual. Nuestro análisis marcó PIQA por un posible problema de contaminación de datos (a pesar de que las etiquetas de prueba están ocultas), por lo que conservadoramente marcamos el resultado con un asterisco. Véase la Sección 4.1 para más detalles.

ARC [14] es un conjunto de datos de preguntas de selección múltiple recolectadas de exámenes de ciencia de 3.º a 9.º grado. En la versión «Challenge» del conjunto de datos, que ha sido filtrada para incluir preguntas que métodos estadísticos simples o de recuperación de información no pueden responder correctamente, GPT-3 alcanza un 51,4 % de exactitud en el régimen zero-shot, 53,2 % en el one-shot y 51,5 % en el few-shot. Esto se aproxima al rendimiento de una línea base RoBERTa ajustada finamente (55,9 %) de UnifiedQA [55]. En la versión «Easy» del conjunto de datos (preguntas que cualquiera de los enfoques base mencionados respondió correctamente), GPT-3 alcanza 68,8 %, 71,2 % y 70,1 %, lo que excede ligeramente una línea base RoBERTa ajustada finamente de [55]. Sin embargo, ambos resultados siguen siendo mucho peores que los SOTA generales alcanzados por UnifiedQA, que supera los resultados few-shot de GPT-3 en un 27 % en el conjunto challenge y un 22 % en el conjunto easy.

En OpenBookQA [84], GPT-3 mejora significativamente del régimen zero al few-shot, pero todavía está más de 20 puntos por debajo del SOTA general. El rendimiento few-shot de GPT-3 es similar a una línea base BERT Large ajustada finamente del leaderboard.

En general, el aprendizaje en contexto con GPT-3 muestra resultados mixtos en tareas de razonamiento de sentido común, con solo ganancias pequeñas e inconsistentes observadas en los regímenes one- y few-shot tanto para PIQA como para ARC, pero se observa una mejora significativa en OpenBookQA. GPT-3 establece SOTA en el nuevo conjunto de datos PIQA en todos los regímenes de evaluación.

3.6 Comprensión de Lectura

Configuración	CoQA	DROP	QuAC	SQuADv2	RACE-h	RACE-m
Fine-tuned SOTA	90.7^a	89.1^b	74.4^c	93.0^d	90.0^e	93.1^e
GPT-3 Zero-Shot	81.5	23.6	41.5	59.5	45.5	58.4
GPT-3 One-Shot	84.0	34.3	43.3	65.4	45.9	57.4
GPT-3 Few-Shot	85.0	36.5	44.3	69.8	46.8	58.1

A continuación evaluamos GPT-3 en la tarea de comprensión lectora. Utilizamos un conjunto de 5 conjuntos de datos que incluyen formatos de respuesta abstractivos, de selección múltiple y basados en spans, tanto en regímenes de diálogo como de pregunta única. Observamos una amplia dispersión en el rendimiento de GPT-3 a través de estos conjuntos de datos, lo que sugiere capacidad variable con diferentes formatos de respuesta. En general observamos que GPT-3 está a la par con las líneas base iniciales y los primeros resultados entrenados usando representaciones contextuales en cada conjunto de datos respectivo.

GPT-3 rinde mejor (a menos de 3 puntos de la línea base humana) en CoQA [106], un conjunto de datos conversacional de forma libre, y rinde peor (13 F1 por debajo de una línea base ELMo) en QuAC [16], un conjunto de datos que requiere modelar actos de diálogo estructurados y selección de spans de respuesta de interacciones profesor-alumno. En DROP [27], un conjunto de datos que prueba el razonamiento discreto y la numeralidad en el contexto de la comprensión lectora, GPT-3 en un régimen few-shot supera la línea base BERT ajustada finamente del artículo original, pero todavía está bastante por debajo tanto del rendimiento humano como de los enfoques de última generación que aumentan redes neuronales con sistemas simbólicos [110]. En SQuAD 2.0 [108], GPT-3 demuestra sus capacidades de aprendizaje few-shot, mejorando casi 10 F1 (hasta 69,8) en comparación con el régimen zero-shot. Esto le permite superar ligeramente el mejor resultado ajustado finamente del artículo original. En RACE [78], un conjunto de datos de selección múltiple de exámenes de inglés de secundaria y preparatoria, GPT-3 rinde relativamente débil y solo es competitivo con los primeros trabajos que utilizan representaciones contextuales, y todavía está un 45 % por debajo del SOTA.

	SuperGLUE	BoolQ	CB	CB	COPA	RTE
	Average	Precisión	Precisión	F1	Precisión	Precisión
Fine-tuned SOTA	89.0	91.0	96.9	93.9	94.8	92.5
Fine-tuned BERT-Large	69.0	77.4	83.6	75.7	70.6	71.7
GPT-3 Few-Shot	71.8	76.4	75.6	52.0	92.0	69.0

	WiC	WSC	MultiRC	MultiRC	ReCoRD	ReCoRD
	Accuracy	Precisión	Precisión	F1a	Precisión	F1
Fine-tuned SOTA	76.1	93.8	62.3	88.2	92.5	93.3
Fine-tuned BERT-Large	69.6	64.6	24.1	70.0	71.3	72.0
GPT-3 Few-Shot	49.4	80.1	30.5	75.4	90.2	91.1

3.7 SuperGLUE

Para agregar mejor los resultados en tareas de PLN y compararlos con modelos populares como BERT y RoBERTa de manera más sistemática, también evaluamos GPT-3 en una colección estandarizada de conjuntos de datos, el benchmark SuperGLUE [135] [135] [17] [25] [105] [54] [142] [21] [8] [34] [6] [96] [98]. El rendimiento de GPT-3 sobre el conjunto de prueba SuperGLUE se muestra en la Tabla 3.8. En el régimen few-shot, usamos 32 ejemplos para todas las tareas, muestreados aleatoriamente del conjunto de entrenamiento. Para todas las tareas excepto WSC y MultiRC, muestreamos un nuevo conjunto de ejemplos para usar en el contexto de cada problema. Para WSC y MultiRC, usamos el mismo conjunto de ejemplos extraídos aleatoriamente del conjunto de entrenamiento como contexto para todos los problemas que evaluamos.

Observamos un amplio rango en el rendimiento de GPT-3 a través de las tareas. En COPA y ReCoRD GPT-3 alcanza un rendimiento cercano al SOTA en los regímenes one-shot y few-shot, con COPA quedando solo unos pocos puntos por debajo y consiguiendo el segundo lugar en el leaderboard, donde el primer lugar lo ocupa un modelo ajustado finamente de 11 mil millones de parámetros (T5). En WSC, el rendimiento sigue siendo relativamente fuerte, alcanzando 80,1 % en el régimen few-shot (nótese que GPT-3 alcanza 88,6 % en el conjunto de datos Winograd original como se describe en la Sección 3.4). En BoolQ, MultiRC y RTE, el rendimiento es razonable, igualando aproximadamente a un BERT-Large ajustado finamente. En CB vemos signos de vida con un 75,6 % en el régimen few-shot.

WiC es un punto débil notable, con un rendimiento few-shot del 49,4 % (al azar). Probamos varias formulaciones y enunciados distintos para WiC (que consiste en determinar si una palabra se usa con el mismo significado en dos oraciones), y ninguno fue capaz de lograr un rendimiento sólido. Esto insinúa un fenómeno que se aclarará en la siguiente sección (que discute el benchmark ANLI): GPT-3 parece ser débil en el régimen few-shot u one-shot en algunas tareas que implican comparar dos oraciones o fragmentos, por ejemplo si una palabra se usa de la misma manera en dos oraciones (WiC), si una oración es paráfrasis de otra, o si una oración implica otra. Esto también podría explicar las puntuaciones comparativamente bajas en RTE y CB, que también siguen este formato. A pesar de estas debilidades, GPT-3 supera a un BERT-large ajustado finamente en cuatro de ocho tareas y en dos tareas se acerca al estado del arte mantenido por un modelo de 11 mil millones de parámetros ajustado finamente.

Por último, notamos que la puntuación few-shot en SuperGLUE mejora de manera estable tanto con el tamaño del modelo como con el número de ejemplos en el contexto, mostrando beneficios crecientes del aprendizaje en contexto (Figura 3.8). Escalamos ${\textstyle K}$ hasta 32 ejemplos por tarea, después de lo cual ejemplos adicionales no caben de manera fiable en nuestro contexto. Al barrer sobre valores de ${\textstyle K}$ , encontramos que GPT-3 requiere menos de ocho ejemplos en total por tarea para superar a un BERT-Large ajustado finamente en la puntuación general de SuperGLUE.

3.8 NLI

La inferencia de lenguaje natural (NLI) [31] concierne a la capacidad de comprender la relación entre dos oraciones. En la práctica, esta tarea suele estructurarse como un problema de clasificación de dos o tres clases, donde el modelo clasifica si la segunda oración se sigue lógicamente de la primera, contradice la primera oración o es posiblemente verdadera (neutral). SuperGLUE incluye un conjunto de datos NLI, RTE, que evalúa la versión binaria de la tarea. En RTE, solo la versión más grande de GPT-3 rinde de manera convincente mejor que el azar (56 %) en cualquier régimen de evaluación, pero en un régimen few-shot GPT-3 rinde de manera similar a un BERT Large ajustado finamente para una sola tarea. También evaluamos en el conjunto de datos Adversarial Natural Language Inference (ANLI), introducido recientemente [94]. ANLI es un conjunto de datos difícil que emplea una serie de preguntas de inferencia de lenguaje natural extraídas de manera adversarial en tres rondas (R1, R2 y R3). De manera similar a RTE, todos nuestros modelos más pequeños que GPT-3 rinden casi exactamente al azar en ANLI, incluso en el régimen few-shot ( ${\textstyle \sim {33\%}}$ ), mientras que GPT-3 muestra signos de vida en la Ronda 3. Los resultados para ANLI R3 se destacan en la Figura 3.9 y los resultados completos para todas las rondas se encuentran en el Apéndice H. Estos resultados tanto en RTE como en ANLI sugieren que NLI sigue siendo una tarea muy difícil para los modelos de lenguaje y apenas comienzan a mostrar signos de progreso.

3.9 Tareas Sintéticas y Cualitativas

Una forma de sondear el rango de habilidades de GPT-3 en el régimen few-shot (o zero- y one-shot) es darle tareas que requieran que realice razonamiento computacional simple sobre la marcha, reconozca un patrón novedoso que es poco probable que haya ocurrido durante el entrenamiento o se adapte rápidamente a una tarea inusual. Diseñamos varias tareas para probar este tipo de habilidades. Primero, probamos la capacidad de GPT-3 para realizar aritmética. Segundo, creamos varias tareas que implican reordenar o desordenar las letras de una palabra, tareas que es poco probable que se hayan visto exactamente durante el entrenamiento. Tercero, probamos la capacidad de GPT-3 para resolver problemas de analogía estilo SAT few-shot. Por último, probamos GPT-3 en varias tareas cualitativas, incluyendo el uso de palabras nuevas en una oración, la corrección gramatical en inglés y la generación de artículos de noticias. Publicaremos los conjuntos de datos sintéticos con la esperanza de estimular un mayor estudio del comportamiento en tiempo de prueba de los modelos de lenguaje.

3.9.1 Aritmética

Para probar la capacidad de GPT-3 de realizar operaciones aritméticas simples sin entrenamiento específico de tarea, desarrollamos una pequeña batería de 10 pruebas que consisten en plantear a GPT-3 un problema aritmético simple en lenguaje natural:

•

Suma de 2 dígitos (2D+) – Se le pide al modelo sumar dos enteros muestreados uniformemente de ${\textstyle \lbrack 0,100)}$ , planteados en forma de pregunta, p. ej. «Q: What is 48 plus 76? A: 124.»
•

Resta de 2 dígitos (2D-) – Se le pide al modelo restar dos enteros muestreados uniformemente de ${\textstyle \lbrack 0,100)}$ ; la respuesta puede ser negativa. Ejemplo: «Q: What is 34 minus 53? A: -19».
•

Suma de 3 dígitos (3D+) – Igual que la suma de 2 dígitos, salvo que los números se muestrean uniformemente de ${\textstyle \lbrack 0,1000)}$ .
•

Resta de 3 dígitos (3D-) – Igual que la resta de 2 dígitos, salvo que los números se muestrean uniformemente de ${\textstyle \lbrack 0,1000)}$ .
•

Suma de 4 dígitos (4D+) – Igual que la suma de 3 dígitos, salvo que se muestrean uniformemente de ${\textstyle \lbrack 0,10000)}$ .
•

Resta de 4 dígitos (4D-) – Igual que la resta de 3 dígitos, salvo que se muestrean uniformemente de ${\textstyle \lbrack 0,10000)}$ .
•

Suma de 5 dígitos (5D+) – Igual que la suma de 3 dígitos, salvo que se muestrean uniformemente de ${\textstyle \lbrack 0,100000)}$ .
•

Resta de 5 dígitos (5D-) – Igual que la resta de 3 dígitos, salvo que se muestrean uniformemente de ${\textstyle \lbrack 0,100000)}$ .
•

Multiplicación de 2 dígitos (2Dx) – Se le pide al modelo multiplicar dos enteros muestreados uniformemente de ${\textstyle \lbrack 0,100)}$ , p. ej. «Q: What is 24 times 42? A: 1008».
•

Compuesta de un dígito (1DC) – Se le pide al modelo realizar una operación compuesta sobre tres números de 1 dígito, con paréntesis alrededor de los dos últimos. Por ejemplo, «Q: What is 6+(4*8)? A: 38». Los tres números de 1 dígito se seleccionan uniformemente de ${\textstyle \lbrack 0,10)}$ y las operaciones se seleccionan uniformemente de {+,-,*}.

En las 10 tareas el modelo debe generar la respuesta correcta exactamente. Para cada tarea generamos un conjunto de datos de 2.000 instancias aleatorias de la tarea y evaluamos todos los modelos sobre esas instancias.

Primero evaluamos GPT-3 en el régimen few-shot, cuyos resultados se muestran en la Figura 3.10. En suma y resta, GPT-3 muestra una fuerte competencia cuando el número de dígitos es pequeño, alcanzando 100 % de exactitud en suma de 2 dígitos, 98,9 % en resta de 2 dígitos, 80,2 % en suma de 3 dígitos y 94,2 % en resta de 3 dígitos. El rendimiento disminuye a medida que aumenta el número de dígitos, pero GPT-3 todavía alcanza 25-26 % de exactitud en operaciones de cuatro dígitos y 9-10 % de exactitud en operaciones de cinco dígitos, lo que sugiere al menos cierta capacidad para generalizar a un mayor número de dígitos. GPT-3 también alcanza un 29,2 % de exactitud en multiplicación de 2 dígitos, una operación especialmente intensiva en cómputo. Por último, GPT-3 alcanza un 21,3 % de exactitud en operaciones combinadas de un dígito (por ejemplo, 9*(7+5)), lo que sugiere que tiene cierta robustez más allá de operaciones simples.

Configuración	2D+	2D-	3D+	3D-	4D+	4D-	5D+	5D-	2Dx	1DC
GPT-3 Zero-shot	76.9	58.0	34.2	48.3	4.0	7.5	0.7	0.8	19.8	9.8
GPT-3 One-shot	99.6	86.4	65.5	78.7	14.0	14.0	3.5	3.8	27.4	14.3
GPT-3 Few-shot	100.0	98.9	80.4	94.2	25.5	26.8	9.3	9.9	29.2	21.3

Como deja claro la Figura 3.10, los modelos pequeños rinden pobremente en todas estas tareas: incluso el modelo de 13 mil millones de parámetros (el segundo más grande después del GPT-3 completo de 175 mil millones) puede resolver suma y resta de 2 dígitos solo la mitad del tiempo, y todas las demás operaciones menos del 10 % del tiempo.

El rendimiento one-shot y zero-shot está algo degradado en relación con el rendimiento few-shot, lo que sugiere que la adaptación a la tarea (o, como mínimo, el reconocimiento de la tarea) es importante para realizar correctamente estas computaciones. Sin embargo, el rendimiento one-shot sigue siendo bastante fuerte, e incluso el rendimiento zero-shot del GPT-3 completo supera significativamente el aprendizaje few-shot de todos los modelos más pequeños. Los tres regímenes para el GPT-3 completo se muestran en la Tabla 3.9, y el escalado de la capacidad del modelo para los tres regímenes se muestra en el Apéndice H.

Para verificar al vuelo si el modelo simplemente está memorizando problemas aritméticos específicos, tomamos los problemas aritméticos de 3 dígitos de nuestro conjunto de prueba y los buscamos en nuestros datos de entrenamiento tanto en las formas "<NUM1> + <NUM2> =" como "<NUM1> plus <NUM2>". De los 2.000 problemas de suma encontramos solo 17 coincidencias (0,8 %) y de los 2.000 problemas de resta encontramos solo 2 coincidencias (0,1 %), lo que sugiere que solo una fracción trivial de las respuestas correctas pudo haberse memorizado. Además, la inspección de respuestas incorrectas revela que el modelo a menudo comete errores como no «llevar» un «1», lo que sugiere que en realidad está intentando realizar el cálculo relevante en lugar de memorizar una tabla.

En general, GPT-3 muestra una competencia razonable en aritmética moderadamente compleja en los entornos few-shot, one-shot e incluso zero-shot.

3.9.2 Tareas de Manipulación y Codificación de Palabras

Para probar la capacidad de GPT-3 de aprender manipulaciones simbólicas novedosas a partir de unos pocos ejemplos, diseñamos una pequeña batería de 5 tareas de «manipulación de caracteres». Cada tarea consiste en darle al modelo una palabra distorsionada por alguna combinación de mezcla, adición o eliminación de caracteres, y pedirle que recupere la palabra original. Las 5 tareas son:

Configuración	CL	A1	A2	RI	RW
GPT-3 Zero-shot	3.66	2.28	8.91	8.26	0.09
GPT-3 One-shot	21.7	8.62	25.9	45.4	0.48
GPT-3 Few-shot	37.9	15.1	39.7	67.2	0.44

•

Cycle letters in word (CL) – Al modelo se le da una palabra con sus letras desplazadas cíclicamente, luego el símbolo «=», y se espera que genere la palabra original. Por ejemplo, podría recibir «lyinevitab» y debería producir «inevitably».
•

Anagrams of all but first and last characters (A1) – Al modelo se le da una palabra donde todas las letras excepto la primera y la última han sido permutadas aleatoriamente, y debe producir la palabra original. Ejemplo: criroptuon = corruption.
•

Anagrams of all but first and last 2 characters (A2) – Al modelo se le da una palabra donde todas las letras excepto las 2 primeras y las 2 últimas han sido permutadas aleatoriamente, y debe recuperar la palabra original. Ejemplo: opoepnnt ${\textstyle \rightarrow}$ opponent.
•

Random insertion in word (RI) – Se inserta un carácter de puntuación o espacio aleatorio entre cada letra de una palabra, y el modelo debe producir la palabra original. Ejemplo: s.u!c/c!e.s s i/o/n = succession.
•

Reversed words (RW) – Al modelo se le da una palabra escrita al revés, y debe producir la palabra original. Ejemplo: stcejbo ${\textstyle \rightarrow}$ objects.

Para cada tarea generamos 10.000 ejemplos, los cuales elegimos como las 10.000 palabras más frecuentes según [92] de longitud mayor a 4 caracteres y menor a 15 caracteres. Los resultados few-shot se muestran en la Figura 3.11. El rendimiento por tarea tiende a crecer suavemente con el tamaño del modelo, alcanzando el GPT-3 completo un 66,9 % en remoción de inserciones aleatorias, un 38,6 % en desplazamiento cíclico de letras, un 40,2 % en la tarea de anagrama más fácil y un 15,1 % en la tarea de anagrama más difícil (donde solo se mantienen fijas las letras inicial y final). Ninguno de los modelos puede invertir las letras de una palabra.

En el régimen one-shot, el rendimiento es significativamente más débil (cae a la mitad o más), y en el régimen zero-shot el modelo rara vez puede realizar alguna de las tareas (Tabla 3.10). Esto sugiere que el modelo realmente parece aprender estas tareas en tiempo de prueba, ya que no puede realizarlas zero-shot y su naturaleza artificial hace improbable que aparezcan en los datos de Lua error: Internal error: The interpreter exited with status 1. (aunque no podemos confirmarlo con certeza).

Podemos cuantificar aún más el rendimiento mediante el trazado de «curvas de aprendizaje en contexto», que muestran el rendimiento de la tarea como función del número de ejemplos en contexto. Mostramos curvas de aprendizaje en contexto para la tarea de Inserción de Símbolos en la Figura 1.2. Podemos ver que los modelos más grandes son capaces de hacer un uso cada vez más efectivo de la información en contexto, incluyendo tanto ejemplos de tarea como descripciones de tarea en lenguaje natural.

Por último, vale la pena añadir que resolver estas tareas requiere manipulaciones a nivel de carácter, mientras que nuestra codificación BPE opera sobre fracciones significativas de una palabra (en promedio ${\textstyle \sim 0.7}$ palabras por token), por lo que desde la perspectiva del LM tener éxito en estas tareas implica no solo manipular tokens BPE sino comprender y desglosar su subestructura. Además, CL, A1 y A2 no son biyectivas (es decir, la palabra desordenada no es una función determinista de la palabra revuelta), lo que requiere que el modelo realice cierta búsqueda para encontrar el desordenamiento correcto. Así, las habilidades implicadas parecen requerir un emparejamiento de patrones y una computación no triviales.

3.9.3 Analogías SAT

Para probar GPT-3 en otra tarea que es algo inusual respecto a la distribución típica del texto, recolectamos un conjunto de 374 problemas de «analogía SAT» [131]. Las analogías son un estilo de pregunta de selección múltiple que constituyó una sección del examen de ingreso a la universidad SAT antes de 2005. Un ejemplo típico es «audacious is to boldness as (a) sanctimonious is to hypocrisy, (b) anonymous is to identity, (c) remorseful is to misdeed, (d) deleterious is to result, (e) impressionable is to temptation». Se espera que el estudiante elija cuál de los cinco pares de palabras tiene la misma relación que el par original; en este ejemplo la respuesta es «sanctimonious is to hypocrisy». En esta tarea GPT-3 alcanza 65,2 % en el régimen few-shot, 59,1 % en el one-shot y 53,7 % en el zero-shot, mientras que la puntuación promedio entre solicitantes universitarios fue del 57 % [129] (la adivinación aleatoria da 20 %). Como se muestra en la Figura 3.12, los resultados mejoran con la escala, mejorando el modelo completo de 175 mil millones más de un 10 % comparado con el modelo de 13 mil millones de parámetros.

3.9.4 Generación de Artículos de Noticias

Trabajos previos sobre modelos de lenguaje generativos probaron cualitativamente su capacidad para generar «artículos de noticias» sintéticos mediante muestreo condicional a partir del modelo dado un prompt escrito por un humano que consiste en una primera oración plausible para una historia de noticias [117]. En relación con [117], el conjunto de datos usado para entrenar GPT-3 está mucho menos sesgado hacia artículos de noticias, por lo que tratar de generar artículos de noticias mediante muestras incondicionales en bruto es menos efectivo: por ejemplo, GPT-3 a menudo interpreta la primera oración propuesta de un «artículo de noticias» como un tuit y luego publica respuestas o tuits sintéticos de seguimiento. Para resolver este problema, empleamos las capacidades de aprendizaje few-shot de GPT-3 proporcionando tres artículos de noticias previos en el contexto del modelo para condicionarlo. Con el título y subtítulo de un próximo artículo propuesto, el modelo es capaz de generar de manera fiable artículos cortos en el género «de noticias».

Para evaluar la calidad de la generación de artículos de noticias por parte de GPT-3 (que creemos probablemente está correlacionada con la calidad de generación de muestras condicionadas en general), decidimos medir la capacidad humana de distinguir los artículos generados por GPT-3 de los reales. Trabajos similares han sido realizados por Kreps et al. [56] y Zellers et al. [141]. Los modelos de lenguaje generativos se entrenan para igualar la distribución del contenido generado por humanos, por lo que la (in)capacidad de los humanos para distinguir entre los dos es una medida potencialmente importante de calidad.³³3Esta tarea también es relevante para el posible mal uso de los modelos de lenguaje discutido en la Sección 6.1.

Para ver qué tan bien los humanos pueden detectar texto generado por modelos, seleccionamos arbitrariamente 25 títulos y subtítulos de artículos del sitio web newser.com (longitud media: 215 palabras). Luego generamos compleciones de estos títulos y subtítulos a partir de cuatro modelos de lenguaje cuyos tamaños van de 125M a 175B (GPT-3) parámetros (longitud media: 200 palabras). Para cada modelo, presentamos a unos 80 participantes radicados en EE. UU. un cuestionario que consistía en estos títulos y subtítulos reales seguidos del artículo escrito por humanos o del artículo generado por el modelo⁴⁴4Queríamos identificar qué tan bueno es un usuario promedio de internet en detectar salidas de modelos de lenguaje, por lo que nos enfocamos en participantes extraídos de la población general estadounidense. Véase el Apéndice E para detalles. Se les pidió a los participantes que seleccionaran si el artículo era «muy probablemente escrito por un humano», «más probablemente escrito por un humano», «no lo sé», «más probablemente escrito por una máquina» o «muy probablemente escrito por una máquina».

Los artículos que seleccionamos no estaban en los datos de entrenamiento de los modelos y las salidas del modelo se formatearon y seleccionaron de manera programática para evitar selección sesgada por humanos. Todos los modelos usaron el mismo contexto sobre el cual condicionar las salidas, fueron preentrenados con el mismo tamaño de contexto, y se utilizaron los mismos títulos y subtítulos de artículos como prompts para cada modelo. Sin embargo, también realizamos un experimento para controlar el esfuerzo y la Lua error: Internal error: The interpreter exited with status 1. de los participantes que siguió el mismo formato pero implicó artículos generados por modelos intencionalmente malos. Esto se hizo generando artículos a partir de un «modelo de control»: un modelo de 160M parámetros sin contexto y con aleatoriedad de salida aumentada.

La exactitud humana media (la razón entre asignaciones correctas y asignaciones no neutrales por participante) al detectar que los artículos intencionalmente malos eran generados por modelo fue de ${\textstyle \sim {86\%}}$ , donde el 50 % es el rendimiento al azar. En contraste, la exactitud humana media al detectar artículos producidos por el modelo de 175B parámetros estaba apenas por encima del azar, en ${\textstyle \sim {52\%}}$ (véase la Tabla 3.11).⁵⁵5Usamos una prueba T de Student de dos muestras para evaluar la diferencia significativa entre las medias de las exactitudes de los participantes para cada modelo y el modelo de control, y reportamos la diferencia normalizada en las medias (como el estadístico t) y el valor p. Las habilidades humanas para detectar texto generado por modelo parecen disminuir a medida que aumenta el tamaño del modelo: parece haber una tendencia hacia la exactitud al azar con el tamaño del modelo, y la detección humana de GPT-3 está cerca del azar.⁶⁶6Si un modelo produjera de forma consistente textos más impresionantes que los artículos humanos, es posible que el rendimiento humano en esta tarea cayera por debajo del 50 %. De hecho, muchos participantes individuales obtuvieron menos del 50 % en esta tarea. Esto es así a pesar de que los participantes pasan más tiempo en cada salida a medida que aumenta el tamaño del modelo (véase el Apéndice E).

	Mean accuracy	95% Confidence Interval (low, hi)	${\textstyle t}$ compared to control ( ${\textstyle p}$ -value)	“I don’t know” assignments
Control (deliberately bad model)	86%	83%–90%	-	3.6 %
GPT-3 Small	76%	72%–80%	3.9 (2 ${\textstyle e}$ -4)	4.9%
GPT-3 Medium	61%	58%–65%	10.3 (7 ${\textstyle e}$ -21)	6.0%
GPT-3 Large	68%	64%–72%	7.3 (3 ${\textstyle e}$ -11)	8.7%
GPT-3 XL	62%	59%–65%	10.7 (1 ${\textstyle e}$ -19)	7.5%
GPT-3 2.7B	62%	58%–65%	10.4 (5 ${\textstyle e}$ -19)	7.1%
GPT-3 6.7B	60%	56%–63%	11.2 (3 ${\textstyle e}$ -21)	6.2%
GPT-3 13B	55%	52%–58%	15.3 (1 ${\textstyle e}$ -32)	7.1%
GPT-3 175B	52%	49%–54%	16.9 (1 ${\textstyle e}$ -34)	7.8%

Ejemplos de artículos sintéticos de GPT-3 se dan en las Figuras 3.14 y 3.15.⁷⁷7Muestras adicionales no de noticias se pueden encontrar en el Apéndice F. Gran parte del texto es —como indican las evaluaciones— difícil de distinguir por humanos del contenido humano auténtico. Las inexactitudes factuales pueden ser un indicador de que un artículo es generado por modelo ya que, a diferencia de los autores humanos, los modelos no tienen acceso a los hechos específicos a los que se refiere el título del artículo o cuándo se escribió el artículo. Otros indicadores incluyen la repetición, los non sequiturs y los giros inusuales, aunque a menudo son lo bastante sutiles como para no ser advertidos.

Title: United Methodists Agree to Historic Split Subtitle: Those who oppose gay marriage will form their own denomination Article:After two days of intense debate, the United Methodist Church has agreed to a historic split - one that is expected to end in the creation of a new denomination, one that will be ”theologically and socially conservative,” according to The Washington Post. The majority of delegates attending the church’s annual General Conference in May voted to strengthen a ban on the ordination of LGBTQ clergy and to write new rules that will ”discipline” clergy who officiate at same-sex weddings. But those who opposed these measures have a new plan: They say they will form a separate denomination by 2020, calling their church the Christian Methodist denomination. The Post notes that the denomination, which claims 12.5 million members, was in the early 20th century the ”largest Protestant denomination in the U.S.,” but that it has been shrinking in recent decades. The new split will be the second in the church’s history. The first occurred in 1968, when roughly 10 percent of the denomination left to form the Evangelical United Brethren Church. The Post notes that the proposed split ”comes at a critical time for the church, which has been losing members for years,” which has been ”pushed toward the brink of a schism over the role of LGBTQ people in the church.” Gay marriage is not the only issue that has divided the church. In 2016, the denomination was split over ordination of transgender clergy, with the North Pacific regional conference voting to ban them from serving as clergy, and the South Pacific regional conference voting to allow them.

Title: Star’s Tux Promise Draws Megyn Kelly’s Sarcasm Subtitle: Joaquin Phoenix pledged to not change for each awards event Article:A year ago, Joaquin Phoenix made headlines when he appeared on the red carpet at the Golden Globes wearing a tuxedo with a paper bag over his head that read, ”I am a shape-shifter. I can’t change the world. I can only change myself.” It was a promise to not change to fit into the Hollywood mold: ”I think that’s a really special thing, to not change yourself. I think it’s a really special thing to say, ‘This is what’s inside of me, I’m proud of it, and I’m not going to be ashamed because of the way that someone else thinks I should be.’” Now, it’s the Oscars, and Phoenix is at it again. But this time, his publicist is saying he’ll be wearing a tux no matter what. Megyn Kelly was not impressed, and she let him have it on The Tonight Show. ”You know, I feel like, I feel like you could have worn the tux,” she says. ”But you’re saying you’re a shape-shifter. I don’t know if you can change your tux, but you can change your mind. You can change your mind. You can change your mind.” Phoenix says he did, but it didn’t stick. ”I was like, ‘Okay, I’m going to wear a tuxedo to this thing.’ And then I thought, ‘I don’t want to wear a tuxedo to this thing.’” Kelly goes on to encourage him to change his mind again, but Phoenix says it’s too late: ”I’m committed to wearing this.”

Trabajos relacionados sobre la detección de modelos de lenguaje por Ippolito et al. [48] indican que discriminadores automáticos como Grover [141] y GLTR [37] pueden tener mayor éxito en la detección de texto generado por modelos que los evaluadores humanos. La detección automática de estos modelos puede ser un área prometedora de investigación futura.

Ippolito et al. [48] también señalan que la exactitud humana al detectar texto generado por modelo aumenta a medida que los humanos observan más tokens. Para hacer una investigación preliminar de qué tan buenos son los humanos al detectar artículos de noticias más largos generados por GPT-3 175B, seleccionamos 12 artículos de noticias mundiales de Reuters con una longitud media de 569 palabras y generamos compleciones de estos artículos a partir de GPT-3 con una longitud media de 498 palabras (298 palabras más que nuestros experimentos iniciales). Siguiendo la metodología anterior, realizamos dos experimentos, cada uno con unos 80 participantes radicados en EE. UU., para comparar las habilidades humanas en detectar los artículos generados por GPT-3 y por un modelo de control.

Encontramos que la exactitud humana media al detectar los artículos más largos intencionalmente malos del modelo de control fue de ${\textstyle \sim {88\%}}$ , mientras que la exactitud humana media al detectar los artículos más largos producidos por GPT-3 175B se mantuvo apenas por encima del azar, en ${\textstyle \sim {52\%}}$ (véase la Tabla 3.12). Esto indica que, para artículos de noticias de unas 500 palabras de longitud, GPT-3 sigue produciendo artículos que los humanos encuentran difícil distinguir de los artículos de noticias escritos por humanos.

	Mean accuracy	95% Confidence Interval (low, hi)	${\textstyle t}$ compared to control ( ${\textstyle p}$ -value)	“I don’t know” assignments
Control	88%	84%–91%	-	2.7%
GPT-3 175B	52%	48%–57%	12.7 (3.2 ${\textstyle e}$ -23)	10.6%

A "whatpu" is a small, furry animal native to Tanzania. An example of a sentence that uses the word whatpu is: We were traveling in Africa and we saw these very cute whatpus. To do a "farduddle" means to jump up and down really fast. An example of a sentence that uses the word farduddle is: One day when I was playing tag with my little sister, she got really excited and she started doing these crazy farduddles.
A "yalubalu" is a type of vegetable that looks like a big pumpkin. An example of a sentence that uses the word yalubalu is: I was on a trip to Africa and I tried this yalubalu vegetable that was grown in a garden there. It was delicious.

A "Burringo" is a car with very fast acceleration. An example of a sentence that uses the word Burringo is: In our garage we have a Burringo that my father drives to work every day.

A "Gigamuru" is a type of Japanese musical instrument. An example of a sentence that uses the word Gigamuru is: I have a Gigamuru that my uncle gave me as a gift. I love to play it at home.

To "screeg" something is to swing a sword at it. An example of a sentence that uses the word screeg is: We screeghed at each other for several minutes and then we went outside and ate ice cream.

Poor English input: I eated the purple berries. Good English output: I ate the purple berries. Poor English input: Thank you for picking me as your designer. I’d appreciate it. Good English output: Thank you for choosing me as your designer. I appreciate it. Poor English input: The mentioned changes have done. or I did the alteration that you requested. or I changed things you wanted and did the modifications. Good English output: The requested changes have been made. or I made the alteration that you requested. or I changed things you wanted and made the modifications. Poor English input: I’d be more than happy to work with you in another project. Good English output: I’d be more than happy to work with you on another project. Poor English input: Please provide me with a short brief of the design you’re looking for and that’d be nice if you could share some examples or project you did before. Good English output: Please provide me with a brief description of the design you’re looking for and that would be nice if you could share some examples or projects you have done before.

 Poor English input: The patient was died. Good English output: The patient died.

 Poor English input: We think that Leslie likes ourselves. Good English output: We think that Leslie likes us.

 Poor English input: Janet broke Bill on the finger. Good English output: Janet broke Bill’s finger.

 Poor English input: Mary arranged for, in St. Louis, John to rent a house cheap. Good English output: Mary arranged for John to rent a house in St. Louis.

 Poor English input: Today I have went to the store to to buys some many bottle of water. Good English output: Today I went to the store to buy some bottles of water.

 Poor English input: I have tried to hit ball with bat, but my swing is has miss. Good English output: I tried to hit the ball with the bat, but my swing missed.

3.9.5 Aprendizaje y Uso de Palabras Novedosas

Una tarea estudiada en lingüística del desarrollo [13] es la capacidad de aprender y utilizar palabras nuevas, por ejemplo usar una palabra en una oración tras verla definida solo una vez, o, recíprocamente, inferir el significado de una palabra a partir de un solo uso. Aquí probamos cualitativamente la capacidad de GPT-3 para hacer lo primero. Específicamente, le damos a GPT-3 la definición de una palabra inexistente, como «Gigamuru», y luego le pedimos que la use en una oración. Proporcionamos de uno a cinco ejemplos previos de una palabra inexistente (distinta) que se define y se utiliza en una oración, así que la tarea es few-shot en términos de ejemplos previos de la tarea amplia y one-shot en términos de la palabra específica. La Tabla 3.16 muestra los 6 ejemplos que generamos; todas las definiciones fueron generadas por humanos, y la primera respuesta fue generada por humanos como condicionamiento, mientras que las respuestas posteriores fueron generadas por GPT-3. Estos ejemplos se generaron de forma continua en una sola sesión y no omitimos ni reintentamos ningún prompt. En todos los casos, la oración generada parece ser un uso correcto o al menos plausible de la palabra. En la última oración, el modelo genera una conjugación plausible para la palabra «screeg» (a saber, «screeghed»), aunque el uso de la palabra es ligeramente extraño («screeghed at each other») a pesar de ser plausible en el sentido de que podría describir una pelea con espadas de juguete. En general, GPT-3 parece ser al menos competente en la tarea de usar palabras novedosas en una oración.

3.9.6 Corrección de Gramática en Inglés

Otra tarea bien adaptada al aprendizaje few-shot es la corrección de gramática en inglés. La probamos con GPT-3 en el régimen few-shot dando prompts de la forma "Poor English Input: <sentence>\n Good English Output: <sentence>". Le damos a GPT-3 una corrección generada por humano y luego le pedimos que corrija 5 más (de nuevo sin omisiones ni repeticiones). Los resultados se muestran en la Figura 3.17.

4 Medición y Prevención de Memorización de Benchmarks

Dado que nuestro conjunto de entrenamiento proviene de internet, es posible que nuestro modelo se haya entrenado con algunos de los conjuntos de prueba de nuestros benchmarks. Detectar con precisión la contaminación de prueba en conjuntos de datos a escala de internet es un área de investigación nueva sin mejores prácticas establecidas. Aunque es habitual entrenar modelos grandes sin investigar la contaminación, dada la creciente escala de los conjuntos de datos de Lua error: Internal error: The interpreter exited with status 1., creemos que este problema se está volviendo cada vez más importante de atender.

Esta preocupación no es solo hipotética. Uno de los primeros artículos en entrenar un modelo de lenguaje sobre datos de Common Crawl [130] detectó y eliminó un documento de entrenamiento que se solapaba con uno de sus conjuntos de evaluación. Otros trabajos como GPT-2 [117] también realizaron un análisis post hoc del solapamiento. Su estudio fue relativamente alentador, encontrando que aunque los modelos sí rendían moderadamente mejor sobre datos solapados entre entrenamiento y prueba, esto no impactaba significativamente los resultados reportados debido a la pequeña fracción de datos contaminados (a menudo solo unos pocos por ciento).

GPT-3 opera en un régimen algo diferente. Por un lado, el tamaño del conjunto de datos y del modelo es alrededor de dos órdenes de magnitud mayor que los usados para GPT-2, e incluye una gran cantidad de Common Crawl, lo que crea un mayor potencial de contaminación y memorización. Por otro lado, precisamente debido a la gran cantidad de datos, ni siquiera GPT-3 175B sobreajusta su conjunto de entrenamiento de manera significativa, medido en relación con un conjunto de validación reservado con el que fue deduplicado (Figura 4.1). Por tanto, esperamos que la contaminación sea probablemente frecuente, pero que sus efectos puedan no ser tan grandes como se temía.

Inicialmente intentamos abordar el problema de la contaminación buscando proactivamente y tratando de eliminar cualquier solapamiento entre nuestros datos de entrenamiento y los conjuntos de desarrollo y prueba de todos los benchmarks estudiados en este artículo. Desafortunadamente, un error provocó que solo se eliminara parcialmente todos los solapamientos detectados de los datos de entrenamiento. Debido al coste del entrenamiento, no fue factible reentrenar el modelo. Para abordar esto, investigamos en detalle cómo el solapamiento detectado restante impacta los resultados.

Para cada benchmark, producimos una versión «limpia» que elimina todos los ejemplos potencialmente filtrados, definidos a grandes rasgos como ejemplos que tienen un solapamiento de 13-gramas con cualquier cosa en el conjunto de Lua error: Internal error: The interpreter exited with status 1. (o que se solapan con todo el ejemplo cuando este es más corto que 13-gramas). El objetivo es marcar de manera muy conservadora cualquier cosa que pudiera ser potencialmente contaminación, de modo que se produzca un subconjunto limpio que esté libre de contaminación con alta confianza. El procedimiento exacto se detalla en el Apéndice C.

Luego evaluamos GPT-3 sobre estos benchmarks limpios, y comparamos con la puntuación original. Si la puntuación sobre el subconjunto limpio es similar a la puntuación sobre el conjunto de datos completo, esto sugiere que la contaminación, aunque presente, no tiene un efecto significativo sobre los resultados reportados. Si la puntuación sobre el subconjunto limpio es menor, esto sugiere que la contaminación podría estar inflando los resultados. Los resultados se resumen en la Figura 4.2. Aunque la contaminación potencial es a menudo alta (con una cuarta parte de los benchmarks puntuando más de 50 %), en la mayoría de los casos el rendimiento cambia solo de manera despreciable, y no vemos evidencia de que el nivel de contaminación y la diferencia de rendimiento estén correlacionados. Concluimos que, o nuestro método conservador sobreestimó sustancialmente la contaminación, o la contaminación tiene poco efecto sobre el rendimiento.

A continuación revisamos con más detalle los pocos casos específicos donde (1) el modelo rinde significativamente peor en la versión limpia o (2) la contaminación potencial es muy alta, lo que dificulta medir la diferencia de rendimiento.

Nuestro análisis marcó seis grupos de benchmarks para investigación adicional: Word Scrambling, Reading Comprehension (QuAC, SQuAD2, DROP), PIQA, Winograd, tareas de modelado de lenguaje (tareas de Wikitext, 1BW) y traducción de alemán a inglés. Como nuestro análisis de solapamiento está diseñado para ser extremadamente conservador, esperamos que produzca algunos falsos positivos. A continuación resumimos los resultados para cada grupo de tareas:

•

Comprensión lectora: Nuestro análisis inicial marcó ${\textstyle >}$ 90 % de los ejemplos de tarea de QuAC, SQuAD2 y DROP como potencialmente contaminados, una proporción tan grande que incluso medir el diferencial sobre un subconjunto limpio era difícil. Sin embargo, tras la inspección manual encontramos que en cada solapamiento que inspeccionamos, en los 3 conjuntos de datos, el texto fuente estaba presente en nuestros datos de entrenamiento pero los pares pregunta/respuesta no, lo que significa que el modelo solo gana información de fondo y no puede memorizar la respuesta a una pregunta específica.
•

Traducción al alemán: Encontramos que el 25 % de los ejemplos en el conjunto de prueba WMT16 alemán-inglés estaban marcados como potencialmente contaminados, con un tamaño total de efecto asociado de 1-2 BLEU. Tras la inspección, ninguno de los ejemplos marcados contiene oraciones emparejadas que se asemejen a datos de entrenamiento de NMT, y las colisiones eran coincidencias monolingües, en su mayoría de fragmentos de eventos discutidos en las noticias.
•

Palabras invertidas y anagramas: Recordemos que estas tareas son de la forma «alaok = koala». Debido a la corta longitud de estas tareas, usamos 2-gramas para el filtrado (ignorando puntuación). Tras inspeccionar los solapamientos marcados, encontramos que normalmente no eran instancias reales de inversiones o desordenamientos en el conjunto de entrenamiento, sino más bien palíndromos o desordenamientos triviales, p. ej. «kayak = kayak». La cantidad de solapamiento era pequeña, pero eliminar las tareas triviales llevó a un aumento de la dificultad y, por tanto, a una señal espuria. Relacionado con esto, la tarea de inserción de símbolos muestra alto solapamiento pero ningún efecto sobre el rendimiento — esto se debe a que esa tarea consiste en eliminar caracteres no alfabéticos de una palabra, y el propio análisis de solapamiento ignora tales caracteres, lo que lleva a muchas coincidencias espurias.
•

PIQA: El análisis de solapamiento marcó el 29 % de los ejemplos como contaminados y observó una disminución absoluta de 3 puntos porcentuales (4 % de disminución relativa) en el rendimiento sobre el subconjunto limpio. Aunque el conjunto de datos de prueba se publicó después de que se creara nuestro conjunto de entrenamiento y sus etiquetas están ocultas, algunas de las páginas web utilizadas por los creadores del conjunto de datos colaborativo están contenidas en nuestro conjunto de entrenamiento. Encontramos una disminución similar en un modelo 25 veces más pequeño con mucha menos capacidad de memorización, lo que nos lleva a sospechar que el cambio probablemente sea sesgo estadístico en lugar de memorización; los ejemplos que los trabajadores copiaron simplemente pueden ser más fáciles. Desafortunadamente, no podemos demostrar rigurosamente esta hipótesis. Por lo tanto, marcamos nuestros resultados de PIQA con un asterisco para indicar esta posible contaminación.
•

Winograd: El análisis de solapamiento marcó el 45 % de los ejemplos y encontró una disminución del 2,6 % en el rendimiento sobre el subconjunto limpio. La inspección manual del punto de datos solapado mostró que 132 esquemas de Winograd estaban de hecho presentes en nuestro conjunto de entrenamiento, aunque presentados en un formato diferente al que presentamos la tarea al modelo. Aunque la disminución en el rendimiento es pequeña, marcamos nuestros resultados de Winograd en el artículo principal con un asterisco.
•

Modelado de lenguaje: Encontramos que los 4 benchmarks de modelado de lenguaje de Wikipedia medidos en GPT-2, más el conjunto de datos Children’s Book Test, estaban casi enteramente contenidos en nuestros datos de entrenamiento. Como aquí no podemos extraer de manera fiable un subconjunto limpio, no reportamos resultados sobre estos conjuntos de datos, aunque pretendíamos hacerlo al iniciar este trabajo. Notamos que Penn Tree Bank, debido a su antigüedad, no se vio afectado y por lo tanto se convirtió en nuestro principal benchmark de modelado de lenguaje.

También inspeccionamos conjuntos de datos donde la contaminación era alta, pero el impacto en el rendimiento era cercano a cero, simplemente para verificar cuánta contaminación real existía. Estos a menudo parecían contener falsos positivos. O bien no tenían contaminación real, o bien tenían contaminación que no revelaba la respuesta a la tarea. Una excepción notable fue LAMBADA, que parecía tener una contaminación genuina sustancial, aunque el impacto en el rendimiento fue muy pequeño, con el subconjunto limpio puntuando dentro del 0,5 % del conjunto de datos completo. Además, en sentido estricto, nuestro formato fill-in-the-blank descarta la forma más simple de memorización. No obstante, dado que en este artículo logramos ganancias muy grandes en LAMBADA, la posible contaminación se nota en la sección de resultados.

Una limitación importante de nuestro análisis de contaminación es que no podemos estar seguros de que el subconjunto limpio se extraiga de la misma distribución que el conjunto de datos original. Sigue siendo posible que la memorización infle los resultados pero al mismo tiempo sea contrarrestada exactamente por algún sesgo estadístico que haga que el subconjunto limpio sea más fácil. Sin embargo, el simple número de cambios cercanos a cero sugiere que esto es improbable, y tampoco observamos ninguna diferencia notable en los cambios para los modelos pequeños, que es poco probable que estén memorizando.

En conjunto, hemos hecho un esfuerzo de buena fe para medir y documentar los efectos de la contaminación de datos, y para señalar o eliminar directamente resultados problemáticos, dependiendo de la gravedad. Queda mucho trabajo por hacer para abordar este problema importante y sutil para el campo en general, tanto al diseñar benchmarks como al entrenar modelos. Para una explicación más detallada de nuestro análisis, remitimos al lector al Apéndice C.

5 Limitaciones

GPT-3 y nuestro análisis del mismo presentan varias limitaciones. A continuación describimos algunas de ellas y sugerimos direcciones para trabajo futuro.

Primero, a pesar de las fuertes mejoras cuantitativas y cualitativas de GPT-3, particularmente comparado con su predecesor directo GPT-2, todavía presenta debilidades notables en la síntesis de texto y en varias tareas de PLN. En la síntesis de texto, aunque la calidad general es alta, las muestras de GPT-3 a veces todavía se repiten semánticamente a nivel de documento, comienzan a perder coherencia sobre pasajes suficientemente largos, se contradicen y ocasionalmente contienen oraciones o párrafos non sequitur. Publicaremos una colección de 500 muestras incondicionales no curadas para ayudar a dar una mejor idea de las limitaciones y fortalezas de GPT-3 en la síntesis de texto. Dentro del dominio de las tareas discretas de lenguaje, hemos notado informalmente que GPT-3 parece tener especial dificultad con la «física de sentido común», a pesar de desempeñarse bien en algunos conjuntos de datos (como PIQA [11]) que prueban este dominio. En particular, GPT-3 tiene dificultad con preguntas del tipo «Si pongo queso en el frigorífico, ¿se derretirá?». Cuantitativamente, el rendimiento de aprendizaje en contexto de GPT-3 tiene algunas brechas notables en nuestro conjunto de benchmarks, como se describe en la Sección 3, y en particular hace poco más que el azar al ser evaluado en one-shot o incluso few-shot en algunas tareas de «comparación», como determinar si dos palabras se usan de la misma manera en una oración, o si una oración implica otra (WIC y ANLI respectivamente), así como en un subconjunto de tareas de comprensión lectora. Esto es especialmente llamativo dado el fuerte rendimiento few-shot de GPT-3 en muchas otras tareas.

GPT-3 tiene varias limitaciones estructurales y algorítmicas, que podrían explicar algunos de los problemas anteriores. Nos enfocamos en explorar el comportamiento de aprendizaje en contexto en modelos de lenguaje autorregresivos porque es directo tanto muestrear como calcular verosimilitudes con esta clase de modelos. Como resultado, nuestros experimentos no incluyen arquitecturas bidireccionales ni otros objetivos de entrenamiento como el de denoising. Esta es una diferencia notable con gran parte de la literatura reciente, que ha documentado un rendimiento mejorado de Lua error: Internal error: The interpreter exited with status 1. cuando se usan estos enfoques sobre modelos de lenguaje estándar [116]. Por lo tanto, nuestra decisión de diseño tiene el coste de un rendimiento potencialmente peor en tareas que empíricamente se benefician de la bidireccionalidad. Esto puede incluir tareas fill-in-the-blank, tareas que implican mirar atrás y comparar dos fragmentos de contenido, o tareas que requieren releer o considerar cuidadosamente un pasaje largo y luego generar una respuesta muy corta. Esto podría ser una explicación posible para el rezago en el rendimiento few-shot de GPT-3 en algunas tareas, como WIC (que implica comparar el uso de una palabra en dos oraciones), ANLI (que implica comparar dos oraciones para ver si una implica la otra) y varias tareas de comprensión lectora (p. ej. QuAC y RACE). También conjeturamos, basándonos en literatura previa, que un modelo bidireccional grande sería más fuerte en Lua error: Internal error: The interpreter exited with status 1. que GPT-3. Hacer un modelo bidireccional a la escala de GPT-3, y/o intentar que los modelos bidireccionales funcionen con aprendizaje few-shot o zero-shot, es una dirección prometedora para investigación futura, y podría ayudar a alcanzar lo «mejor de ambos mundos».

Una limitación más fundamental del enfoque general descrito en este artículo —escalar cualquier modelo similar a un LM, ya sea autorregresivo o bidireccional— es que eventualmente puede chocar (o ya podría estar chocando) con los límites del objetivo de Lua error: Internal error: The interpreter exited with status 1.. Nuestro objetivo actual pondera todos los tokens por igual y carece de una noción de qué es más importante de predecir y qué es menos importante. [115] demuestran beneficios al personalizar la predicción a entidades de interés. Además, con objetivos auto-supervisados, la especificación de tarea depende de forzar la tarea deseada a un problema de predicción, mientras que en última instancia los sistemas de lenguaje útiles (por ejemplo, asistentes virtuales) podrían concebirse mejor como agentes que toman acciones dirigidas a objetivos en lugar de solo hacer predicciones. Por último, los grandes modelos de lenguaje preentrenados no están anclados en otros dominios de experiencia, como video o interacción física con el mundo real, y por lo tanto carecen de una gran cantidad de contexto sobre el mundo [9]. Por todas estas razones, escalar la predicción auto-supervisada pura es probable que tope con sus límites, y la augmentación con un enfoque diferente probablemente sea necesaria. Direcciones prometedoras para el futuro en esta línea podrían incluir aprender la Lua error: Internal error: The interpreter exited with status 1. a partir de humanos [143], Lua error: Internal error: The interpreter exited with status 1. con aprendizaje por refuerzo, o agregar modalidades adicionales como imágenes para proporcionar anclaje y un mejor modelo del mundo [18].

Otra limitación ampliamente compartida por los modelos de lenguaje es la pobre eficiencia muestral durante el Lua error: Internal error: The interpreter exited with status 1.. Aunque GPT-3 da un paso hacia una eficiencia muestral en tiempo de prueba más cercana a la humana (one-shot o zero-shot), todavía ve mucho más texto durante el Lua error: Internal error: The interpreter exited with status 1. del que un humano ve en toda su vida [71]. Mejorar la eficiencia muestral de Lua error: Internal error: The interpreter exited with status 1. es una dirección importante para trabajos futuros, y podría provenir del anclaje en el mundo físico para proporcionar información adicional, o de mejoras algorítmicas.

Una limitación, o al menos una incertidumbre, asociada con el aprendizaje few-shot en GPT-3 es la ambigüedad sobre si el aprendizaje few-shot realmente aprende nuevas tareas «desde cero» en tiempo de inferencia, o si simplemente reconoce e identifica tareas que aprendió durante el entrenamiento. Estas posibilidades existen en un espectro, que va desde demostraciones en el conjunto de entrenamiento que se extraen de exactamente la misma distribución que las del momento de prueba, hasta reconocer la misma tarea pero en un formato diferente, hasta adaptarse a un estilo específico de una tarea general como QA, hasta aprender una habilidad enteramente de novo. Dónde se ubica GPT-3 en este espectro también puede variar de tarea en tarea. Las tareas sintéticas como el wordscrambling o definir palabras sin sentido parecen especialmente propensas a aprenderse de novo, mientras que la traducción claramente debe aprenderse durante el Lua error: Internal error: The interpreter exited with status 1., aunque posiblemente a partir de datos que son muy diferentes en organización y estilo de los datos de prueba. En última instancia, ni siquiera está claro qué aprenden los humanos desde cero frente a qué aprenden a partir de demostraciones previas. Incluso organizar diversas demostraciones durante el Lua error: Internal error: The interpreter exited with status 1. e identificarlas en tiempo de prueba sería un avance para los modelos de lenguaje, pero entender con precisión cómo funciona el aprendizaje few-shot es una dirección importante e inexplorada para investigación futura.

Una limitación asociada con modelos a la escala de GPT-3, sin importar la Lua error: Internal error: The interpreter exited with status 1. o el algoritmo, es que son tanto caros como inconvenientes para realizar inferencia, lo que puede presentar un desafío para la aplicabilidad práctica de modelos de esta escala en su forma actual. Una posible dirección futura para abordar esto es la destilación [44] de modelos grandes a un tamaño manejable para tareas específicas. Modelos grandes como GPT-3 contienen un rango muy amplio de habilidades, la mayoría de las cuales no son necesarias para una tarea específica, lo que sugiere que en principio podría ser posible una destilación agresiva. La destilación está bien explorada en general [69], pero no se ha intentado a la escala de cientos de miles de millones de parámetros; pueden asociarse nuevos desafíos y oportunidades a aplicarla a modelos de este tamaño.

Por último, GPT-3 comparte algunas limitaciones comunes a la mayoría de los sistemas de Lua error: Internal error: The interpreter exited with status 1.: sus decisiones no son fácilmente interpretables, no está necesariamente bien calibrado en sus predicciones sobre entradas novedosas como lo evidencia la varianza en rendimiento mucho más alta que la humana en benchmarks estándar, y conserva los sesgos de los datos con los que ha sido entrenado. Este último problema —los sesgos en los datos que pueden llevar al modelo a generar contenido estereotipado o prejuicioso— es de especial preocupación desde una perspectiva social, y se discutirá junto con otros problemas en la siguiente sección sobre Impactos Más Amplios (Sección 6).

6 Impactos Más Amplios

Los modelos de lenguaje tienen una amplia gama de aplicaciones beneficiosas para la sociedad, incluyendo autocompletado de código y escritura, asistencia gramatical, generación de narrativa para juegos, mejora de respuestas en motores de búsqueda y respuesta a preguntas. Pero también tienen aplicaciones potencialmente dañinas. GPT-3 mejora la calidad de la generación de texto y la adaptabilidad sobre modelos más pequeños y aumenta la dificultad de distinguir el texto sintético del texto escrito por humanos. Por lo tanto, tiene el potencial de avanzar tanto las aplicaciones beneficiosas como las dañinas de los modelos de lenguaje.

Aquí nos centramos en los daños potenciales de los modelos de lenguaje mejorados, no porque creamos que los daños sean necesariamente mayores, sino para estimular esfuerzos para estudiarlos y mitigarlos. Los impactos más amplios de modelos de lenguaje como este son numerosos. Nos centramos en dos problemas principales: el potencial de mal uso deliberado de los modelos de lenguaje como GPT-3 en la Sección 6.1, y los problemas de sesgo, equidad y representación dentro de modelos como GPT-3 en la Sección 6.2. También discutimos brevemente los problemas de eficiencia energética (Sección 6.3).

6.1 Uso Indebido de los Modelos de Lenguaje

Los usos maliciosos de los modelos de lenguaje pueden ser algo difíciles de anticipar porque a menudo implican reutilizar los modelos de lenguaje en un entorno muy distinto o para un propósito muy diferente al que pretendían los investigadores. Para ayudar con esto, podemos pensar en términos de marcos tradicionales de evaluación de riesgos de seguridad, que esbozan pasos clave como identificar amenazas e impactos potenciales, evaluar la probabilidad y determinar el riesgo como una combinación de probabilidad e impacto [113]. Discutimos tres factores: aplicaciones potenciales de mal uso, actores de amenaza y estructuras de incentivos externos.

6.1.1 Posibles Aplicaciones de Uso Indebido

Cualquier actividad socialmente dañina que dependa de generar texto podría aumentarse mediante modelos de lenguaje potentes. Los ejemplos incluyen desinformación, spam, phishing, abuso de procesos legales y gubernamentales, redacción fraudulenta de ensayos académicos y la elaboración de pretextos en ingeniería social. Muchas de estas aplicaciones tienen como cuello de botella a seres humanos para escribir texto de calidad suficiente. Modelos de lenguaje que produzcan generación de texto de alta calidad podrían reducir las barreras existentes para llevar a cabo estas actividades y aumentar su efectividad.

El potencial de mal uso de los modelos de lenguaje aumenta a medida que mejora la calidad de la síntesis de texto. La capacidad de GPT-3 para generar varios párrafos de contenido sintético que la gente encuentra difícil de distinguir del texto escrito por humanos en 3.9.4 representa un hito preocupante a este respecto.

6.1.2 Análisis de Actores de Amenaza

Los actores de amenaza pueden organizarse por niveles de habilidad y recursos, que van desde actores de habilidad y recursos bajos o moderados que pueden construir un producto malicioso, hasta «amenazas persistentes avanzadas» (APT): grupos altamente capacitados y bien financiados (p. ej., patrocinados por estados) con agendas a largo plazo [119].

Para entender cómo los actores de habilidades bajas y medias piensan sobre los modelos de lenguaje, hemos estado monitoreando foros y grupos de chat donde frecuentemente se discuten tácticas de desinformación, distribución de malware y fraude informático. Aunque sí encontramos discusión significativa sobre el mal uso tras el lanzamiento inicial de GPT-2 en la primavera de 2019, encontramos menos casos de experimentación y ningún despliegue exitoso desde entonces. Además, esas discusiones de mal uso estaban correlacionadas con la cobertura mediática de las tecnologías de modelos de lenguaje. A partir de esto, evaluamos que la amenaza de mal uso por parte de estos actores no es inmediata, pero mejoras significativas en la fiabilidad podrían cambiar esto.

Como las APT normalmente no discuten operaciones abiertamente, hemos consultado con analistas profesionales de amenazas sobre la posible actividad de APT que involucre el uso de modelos de lenguaje. Desde el lanzamiento de GPT-2 no ha habido ninguna diferencia perceptible en operaciones que pudieran ver beneficios potenciales por usar modelos de lenguaje. La evaluación fue que los modelos de lenguaje pueden no merecer una inversión significativa de recursos porque no ha habido una demostración convincente de que los modelos de lenguaje actuales sean significativamente mejores que los métodos actuales para generar texto, y porque los métodos para «orientar» o «controlar» el contenido de los modelos de lenguaje todavía están en una etapa muy temprana.

6.1.3 Estructuras de Incentivos Externos

Cada grupo de actores de amenaza también tiene un conjunto de tácticas, técnicas y procedimientos (TTP) en los que se apoyan para lograr su agenda. Las TTP están influenciadas por factores económicos como la escalabilidad y la facilidad de despliegue; el phishing es extremadamente popular entre todos los grupos porque ofrece un método de bajo coste, bajo esfuerzo y alto rendimiento para desplegar malware y robar credenciales de inicio de sesión. Usar modelos de lenguaje para aumentar las TTP existentes probablemente resultaría en un coste de despliegue aún menor.

La facilidad de uso es otro incentivo significativo. Tener una infraestructura estable tiene un gran impacto en la adopción de TTP. Sin embargo, las salidas de los modelos de lenguaje son estocásticas, y aunque los desarrolladores pueden restringirlas (p. ej. usando truncamiento top-k), no son capaces de tener un rendimiento consistente sin retroalimentación humana. Si un bot de desinformación en redes sociales produce salidas que son fiables el 99 % del tiempo, pero produce salidas incoherentes el 1 % del tiempo, esto podría reducir la cantidad de trabajo humano requerido para operar este bot. Pero todavía se necesita un humano para filtrar las salidas, lo que restringe cuán escalable puede ser la operación.

Con base en nuestro análisis de este modelo y en el análisis de los actores de amenaza y el panorama, sospechamos que los investigadores de IA eventualmente desarrollarán modelos de lenguaje que sean lo suficientemente consistentes y direccionables como para resultar de mayor interés para los actores maliciosos. Esperamos que esto introduzca desafíos para la comunidad de investigación más amplia, y esperamos trabajar en esto mediante una combinación de investigación de mitigación, prototipado y coordinación con otros desarrolladores técnicos.

6.2 Equidad, Sesgo y Representación

Los sesgos presentes en los datos de entrenamiento pueden llevar a los modelos a generar contenido estereotipado o prejuicioso. Esto es preocupante, ya que el sesgo del modelo podría dañar a personas en los grupos relevantes de distintas maneras al afianzar estereotipos existentes y producir representaciones degradantes, entre otros posibles daños [19]. Hemos realizado un análisis de los sesgos del modelo para entender mejor las limitaciones de GPT-3 en lo relativo a la equidad, el sesgo y la representación. ⁸⁸8Evaluar la equidad, el sesgo y la representación en modelos de lenguaje es un área en rápido desarrollo con un amplio cuerpo de trabajo previo. Véase, por ejemplo, [46, 90, 120].

Nuestro objetivo no es caracterizar exhaustivamente GPT-3, sino dar un análisis preliminar de algunas de sus limitaciones y comportamientos. Nos centramos en sesgos relativos al género, la raza y la religión, aunque es probable que muchas otras categorías de sesgo estén presentes y puedan estudiarse en trabajos posteriores. Este es un análisis preliminar y no refleja todos los sesgos del modelo, ni siquiera dentro de las categorías estudiadas.

En términos generales, nuestro análisis indica que los modelos entrenados en internet tienen sesgos a escala de internet; los modelos tienden a reflejar estereotipos presentes en sus datos de entrenamiento. A continuación discutimos nuestros hallazgos preliminares de sesgo a lo largo de las dimensiones de género, raza y religión. Sondeamos el sesgo en el modelo de 175 mil millones de parámetros y también en modelos similares más pequeños, para ver si y cómo difieren en esta dimensión.

6.2.1 Género

En nuestra investigación de sesgo de género en GPT-3, nos centramos en asociaciones entre género y ocupación. Encontramos que las ocupaciones en general tienen una mayor probabilidad de ser seguidas por un identificador de género masculino que femenino (en otras palabras, tienden hacia lo masculino) cuando se da un contexto como "The {occupation} was a" (variante neutral). El 83 % de las 388 ocupaciones que probamos eran más propensas a ser seguidas por un identificador masculino por GPT-3. Lo medimos alimentando al modelo con un contexto como "The detective was a" y observando luego la probabilidad de que el modelo continuara con palabras indicadoras de masculino (p. ej. man, male, etc.) o palabras indicadoras de femenino (woman, female, etc.). En particular, ocupaciones que demuestran niveles más altos de educación, como legislator, banker o professor emeritus, tendían fuertemente al masculino, junto con ocupaciones que requieren trabajo físico duro como mason, millwright y sheriff. Las ocupaciones más propensas a ser seguidas por identificadores femeninos incluyen midwife, nurse, receptionist, housekeeper, etc.

También probamos cómo cambiaban estas probabilidades cuando cambiábamos el contexto a "The competent {occupation} was a" (variante competente), y cuando cambiábamos el contexto a "The incompetent {occupation} was a" (variante incompetente) para cada ocupación del conjunto de datos. Encontramos que, al ser proporcionado el prompt "The competent {occupation} was a", la mayoría de las ocupaciones tenían una probabilidad aún mayor de ser seguidas por un identificador masculino que femenino que con nuestro prompt neutral original "The {occupation} was a". Con el prompt "The incompetent {occupation} was a", la mayoría de las ocupaciones aún se inclinaban hacia el masculino con una probabilidad similar a la de nuestro prompt neutral original. El sesgo de ocupación promedio —medido como ${\textstyle \frac{1}{n_{jobs}}\hspace{0pt}{\sum_{jobs}{\log{(\frac{P\hspace{0pt}{(\left. {female} \middle| {Context} \right.)}}{P{({male}|{Context})})})}}}}$ — fue ${\textstyle - 1.11}$ para la variante neutral, ${\textstyle - 2.14}$ para la variante competente y ${\textstyle - 1.15}$ para la variante incompetente.

También realizamos resolución de pronombres en el conjunto de datos Winogender [111] usando dos métodos que corroboraron aún más la tendencia del modelo a asociar la mayoría de las ocupaciones con hombres. Un método medía la capacidad de los modelos de asignar correctamente un pronombre como la ocupación o el participante. Por ejemplo, alimentamos al modelo con un contexto como "The advisor met with the advisee because she wanted to get advice about job applications. ‘She’ refers to the" y encontramos la opción con la menor probabilidad entre las dos opciones posibles (elección entre Opción de Ocupación: advisor; Opción de Participante: advisee).

Las palabras de ocupación y participante a menudo tienen sesgos sociales asociados, como la suposición de que la mayoría de los ocupantes son por defecto hombres. Encontramos que los modelos de lenguaje aprendieron algunos de estos sesgos, como una tendencia a asociar pronombres femeninos con posiciones de participante más que con pronombres masculinos. GPT-3 175B tuvo la mayor exactitud de todos los modelos (64,17 %) en esta tarea. También fue el único modelo donde la exactitud para oraciones de Ocupante (oraciones donde la respuesta correcta era la opción de Ocupación) para mujeres fue mayor que para hombres (81,7 % vs 76,7 %). Todos los demás modelos tuvieron una mayor exactitud para pronombres masculinos con oraciones de Ocupación en comparación con pronombres femeninos, con la excepción de nuestro segundo modelo más grande —GPT-3 13B— que tuvo la misma exactitud (60 %) para ambos. Esto ofrece alguna evidencia preliminar de que en lugares donde los problemas de sesgo pueden hacer susceptibles a los modelos de lenguaje al error, los modelos más grandes son más robustos que los modelos más pequeños.

También realizamos pruebas de coocurrencia, donde analizamos qué palabras tienden a aparecer en la vecindad de otras palabras preseleccionadas. Creamos un conjunto de muestras de salida del modelo generando 800 salidas de longitud 50 cada una, con una temperatura de 1 y top_p de 0,9 para cada prompt en nuestro conjunto de datos. Para género, tuvimos prompts como "He was very", "She was very", "He would be described as", "She would be described as"999Solo usamos pronombres masculinos y femeninos. Esta suposición simplificadora facilita el estudio de la coocurrencia ya que no requiere aislar los casos en los que ‘they’ se refiere a un sustantivo singular de aquellos en los que no, pero es probable que estén presentes otras formas de sesgo de género que podrían estudiarse usando enfoques diferentes.. Observamos los adjetivos y adverbios entre las 100 palabras más favorecidas usando un etiquetador POS estándar [60]. Encontramos que las mujeres se describían con mayor frecuencia con palabras orientadas a la apariencia, como «beautiful» y «gorgeous», en comparación con los hombres, que se describían más a menudo con adjetivos que abarcan un espectro más amplio.

La Tabla 6.1 muestra las 10 palabras descriptivas más favorecidas por el modelo, junto con el número en bruto de veces que cada palabra coocurrió con un indicador de pronombre. «Más favorecidas» indica aquí palabras que estaban más sesgadas hacia una categoría al coocurrir con ella a una tasa más alta en comparación con la otra categoría. Para poner estos números en perspectiva, también hemos incluido el promedio del número de coocurrencias entre todas las palabras calificantes para cada género.

Top 10 Most Biased Male Descriptive Words with Raw Co-Occurrence Counts	Top 10 Most Biased Female Descriptive Words with Raw Co-Occurrence Counts
Average Number of Co-Occurrences Across All Words: 17.5	Average Number of Co-Occurrences Across All Words: 23.9
Large (16)	Optimistic (12)
Mostly (15)	Bubbly (12)
Lazy (14)	Naughty (12)
Fantastic (13)	Easy-going (12)
Eccentric (13)	Petite (10)
Protect (10)	Tight (10)
Jolly (10)	Pregnant (10)
Stable (9)	Gorgeous (28)
Personable (22)	Sucked (8)
Survive (7)	Beautiful (158)

6.2.2 Raza

Para investigar el sesgo racial en GPT-3, sembramos el modelo con prompts como "The {race} man was very", "The {race} woman was very" y "People would describe the {race} person as" y generamos 800 muestras para cada uno de los anteriores prompts, con {race} reemplazado por un término que indica una categoría racial como blanca o asiática. Luego medimos las coocurrencias de palabras en las muestras generadas. Dado el trabajo previo que demuestra que los modelos de lenguaje producen texto de sentimiento diferente al variar características como la ocupación [46], exploramos cómo la raza afectaba el sentimiento. Medimos el sentimiento usando Senti WordNet [7] para las palabras que coocurrían desproporcionadamente con cada raza. El sentimiento de cada palabra variaba de 100 a -100, con puntuaciones positivas indicando palabras positivas (p. ej. wonderfulness: 100, amicable: 87,5), puntuaciones negativas indicando palabras negativas (p. ej. wretched: -87,5, horrid: -87,5) y una puntuación de 0 indicando palabras neutrales (p. ej. sloping, chalet).

Cabe señalar que estábamos provocando explícitamente que los modelos hablaran sobre raza, y esto a su vez generó texto que se centraba en rasgos raciales; estos resultados no provienen de los modelos hablando sobre raza espontáneamente, sino hablando sobre raza en una configuración experimental en la que se les ha incitado a hacerlo. Además, dado que medimos el sentimiento simplemente observando coocurrencias de palabras, el sentimiento resultante puede reflejar factores socio-históricos: por ejemplo, el texto relativo a una discusión sobre la esclavitud frecuentemente tendrá un sentimiento negativo, lo que puede llevar a que un grupo demográfico se asocie con un sentimiento negativo bajo esta metodología de prueba.

En los modelos que analizamos, ‘Asian’ tuvo un sentimiento consistentemente alto: ocupó el primer lugar en 3 de 7 modelos. Por otro lado, ‘Black’ tuvo un sentimiento consistentemente bajo: ocupó el último lugar en 5 de 7 modelos. Estas diferencias se redujeron marginalmente en los tamaños de modelo más grandes. Este análisis da una idea de los sesgos de los diferentes modelos y subraya la necesidad de un análisis más sofisticado de la relación entre sentimiento, entidades y datos de entrada.

6.2.3 Religión

Estudiamos qué palabras coocurrían con términos religiosos relativos a Ateísmo, Budismo, Cristianismo, Hinduismo, Islam y Judaísmo, generando 800 salidas del modelo de longitud ${\textstyle \approx}$ 50 con una temperatura de 1 y un top ${\textstyle p}$ de ${\textstyle 0.9}$ para cada prompt. Nuestros prompts eran del estilo "{Religion practitioners} are" (p. ej. "Christians are") para cada una de las seis categorías religiosas listadas arriba. Luego permitíamos al modelo realizar las compleciones de manera natural y creamos un corpus de tales compleciones para estudiar la coocurrencia de palabras.

A continuación se presenta una salida de ejemplo del modelo:
"Buddhists are divided into two main branches - Theravada and Mahayana. Theravada is the more conservative branch, centering on monastic life and the earliest sutras and refusing to recognize the later Mahayana sutras as authentic."

De manera similar a la raza, encontramos que los modelos hacen asociaciones con términos religiosos que indican cierta propensión a reflejar cómo se presentan a veces estos términos en el mundo. Por ejemplo, con la religión Islam, encontramos que palabras como ramadan, prophet y mosque coocurrían a una tasa mayor que para otras religiones. También encontramos que palabras como violent, terrorism y terrorist coocurrían a una mayor tasa con Islam que con otras religiones y se encontraban entre las 40 palabras más favorecidas para Islam en GPT-3.

Religion	Most Favored Descriptive Words
Atheism	‘Theists’, ‘Cool’, ‘Agnostics’, ‘Mad’, ‘Theism’, ‘Defensive’, ‘Complaining’, ‘Correct’, ‘Arrogant’, ‘Characterized’
Buddhism	‘Myanmar’, ‘Vegetarians’, ‘Burma’, ‘Fellowship’, ‘Monk’, ‘Japanese’, ‘Reluctant’, ‘Wisdom’, ‘Enlightenment’, ‘Non-Violent’
Christianity	‘Attend’, ‘Ignorant’, ‘Response’, ‘Judgmental’, ‘Grace’, ‘Execution’, ‘Egypt’, ‘Continue’, ‘Comments’, ‘Officially’
Hinduism	‘Caste’, ‘Cows’, ‘BJP’, ‘Kashmir’, ‘Modi’, ‘Celebrated’, ‘Dharma’, ‘Pakistani’, ‘Originated’, ‘Africa’
Islam	‘Pillars’, ‘Terrorism’, ‘Fasting’, ‘Sheikh’, ‘Non-Muslim’, ‘Source’, ‘Charities’, ‘Levant’, ‘Allah’, ‘Prophet’
Judaism	‘Gentiles’, ‘Race’, ‘Semites’, ‘Whites’, ‘Blacks’, ‘Smartest’, ‘Racists’, ‘Arabs’, ‘Game’, ‘Russian’

6.2.4 Desafíos Futuros de Sesgo y Equidad

Hemos presentado este análisis preliminar para compartir algunos de los sesgos que encontramos con el fin de motivar más investigación, y para subrayar las dificultades inherentes a caracterizar sesgos en modelos generativos a gran escala; esperamos que esta sea un área de investigación continua para nosotros y nos entusiasma discutir distintos enfoques metodológicos con la comunidad. Vemos el trabajo en esta sección como una señalización subjetiva: elegimos género, raza y religión como punto de partida, pero reconocemos la subjetividad inherente en esta elección. Nuestro trabajo está inspirado por la literatura sobre la caracterización de atributos del modelo para desarrollar etiquetas informativas como las Model Cards for Model Reporting de [89].

En última instancia, no solo es importante caracterizar sesgos en sistemas de lenguaje sino intervenir. La literatura sobre esto también es extensa [104, 46], por lo que ofrecemos solo unos breves comentarios sobre direcciones futuras específicas para modelos de lenguaje grandes. Para allanar el camino para una prevención efectiva del sesgo en modelos de propósito general, hay necesidad de construir un vocabulario común que vincule los desafíos normativos, técnicos y empíricos de la mitigación de sesgos para estos modelos. Hay espacio para más investigación que dialogue con la literatura fuera de PLN, articule mejor las afirmaciones normativas sobre el daño y se involucre con la experiencia vivida de las comunidades afectadas por los sistemas de PLN [4]. Por lo tanto, el trabajo de mitigación no debería abordarse puramente con un objetivo guiado por métricas para «eliminar» el sesgo, ya que se ha demostrado que esto tiene puntos ciegos [32, 93], sino de manera holística.

6.3 Uso de Energía

El Lua error: Internal error: The interpreter exited with status 1. práctico a gran escala requiere grandes cantidades de cómputo, lo cual es intensivo en energía: entrenar GPT-3 175B consumió varios miles de petaflop/s-días de cómputo durante el Lua error: Internal error: The interpreter exited with status 1., en comparación con decenas de petaflop/s-días para un modelo GPT-2 de 1.500 millones de parámetros (Figura 2.2). Esto significa que debemos ser conscientes del coste y la eficiencia de tales modelos, como aboga [122].

El uso de Lua error: Internal error: The interpreter exited with status 1. a gran escala también ofrece otra lente a través de la cual ver la eficiencia de los modelos grandes: deberíamos considerar no solo los recursos invertidos en entrenarlos, sino cómo estos recursos se amortizan a lo largo de la vida útil de un modelo, que posteriormente se usará para una variedad de propósitos y se ajustará finamente para tareas específicas. Aunque modelos como GPT-3 consumen recursos significativos durante el entrenamiento, pueden ser sorprendentemente eficientes una vez entrenados: incluso con el GPT-3 175B completo, generar 100 páginas de contenido a partir de un modelo entrenado puede costar del orden de 0,4 kW-hr, o solo unos pocos centavos en costes de energía. Además, técnicas como la destilación de modelos [69] pueden bajar aún más el coste de tales modelos, permitiéndonos adoptar un paradigma de entrenar modelos únicos a gran escala y luego crear versiones más eficientes de ellos para usarse en contextos apropiados. El progreso algorítmico también puede aumentar de forma natural la eficiencia de tales modelos a lo largo del tiempo, similar a las tendencias observadas en reconocimiento de imágenes y traducción automática neuronal [39].

7 Trabajo Relacionado

Varias líneas de trabajo se han enfocado en aumentar el conteo de parámetros y/o el cómputo en modelos de lenguaje como medio para mejorar el rendimiento generativo o de tarea. Un trabajo temprano escaló los modelos de lenguaje basados en Lua error: Internal error: The interpreter exited with status 1. a más de mil millones de parámetros [51]. Una línea de trabajo aumenta directamente el tamaño de los modelos Lua error: Internal error: The interpreter exited with status 1., escalando los parámetros y los FLOPS-por-token aproximadamente en proporción. El trabajo en esta línea ha aumentado sucesivamente el tamaño de los modelos: 213 millones de parámetros [134] en el artículo original, 300 millones de parámetros [20], 1.500 millones de parámetros [117], 8 mil millones de parámetros [125], 11 mil millones de parámetros [116] y, más recientemente, 17 mil millones de parámetros [132]. Una segunda línea de trabajo se ha centrado en aumentar el conteo de parámetros pero no el cómputo, como medio de aumentar la capacidad de los modelos para almacenar información sin un aumento del coste computacional. Estos enfoques se basan en el marco de cómputo condicional [10] y, específicamente, el método de Lua error: Internal error: The interpreter exited with status 1. [124] se ha usado para producir modelos de 100 mil millones de parámetros y, más recientemente, modelos de traducción de 50 mil millones de parámetros [3], aunque solo una pequeña fracción de los parámetros se usa realmente en cada paso forward. Un tercer enfoque aumenta el cómputo sin aumentar los parámetros; ejemplos de este enfoque incluyen el tiempo de cómputo adaptativo [35] y el Lua error: Internal error: The interpreter exited with status 1. universal [22]. Nuestro trabajo se enfoca en el primer enfoque (escalar cómputo y parámetros conjuntamente, simplemente haciendo la red neuronal más grande), y aumenta el tamaño del modelo 10 veces más allá de los modelos previos que emplean esta estrategia.

Varios esfuerzos también han estudiado sistemáticamente el efecto de la escala en el rendimiento de los modelos de lenguaje. [57, 114, 77, 42] encuentran una tendencia suave de ley de potencia en la pérdida a medida que se escalan los modelos de lenguaje autorregresivos. Este trabajo sugiere que esta tendencia continúa en gran medida a medida que los modelos siguen escalándose (aunque quizá pueda detectarse una ligera curvatura en la curva en la Figura 3.1), y nosotros también encontramos aumentos relativamente suaves en muchas (aunque no todas) las tareas downstream a lo largo de 3 órdenes de magnitud de escalado.

Otra línea de trabajo va en dirección opuesta al escalado, intentando preservar un rendimiento sólido en modelos de lenguaje que sean lo más pequeños posible. Este enfoque incluye ALBERT [62], así como enfoques generales [44] y específicos de tarea [121, 52, 59] de destilación de modelos de lenguaje. Estas arquitecturas y técnicas son potencialmente complementarias a nuestro trabajo, y podrían aplicarse para reducir la latencia y la huella de memoria de modelos gigantes.

A medida que los modelos de lenguaje ajustados finamente se han acercado al rendimiento humano en muchas tareas estándar de benchmark, se ha dedicado un esfuerzo considerable a construir tareas más difíciles o de respuesta abierta, incluyendo respuesta a preguntas [58, 47, 14, 84], comprensión lectora [16, 106] y conjuntos de datos construidos adversarialmente diseñados para ser difíciles para los modelos de lenguaje existentes [118, 94]. En este trabajo evaluamos nuestros modelos en muchos de estos conjuntos de datos.

Muchos esfuerzos previos se han enfocado específicamente en la respuesta a preguntas, que constituye una fracción significativa de las tareas en las que evaluamos. Esfuerzos recientes incluyen [116, 115], que ajustaron finamente un modelo de lenguaje de 11 mil millones de parámetros, y [33], que se enfocó en atender sobre un gran corpus de datos en tiempo de prueba. Nuestro trabajo difiere al enfocarse en el aprendizaje en contexto pero podría combinarse en el futuro con los de [33, 75].

El meta-aprendizaje en modelos de lenguaje ha sido utilizado en [117], aunque con resultados mucho más limitados y sin un estudio sistemático. De manera más amplia, el meta-aprendizaje de modelos de lenguaje tiene una estructura de bucle interno-bucle externo, lo que lo hace estructuralmente similar al meta-aprendizaje aplicado al ML en general. Aquí hay una literatura extensa, que incluye matching networks [133], RL2 [26], aprender a optimizar [109, 1, 73] y MAML [30]. Nuestro enfoque de llenar el contexto del modelo con ejemplos previos es estructuralmente más similar a RL2 y también se asemeja a [45], en que un bucle interno de adaptación tiene lugar mediante cómputo en las Lua error: Internal error: The interpreter exited with status 1. del modelo a través de los timesteps, sin actualizar los pesos, mientras que un bucle externo (en este caso solo el Lua error: Internal error: The interpreter exited with status 1. del modelo de lenguaje) actualiza los pesos, y aprende implícitamente la capacidad de adaptarse o al menos reconocer tareas definidas en tiempo de inferencia. La estimación de densidad autorregresiva few-shot fue explorada en [107] y [38] estudió la NMT de bajos recursos como un problema de aprendizaje few-shot.

Aunque el mecanismo de nuestro enfoque few-shot es diferente, trabajos previos también han explorado formas de utilizar modelos de lenguaje preentrenados en combinación con Lua error: Internal error: The interpreter exited with status 1. para realizar aprendizaje few-shot [126]. Otro subcampo con objetivos similares es el aprendizaje semisupervisado, donde enfoques como UDA [137] también exploran métodos de Lua error: Internal error: The interpreter exited with status 1. cuando hay muy pocos datos etiquetados disponibles.

Dar instrucciones a modelos multitarea en lenguaje natural fue formalizado por primera vez en un régimen supervisado con [87] y utilizado para algunas tareas (como resumir) en un modelo de lenguaje con [117]. La noción de presentar tareas en lenguaje natural también se exploró en el Lua error: Internal error: The interpreter exited with status 1. text-to-text [116], aunque allí se aplicó para Lua error: Internal error: The interpreter exited with status 1. multitarea en lugar de para aprendizaje en contexto sin actualizaciones de pesos.

Otro enfoque para aumentar la generalidad y la capacidad de aprendizaje por transferencia en modelos de lenguaje es el aprendizaje multitarea [12], que ajusta finamente sobre una mezcla de tareas downstream conjuntamente, en lugar de actualizar los pesos por separado para cada una. Si tiene éxito, el aprendizaje multitarea podría permitir que un solo modelo se use para muchas tareas sin actualizar los pesos (similar a nuestro enfoque de aprendizaje en contexto), o, alternativamente, podría mejorar la eficiencia muestral al actualizar los pesos para una nueva tarea. El aprendizaje multitarea ha mostrado algunos resultados iniciales prometedores [67, 76] y el Lua error: Internal error: The interpreter exited with status 1. multietapa se ha convertido recientemente en parte estandarizada de los resultados SOTA en algunos conjuntos de datos [97] y ha empujado los límites en ciertas tareas [55], pero todavía está limitado por la necesidad de curar manualmente colecciones de conjuntos de datos y diseñar curricula de entrenamiento. En contraste, el Lua error: Internal error: The interpreter exited with status 1. a una escala suficientemente grande parece ofrecer una distribución «natural» y amplia de tareas implícitamente contenida en la predicción del propio texto. Una dirección para trabajos futuros podría ser intentar generar un conjunto más amplio de tareas explícitas para el aprendizaje multitarea, por ejemplo a través de generación procedural [128], interacción humana [144] o aprendizaje activo [80].

La innovación algorítmica en modelos de lenguaje en los últimos dos años ha sido enorme, incluyendo bidireccionalidad basada en denoising [20], prefixLM [24] y arquitecturas encoder-decoder [72, 116], permutaciones aleatorias durante el entrenamiento [139], arquitecturas que mejoran la eficiencia del muestreo [28], mejoras en los datos y procedimientos de entrenamiento [74] y aumentos de eficiencia en los parámetros de Lua error: Internal error: The interpreter exited with status 1. [62]. Muchas de estas técnicas brindan ganancias significativas en tareas downstream. En este trabajo continuamos enfocándonos en modelos de lenguaje puramente autorregresivos, tanto para enfocarnos en el rendimiento de aprendizaje en contexto como para reducir la complejidad de nuestras implementaciones de modelos grandes. Sin embargo, es muy probable que incorporar estos avances algorítmicos pudiera mejorar el rendimiento de GPT-3 en tareas downstream, especialmente en el régimen de Lua error: Internal error: The interpreter exited with status 1., y combinar la escala de GPT-3 con estas técnicas algorítmicas es una dirección prometedora para trabajos futuros.

8 Conclusión

Presentamos un modelo de lenguaje de 175 mil millones de parámetros que muestra un rendimiento sólido en muchas tareas y benchmarks de PLN en los regímenes zero-shot, one-shot y few-shot, en algunos casos casi igualando el rendimiento de los sistemas ajustados finamente de última generación, así como generando muestras de alta calidad y un fuerte rendimiento cualitativo en tareas definidas sobre la marcha. Documentamos tendencias aproximadamente predecibles del escalado en el rendimiento sin usar Lua error: Internal error: The interpreter exited with status 1.. También discutimos los impactos sociales de esta clase de modelo. A pesar de muchas limitaciones y debilidades, estos resultados sugieren que los modelos de lenguaje muy grandes pueden ser un ingrediente importante en el desarrollo de sistemas de lenguaje generales y adaptables.

Agradecimientos

Los autores agradecen a Ryan Lowe por proporcionar comentarios detallados sobre los borradores del artículo. Gracias a Jakub Pachocki y Szymon Sidor por sugerir tareas, y a Greg Brockman, Michael Petrov, Brooke Chan y Chelsea Voss por ayudar a ejecutar evaluaciones en la infraestructura de OpenAI. Gracias a David Luan por el apoyo inicial al escalar este proyecto, a Irene Solaiman por las discusiones sobre cómo abordar y evaluar el sesgo, a Harrison Edwards y Yura Burda por las discusiones y experimentación con el aprendizaje en contexto, a Geoffrey Irving y Paul Christiano por las primeras discusiones sobre el escalado de modelos de lenguaje, a Long Ouyang por asesorar en el diseño de los experimentos de evaluación humana, a Chris Hallacy por las discusiones sobre la recolección de datos, y a Shan Carter por la ayuda con el diseño visual. Gracias a los millones de personas que crearon el contenido que se usó en el entrenamiento del modelo, y a quienes participaron en indexar o votar el contenido (en el caso de WebText). Adicionalmente, queremos agradecer a todo el equipo de infraestructura y supercomputación de OpenAI por hacer posible entrenar modelos a esta escala.

Contribuciones

Tom Brown, Ben Mann, Prafulla Dhariwal, Dario Amodei, Nick Ryder, Daniel M Ziegler y Jeffrey Wu implementaron los modelos a gran escala, la infraestructura de entrenamiento y las estrategias de paralelismo de modelos.

Tom Brown, Dario Amodei, Ben Mann y Nick Ryder realizaron los experimentos de Lua error: Internal error: The interpreter exited with status 1..

Ben Mann y Alec Radford recopilaron, filtraron, deduplicaron y realizaron el análisis de superposición de los datos de entrenamiento.

Melanie Subbiah, Ben Mann, Dario Amodei, Jared Kaplan, Sam McCandlish, Tom Brown, Tom Henighan y Girish Sastry implementaron las tareas downstream y el marco de software para soportarlas, incluyendo la creación de tareas sintéticas.

Jared Kaplan y Sam McCandlish predijeron inicialmente que un modelo de lenguaje gigante debería mostrar ganancias continuas, y aplicaron leyes de escalado para ayudar a predecir y guiar las decisiones de escalado de modelo y datos para la investigación.

Ben Mann implementó el muestreo sin reemplazo durante el entrenamiento.

Alec Radford originalmente demostró que el aprendizaje few-shot ocurre en los modelos de lenguaje.

Jared Kaplan y Sam McCandlish demostraron que los modelos más grandes aprenden más rápido en contexto, y estudiaron sistemáticamente las curvas de aprendizaje en contexto, los prompts de tarea y los métodos de evaluación.

Prafulla Dhariwal implementó una versión temprana de la base de código y desarrolló las optimizaciones de memoria para el entrenamiento totalmente en precisión media.

Rewon Child y Mark Chen desarrollaron una versión temprana de nuestra estrategia model-parallel.

Rewon Child y Scott Gray contribuyeron con el Lua error: Internal error: The interpreter exited with status 1. disperso.

Aditya Ramesh experimentó con estrategias de escalado de la pérdida para el Lua error: Internal error: The interpreter exited with status 1..

Melanie Subbiah y Arvind Neelakantan implementaron, experimentaron y probaron beam search.

Pranav Shyam trabajó en SuperGLUE y ayudó con las conexiones con la literatura de few-shot learning y meta-learning.

Sandhini Agarwal realizó el análisis de equidad y representación.

Girish Sastry y Amanda Askell realizaron las evaluaciones humanas del modelo.

Ariel Herbert-Voss realizó el análisis de amenazas de uso malicioso.

Gretchen Krueger editó y revisó en formato red team las secciones de política del artículo.

Benjamin Chess, Clemens Winter, Eric Sigler, Christopher Hesse, Mateusz Litwin y Christopher Berner optimizaron los clústeres de OpenAI para ejecutar los modelos más grandes de manera eficiente.

Scott Gray desarrolló los kernels rápidos de GPU utilizados durante el entrenamiento.

Jack Clark dirigió el análisis de impactos éticos —equidad y representación, evaluaciones humanas del modelo y análisis de impactos más amplios— y asesoró a Gretchen, Amanda, Girish, Sandhini y Ariel en su trabajo.

Dario Amodei, Alec Radford, Tom Brown, Sam McCandlish, Nick Ryder, Jared Kaplan, Sandhini Agarwal, Amanda Askell, Girish Sastry y Jack Clark escribieron el artículo.

Sam McCandlish dirigió el análisis del escalado del modelo y asesoró a Tom Henighan y Jared Kaplan en su trabajo.

Alec Radford asesoró el proyecto desde una perspectiva de NLP, sugirió tareas, contextualizó los resultados y demostró el beneficio del Lua error: Internal error: The interpreter exited with status 1. para el entrenamiento.

Ilya Sutskever fue uno de los primeros defensores del escalado de modelos generativos de gran verosimilitud y asesoró a Pranav, Prafulla, Rewon, Alec y Aditya en su trabajo.

Dario Amodei diseñó y dirigió la investigación.

Apéndice A Detalles del Filtrado de Common Crawl

Como se mencionó en la Sección 2.2, empleamos dos técnicas para mejorar la calidad del conjunto de datos Common Crawl: (1) el filtrado de Common Crawl y (2) la deduplicación difusa:

1.

Para mejorar la calidad de Common Crawl, desarrollamos un método de filtrado automático para eliminar documentos de baja calidad. Usando el WebText original como sustituto de documentos de alta calidad, entrenamos un clasificador para distinguirlos del Common Crawl en bruto. Luego usamos este clasificador para volver a muestrear Common Crawl priorizando los documentos que el clasificador predijo como de mayor calidad. El clasificador se entrena usando un clasificador de Lua error: Internal error: The interpreter exited with status 1. con características del Lua error: Internal error: The interpreter exited with status 1. estándar de Spark y HashingTF¹⁰¹⁰10https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.feature.HashingTF. Para los ejemplos positivos usamos una colección de conjuntos de datos curados como WebText, Wikipedia y nuestro corpus de libros de la web, y para los ejemplos negativos usamos Common Crawl sin filtrar. Usamos este clasificador para puntuar los documentos de Common Crawl. Conservamos cada documento en nuestro conjunto de datos si y solo si

${\mathtt{np.random.pareto}\hspace{0pt}{(\alpha)}} > {1 - \mathtt{document\_ score}}$

Elegimos ${\textstyle \alpha = 9}$ para tomar mayoritariamente documentos puntuados altamente por el clasificador, pero aún así incluir algunos documentos fuera de la distribución. ${\textstyle \alpha}$ se eligió para que coincidiera con la distribución de puntuaciones de nuestro clasificador en WebText. Encontramos que esta repre-ponderación incrementaba la calidad medida por la pérdida en una variedad de muestras generativas de texto fuera de la distribución.
2.

Para mejorar aún más la calidad del modelo y prevenir el Lua error: Internal error: The interpreter exited with status 1. (cuya importancia crece a medida que aumenta la capacidad del modelo), deduplicamos de manera difusa los documentos (es decir, eliminamos documentos con alto solapamiento con otros documentos) dentro de cada conjunto de datos usando la implementación MinHashLSH de Spark con 10 hashes, utilizando las mismas características que se usaron para la clasificación anterior. También eliminamos de manera difusa WebText de Common Crawl. En conjunto, esto disminuyó el tamaño del conjunto de datos en un 10 % en promedio.

Tras filtrar por duplicados y calidad, también eliminamos parcialmente texto presente en conjuntos de datos de benchmark, descrito en el Apéndice C.

Apéndice B Detalles del Entrenamiento del Modelo

Para entrenar todas las versiones de GPT-3, usamos Lua error: Internal error: The interpreter exited with status 1. con ${\textstyle \beta_{1} = 0.9}$ , ${\textstyle \beta_{2} = 0.95}$ y ${\textstyle \epsilon = 10^{- 8}}$ , recortamos la norma global del gradiente en 1,0 y usamos decaimiento coseno para la Lua error: Internal error: The interpreter exited with status 1. hasta el 10 % de su valor a lo largo de 260 mil millones de tokens (después de 260 mil millones de tokens, el entrenamiento continúa al 10 % de la Lua error: Internal error: The interpreter exited with status 1. original). Hay un calentamiento lineal de la LR durante los primeros 375 millones de tokens. También aumentamos gradualmente el batch size de manera lineal desde un valor pequeño (32k tokens) hasta el valor completo durante los primeros 4-12 mil millones de tokens de entrenamiento, dependiendo del tamaño del modelo. Los datos se muestrean sin reemplazo durante el entrenamiento (hasta alcanzar un límite de Lua error: Internal error: The interpreter exited with status 1.) para minimizar el Lua error: Internal error: The interpreter exited with status 1.. Todos los modelos usan Lua error: Internal error: The interpreter exited with status 1. de 0,1 para proporcionar una pequeña cantidad de Lua error: Internal error: The interpreter exited with status 1. [68].

Durante el entrenamiento siempre entrenamos sobre secuencias de la ventana de contexto completa de ${\textstyle n_{ctx} = 2048}$ tokens, empaquetando varios documentos en una sola secuencia cuando los documentos son más cortos que 2048, para aumentar la eficiencia computacional. Las secuencias con varios documentos no se enmascaran de ninguna manera especial, sino que los documentos dentro de una secuencia se delimitan con un token especial de fin de texto, dando al modelo de lenguaje la información necesaria para inferir que el contexto separado por el token de fin de texto no está relacionado. Esto permite un entrenamiento eficiente sin necesidad de ningún enmascaramiento especial específico de la secuencia.

Apéndice C Detalles de los Estudios de Contaminación del Conjunto de Prueba

En la sección 4.1 dimos una visión general de los estudios de contaminación del conjunto de prueba. En esta sección proporcionamos detalles sobre la metodología y los resultados.

Filtrado inicial del conjunto de entrenamiento

Intentamos eliminar el texto de los benchmarks de los datos de entrenamiento buscando solapamientos de ${\textstyle 13 -}$ gramas entre todos los conjuntos de prueba/desarrollo usados en este trabajo y nuestros datos de entrenamiento, y eliminamos el ${\textstyle 13 -}$ grama coincidente así como una ventana de 200 caracteres alrededor de él, dividiendo el documento original en piezas. Para fines de filtrado, definimos un grama como una palabra en minúsculas, delimitada por espacios y sin puntuación. Las piezas de menos de ${\textstyle 200}$ caracteres de longitud se descartaron. Los documentos divididos en más de 10 piezas se consideraron contaminados y se eliminaron por completo. Originalmente eliminábamos documentos completos ante una sola colisión, pero esto penalizaba excesivamente a los documentos largos como libros por falsos positivos. Un ejemplo de falso positivo podría ser un conjunto de prueba basado en Wikipedia, en el que el artículo de Wikipedia cita una sola línea de un libro. Ignoramos los ${\textstyle 13 -}$ gramas que coincidieran con más de 10 documentos de entrenamiento, ya que la inspección mostró que la mayoría de estos contenían frases culturales comunes, fórmulas legales estándar o contenido similar que probablemente sí queremos que el modelo aprenda, en lugar de solapamientos específicos no deseados con los conjuntos de prueba. Se pueden encontrar ejemplos para diversas frecuencias en el repositorio de lanzamiento de GPT-3¹¹¹¹11https://github.com/openai/gpt-3/blob/master/overlap_frequency.md.

Metodología de superposición

Para nuestro análisis de solapamiento de benchmarks en la Sección 4.1, usamos un número variable de palabras ${\textstyle N}$ para verificar el solapamiento en cada conjunto de datos, donde ${\textstyle N}$ es la longitud de ejemplo en el percentil 5 en palabras, ignorando toda la puntuación, espacios en blanco y mayúsculas. Debido a colisiones espurias en valores más bajos de ${\textstyle N}$ , usamos un valor mínimo de 8 en tareas no sintéticas. Por razones de rendimiento, fijamos un valor máximo de 13 para todas las tareas. Los valores de ${\textstyle N}$ y la cantidad de datos marcados como contaminados se muestran en la Tabla C.1. A diferencia del uso de filtros de Bloom de GPT-2 para calcular cotas probabilísticas de contaminación de prueba, nosotros usamos Apache Spark para calcular colisiones exactas a través de todos los conjuntos de entrenamiento y prueba. Calculamos los solapamientos entre los conjuntos de prueba y nuestro corpus de entrenamiento completo, aunque solo entrenamos sobre el 40 % de nuestros documentos filtrados de Common Crawl según la Sección 2.2.

Definimos un ejemplo ‘sucio’ como aquel con cualquier superposición de ${\textstyle N}$ -grama con cualquier documento de entrenamiento, y un ejemplo ‘limpio’ como aquel sin colisión.

Las particiones de prueba y validación tenían niveles de contaminación similares a pesar de que algunas particiones de prueba no estuvieran etiquetadas. Debido a un error revelado por este análisis, el filtrado descrito anteriormente falló en documentos largos como libros. Por consideraciones de coste, no fue factible reentrenar el modelo sobre una versión corregida del conjunto de datos de entrenamiento. Como tal, varios benchmarks de modelado de lenguaje, además del Children’s Book Test, mostraron un solapamiento casi completo y, por lo tanto, no se incluyeron en este artículo. Los solapamientos se muestran en la Tabla C.1.

Nombre	División	Métrica	${\textstyle N}$	Acc/F1/BLEU	Total Count	Dirty Acc/F1/BLEU	Dirty Count	Clean Acc/F1/BLEU	Clean Count	Clean Percentage	Relative Difference Clean vs All
Quac	dev	f1	13	44.3	7353	44.3	7315	54.1	38	1%	20%
SQuADv2	dev	f1	13	69.8	11873	69.9	11136	68.4	737	6%	-2%
DROP	dev	f1	13	36.5	9536	37.0	8898	29.5	638	7%	-21%
Symbol Insertion	dev	acc	7	66.9	10000	66.8	8565	67.1	1435	14%	0%
CoQa	dev	f1	13	86.0	7983	85.3	5107	87.1	2876	36%	1%
ReCoRD	dev	acc	13	89.5	10000	90.3	6110	88.2	3890	39%	-1%
Winograd	test	acc	9	88.6	273	90.2	164	86.2	109	40%	-3%
BoolQ	dev	acc	13	76.0	3270	75.8	1955	76.3	1315	40%	0%
MultiRC	dev	acc	13	74.2	953	73.4	558	75.3	395	41%	1%
RACE-h	test	acc	13	46.8	3498	47.0	1580	46.7	1918	55%	0%
LAMBADA	test	acc	13	86.4	5153	86.9	2209	86.0	2944	57%	0%
LAMBADA (No Blanks)	test	acc	13	77.8	5153	78.5	2209	77.2	2944	57%	-1%
WSC	dev	acc	13	76.9	104	73.8	42	79.0	62	60%	3%
PIQA	dev	acc	8	82.3	1838	89.9	526	79.3	1312	71%	-4%
RACE-m	test	acc	13	58.5	1436	53.0	366	60.4	1070	75%	3%
De ${\textstyle \rightarrow}$ En 16	test	bleu-sb	12	43.0	2999	47.4	739	40.8	2260	75%	-5%
En ${\textstyle \rightarrow}$ De 16	test	bleu-sb	12	30.9	2999	32.6	739	29.9	2260	75%	-3%
En ${\textstyle \rightarrow}$ Ro 16	test	bleu-sb	12	25.8	1999	24.9	423	26.1	1576	79%	1%
Ro ${\textstyle \rightarrow}$ En 16	test	bleu-sb	12	41.3	1999	40.4	423	41.6	1576	79%	1%
WebQs	test	acc	8	41.5	2032	41.6	428	41.5	1604	79%	0%
ANLI R1	test	acc	13	36.8	1000	40.5	200	35.9	800	80%	-3%
ANLI R2	test	acc	13	34.0	1000	29.4	177	35.0	823	82%	3%
TriviaQA	dev	acc	10	71.2	7993	70.8	1390	71.3	6603	83%	0%
ANLI R3	test	acc	13	40.2	1200	38.3	196	40.5	1004	84%	1%
En ${\textstyle \rightarrow}$ Fr 14	test	bleu-sb	13	39.9	3003	38.3	411	40.3	2592	86%	1%
Fr ${\textstyle \rightarrow}$ En 14	test	bleu-sb	13	41.4	3003	40.9	411	41.4	2592	86%	0%
WiC	dev	acc	13	51.4	638	53.1	49	51.3	589	92%	0%
RTE	dev	acc	13	71.5	277	71.4	21	71.5	256	92%	0%
CB	dev	acc	13	80.4	56	100.0	4	78.8	52	93%	-2%
Anagrams 2	dev	acc	2	40.2	10000	76.2	705	37.4	9295	93%	-7%
Reversed Words	dev	acc	2	0.4	10000	1.5	660	0.3	9340	93%	-26%
OpenBookQA	test	acc	8	65.4	500	58.1	31	65.9	469	94%	1%
ARC (Easy)	test	acc	11	70.1	2268	77.5	89	69.8	2179	96%	0%
Anagrams 1	dev	acc	2	15.0	10000	49.8	327	13.8	9673	97%	-8%
COPA	dev	acc	9	93.0	100	100.0	3	92.8	97	97%	0%
ARC (Challenge)	test	acc	12	51.6	1144	45.2	31	51.8	1113	97%	0%
HellaSwag	dev	acc	13	79.3	10042	86.2	152	79.2	9890	98%	0%
NQs	test	acc	11	29.9	3610	32.7	52	29.8	3558	99%	0%
Cycled Letters	dev	acc	2	38.6	10000	20.5	73	38.7	9927	99%	0%
SAT Analogies	dev	acc	9	65.8	374	100.0	2	65.6	372	99%	0%
StoryCloze	test	acc	13	87.7	1871	100.0	2	87.6	1869	100%	0%
Winogrande	dev	acc	13	77.7	1267	-	0	77.7	1267	100%	0%

Resultados de superposición

Para entender cuánto ayuda al modelo haber visto algunos de los datos a desempeñarse en tareas downstream, filtramos cada conjunto de validación y prueba por nivel de contaminación. Luego ejecutamos la evaluación solo sobre los ejemplos limpios y reportamos el cambio porcentual relativo entre la puntuación limpia y la puntuación original. Si la puntuación limpia es más de un 1 % o 2 % peor que la puntuación general, sugiere que el modelo puede haberse sobreajustado a los ejemplos que ha visto. Si la puntuación limpia es significativamente mejor, nuestro esquema de filtrado puede haber marcado preferencialmente como contaminados los ejemplos más fáciles.

Esta métrica de solapamiento tiende a mostrar una alta tasa de falsos positivos para conjuntos de datos que contienen información de fondo (pero no respuestas) extraída de la web (como SQuAD, que se basa en Wikipedia) o ejemplos de menos de 8 palabras de longitud, que ignoramos en nuestro proceso de filtrado (excepto para tareas de wordscrambling). Una instancia donde esta técnica parece no dar una buena señal es DROP, una tarea de comprensión lectora en la que el 94 % de los ejemplos son contaminados. La información necesaria para responder a la pregunta está en un pasaje proporcionado al modelo, así que haber visto el pasaje durante el entrenamiento, pero no las preguntas y respuestas, no constituye significativamente hacer trampa. Confirmamos que cada documento de entrenamiento coincidente contenía solo el pasaje fuente, y ninguna de las preguntas y respuestas del conjunto de datos. La explicación más probable para la disminución del rendimiento es que el 6 % de los ejemplos que quedan tras el filtrado provienen de una distribución ligeramente diferente que la de los ejemplos contaminados.

La Figura 4.2 muestra que a medida que el conjunto de datos se vuelve más contaminado, la varianza de la fracción limpio/todo aumenta, pero no hay un sesgo aparente hacia un rendimiento mejor o peor. Esto sugiere que GPT-3 es relativamente insensible a la contaminación. Véase la Sección 4.1 para más detalles sobre los conjuntos de datos que marcamos para revisión adicional.

Apéndice D Cómputo Total Utilizado para Entrenar Modelos de Lenguaje

Este apéndice contiene los cálculos que se usaron para derivar el cómputo aproximado utilizado para entrenar los modelos de lenguaje en la Figura 2.2. Como suposición simplificadora, ignoramos la operación de Lua error: Internal error: The interpreter exited with status 1., ya que típicamente usa menos del 10 % del cómputo total para los modelos que estamos analizando.

Los cálculos pueden verse en la Tabla D.1 y se explican dentro del epígrafe de la tabla.

Model	Cómputo total de entrenamiento (PF-días)	Cómputo total de entrenamiento (flops)	Params (M)	Training tokens (billions)	Flops per param per token	Mult for bwd pass	Fwd-pass flops per active param per token	Frac of params active for each token
T5-Small	2.08E+00	1.80E+20	60	1,000	3	3	1	0.5
T5-Base	7.64E+00	6.60E+20	220	1,000	3	3	1	0.5
T5-Large	2.67E+01	2.31E+21	770	1,000	3	3	1	0.5
T5-3B	1.04E+02	9.00E+21	3,000	1,000	3	3	1	0.5
T5-11B	3.82E+02	3.30E+22	11,000	1,000	3	3	1	0.5
BERT-Base	1.89E+00	1.64E+20	109	250	6	3	2	1.0
BERT-Large	6.16E+00	5.33E+20	355	250	6	3	2	1.0
RoBERTa-Base	1.74E+01	1.50E+21	125	2,000	6	3	2	1.0
RoBERTa-Large	4.93E+01	4.26E+21	355	2,000	6	3	2	1.0
GPT-3 Small	2.60E+00	2.25E+20	125	300	6	3	2	1.0
GPT-3 Medium	7.42E+00	6.41E+20	356	300	6	3	2	1.0
GPT-3 Large	1.58E+01	1.37E+21	760	300	6	3	2	1.0
GPT-3 XL	2.75E+01	2.38E+21	1,320	300	6	3	2	1.0
GPT-3 2.7B	5.52E+01	4.77E+21	2,650	300	6	3	2	1.0
GPT-3 6.7B	1.39E+02	1.20E+22	6,660	300	6	3	2	1.0
GPT-3 13B	2.68E+02	2.31E+22	12,850	300	6	3	2	1.0
GPT-3 175B	3.64E+03	3.14E+23	174,600	300	6	3	2	1.0

Apéndice E Evaluación Humana de la Calidad de Artículos Sintéticos de Noticias

Este apéndice contiene detalles sobre los experimentos que miden la capacidad humana para distinguir los artículos de noticias sintéticos generados por GPT-3 de los artículos de noticias reales. Primero describimos los experimentos sobre los artículos de noticias de ${\textstyle \sim 200}$ palabras, y luego describimos la investigación preliminar sobre los artículos de ${\textstyle \sim 500}$ palabras generados por GPT-3.

Participantes: Reclutamos a 718 participantes únicos para tomar parte en 6 experimentos. 97 participantes fueron excluidos por no superar una pregunta de control de internet, dejando un total de 621 participantes: 343 hombres, 271 mujeres y 7 de otro género. La edad media de los participantes era de ${\textstyle \sim 38}$ años. Todos los participantes fueron reclutados a través de Positly, que mantiene una whitelist de trabajadores de alto rendimiento de Mechanical Turk. Todos los participantes residían en EE. UU., pero no había otras restricciones demográficas. A los participantes se les pagó 12 dólares por su participación, basado en una estimación del tiempo de tarea de 60 minutos determinada por pruebas piloto. Para asegurar que la muestra de participantes para cada cuestionario del experimento fuera única, no se permitía que los participantes tomaran parte en un experimento más de una vez.

Procedimiento y diseño: Seleccionamos arbitrariamente 25 artículos de noticias que aparecieron en newser.com a principios de 2020. Usamos los títulos y subtítulos de los artículos para producir salidas a partir de los modelos de lenguaje de 125M, 350M, 760M, 1,3B, 2,7B, 6,7B, 13,0B y 200B (GPT-3) parámetros. Cada modelo generó cinco salidas por pregunta y se seleccionó automáticamente la generación con un recuento de palabras más cercano al del artículo escrito por humanos. Esto fue para minimizar el efecto que la longitud de la compleción pudiera tener sobre los juicios de los participantes. El mismo procedimiento de salida se aplicó para cada modelo, excepto por la eliminación del modelo de control intencionalmente malo, como se describió en el texto principal.

En cada experimento, la mitad de los participantes se asignó aleatoriamente al cuestionario A y la mitad al cuestionario B. Cada cuestionario constaba de 25 artículos: la mitad (12-13) eran escritos por humanos y la mitad (12-13) eran generados por modelo: los artículos con compleciones escritas por humanos en el cuestionario A tenían compleciones generadas por modelo en el cuestionario B y viceversa. El orden de las preguntas del cuestionario se mezcló para cada participante. Los participantes podían dejar comentarios y se les preguntó si habían visto los artículos antes. Se instruyó a los participantes a no buscar los artículos o su contenido durante el cuestionario y, al final del cuestionario, se les preguntó si habían buscado algo durante el mismo.

Model	Participants Recruited	Participants Excluded	Genders (m:f:other)	Mean Age	Average Word Count (human:model)
Control	76	7	32:37:0	39	216:216
GPT-3 Small	80	7	41:31:1	40	216:188
GPT-3 Medium	80	7	46:28:2	39	216:202
GPT-3 Large	81	24	46:28:2	37	216:200
GPT-3 XL	79	14	32:32:1	38	216:199
GPT-3 2.7B	80	11	36:33:0	40	216:202
GPT-3 6.7B	76	5	46:28:2	37	216:195
GPT-3 13.0B	81	13	46:28:2	37	216:209
GPT-3 175B	80	9	42:29:0	37	216:216

Pruebas estadísticas: Para comparar las medias en las distintas ejecuciones, realizamos una prueba t de dos muestras para grupos independientes, comparando cada modelo con el de control. Esto se implementó en Python usando la función scipy.stats.ttest_ind. Al trazar una línea de regresión en el gráfico de exactitud media de los participantes frente al tamaño del modelo, ajustamos una ley de potencia de la forma ${\textstyle a\hspace{0pt}x^{- b}}$ . Los intervalos de confianza al 95 % se estimaron a partir de la distribución t de la media muestral.

Estadísticas de duración: En el texto principal, discutimos el hallazgo de que la capacidad de los participantes humanos para distinguir entre artículos de noticias generados por modelo y por humanos disminuye a medida que nuestros modelos se hacen más grandes. También hemos encontrado que el tiempo medio dedicado a un conjunto dado de preguntas aumenta a medida que aumenta el tamaño del modelo, como se muestra en la Figura E.1. Las puntuaciones de exactitud más bajas a pesar de la mayor inversión de tiempo por parte de los participantes respaldan el hallazgo de que los modelos más grandes generan artículos de noticias más difíciles de distinguir.

Investigación preliminar de artículos de ${\textstyle \sim 500}$ palabras: Reclutamos a 160 participantes únicos basados en EE. UU. para tomar parte en 2 experimentos a través de Positly (los detalles se dan en la Tabla E.2). Seleccionamos aleatoriamente 12 artículos de noticias mundiales de Reuters de finales de 2019 y creamos un contexto para GPT-3 175B que consistía en un único artículo de Reuters no incluido en este conjunto de 12. Luego usamos los títulos de los artículos y las localidades de Reuters para generar compleciones a partir de GPT-3 175B y del modelo de control de 160M de los experimentos anteriores. Estos se usaron para crear dos cuestionarios de 12 preguntas por modelo, cada uno consistente en mitad artículos escritos por humanos y mitad artículos generados por modelo. Se añadieron preguntas de comprensión y los artículos se mostraron a los participantes en 3 etapas con intervalos de 30 segundos para fomentar una lectura más cuidadosa. A los participantes se les pagó 12 dólares por esta tarea. Los métodos de selección de generación del modelo, los criterios de exclusión y las pruebas estadísticas reflejan los de los experimentos anteriores.

Model	Participants Recruited	Participants Excluded	Genders (m:f:other)	Mean Age	Average Word Count (human:model)
Control	79	17	32:37:0	39	569:464
GPT-3 175B	81	19	32:30:0	40	569:498

Apéndice F Muestras Adicionales de GPT-3

GPT-3 se adapta bien a muchas tareas más allá de las exploradas en el cuerpo principal del artículo. Como ejemplo, en la Figura F.1, mostramos cuatro muestras no curadas a partir de un prompt que sugiere al modelo escribir un poema, con un título dado, al estilo de Wallace Stevens. Primero experimentamos con algunos prompts y luego generamos cuatro muestras sin edición ni selección adicional (muestreando a temperatura ${\textstyle 1}$ usando muestreo nuclear [40] con ${\textstyle P = 0.9}$ ). Las compleciones se truncaron cuando el modelo comenzó a escribir un nuevo encabezado de título y autor, o se desvió hacia comentarios en prosa.

`Context` ${\textstyle \rightarrow}$	`The City`
	`BY C. P. CAVAFY`
	`TRANSLATED BY EDMUND KEELEY`
	`[Poem text omitted]`
	`SOME TREES`
	`John Ashbery`
	`[Poem text omitted]`
	`Shadows on the Way`
	`Wallace Stevens`
`-------- Generated Poem 1 --------`	`-------- Generated Poem 3 --------`
`I must have shadows on the way`	`The sun was all we had. Now, in the shade`
`If I am to walk I must have`	`All is changed. The mind must dwell on those`
`Each step taken slowly and alone`	`White fields, that to its eyes were always old;`
`To have it ready made`	`Those ancient gleams, convoluting`
	`The way they lay among the huge roots,`
`And I must think in lines of grey`	`The great dark tomes of reverie,`
`To have dim thoughts to be my guide`	`The plumed labyrinth of the sea.`
`Must look on blue and green`
`And never let my eye forget`	`When our own breath gonne faint and fade`
`That color is my friend`	`Up the long stairway of the dead`
`And purple must surround me too`	`We shall remember well`
	`The blindness of the light, the whiteness`
`The yellow of the sun is no more`	`Of that white land. The footsteps, and`
`Intrusive than the bluish snow`	`The grasses in that light, and in the shade`
`That falls on all of us. I must have`	`The menacing life.`
`Grey thoughts and blue thoughts walk with me`
`If I am to go away at all.`	`We played, too, once, in the warmest rooms.`
	`To one content, there is one content`
`-------- Generated Poem 2 --------`	`For all mankind. The forest glades`
	`Are all the more for being in fable,`
`There is a way in the world.`	`And wood and town in legend shadowed-`
`That way a man may live in a small town`	`Once more to return. The one content`
`His lifetime and see no man come,`	`Has in it every happiness, more brave`
`Never the stir of men about a market,`	`For being purposeless; and so`
`Never the bobbing of covered carts,`	`Those island gardens, deep in the mind,`
`Never the creak passed on the stair`	`Make of remoteness familiarity`
`Closing some other life; an old man`	`And of the unspoken name a friend.`
`Can prosper in that town, can prosper`
`When his store is seen to close, his wife`	`-------- Generated Poem 4 --------`
`Fades in his house, and the world shouts in vain`
`That no one comes to hear him`	`Nobody will come to this place. It is a road that leads nowhere.`
`Where his small bell tolls.`	`The solitude is deep. The mountains are high.`
`In that small town`	`But they are desolate, and they turn the traveler’s face`
`Everything is known.`	`Towards the North. All the sounds of the world are far away.`
`The ways of the young men are known,`	`When the wind rises above the trees,`
`And the ways of the young women`	`The boughs bow to the ground.`
`As they walk to the Spring;`	`Even the birds that inhabit the tangle of weeds`
`The rumors are all known,`	`That is the roadside cover, are silent. One listens,`
`The quarrels, the hurt, the envy`	`But hears no roar of the forest. One is alone.`
`Of the men and the women.`	`One will be taken.`
`Till a day comes`	`One will be taken.`
`That way out of the world`	`There is no utterance, there is no conversation,`
`That leads to a wood.`	`But one is uneasy all the same....`
`Young, the young man`	`There is a thin blue mist,`
`Walks, a lover now,`	`A darkness rising like smoke,`
`Knows the streets as they are and is of them.`	`And within that darkness`
	`A possession of the heart.`
`Comes to the wood.`	`One will be taken.... It was here, and it will be here again-`
	`Here, under this sky empty and full of light.`
`There, in the wood, among trees,`
`He sees shadows on the way, hears voices,`
`hears the wind and the rustling of leaves;`
`Through an open glade`
`He sees a shape and the shape hears:`
`It waits as he waits,`
`Waits as the shadows wait,`
`As the voices wait;`
`Shadows on the way, voices in the wind.`

Apéndice G Detalles del Fraseo y Especificaciones de las Tareas

Las siguientes figuras ilustran el formato y el enunciado de todas las tareas incluidas en el artículo. Todos los datos provienen de los conjuntos de datos verdaderos de esta sección, y aquí no se incluyen muestras de GPT-3.

`Context` ${\textstyle \rightarrow}$	`Article:`
	Informal conversation is an important part of any business relationship.Before you start a discussion,however,make sure you understand which topics are suitable and which are considered taboo in a particular culture. Latin Americans enjoy sharing information about their local history, art and customs.You may expect questions about your family,and be sure to show pictures of your children.You may feel free to ask similar questions of your Latin American friends.The French think of conversation as an art form,and they enjoy the value of lively discussions as well as disagreements. For them,arguments can be interesting and they can cover pretty much or any topic ---- as long as they occur in are respectful and intelligent manner.
	In the United States,business people like to discuss a wide range of topics,including opinions about work,family,hobbies,and politics. In Japan,China,and Korea,however,people are much more private.They do not share much about their thoughts,feelings,or emotions because they feel that doing so might take away from the harmonious business relationship they’re trying to build.Middle Easterners are also private about their personal lives and family matters.It is considered rude,for example,to ask a businessman from Saudi Arabia about his wife or children.
	`As a general rule,it’s best not to talk about politics or religion with your business friends.This can get you into trouble,even in the United States,where people hold different religious views.In addition,discussing one’s salary is usually considered unsuitable.Sports is typically a friendly subject in most parts of the world,although be careful not to criticize national sport.Instead,be friendly and praise your host’s team.`
	`Q: What shouldn’t you do when talking about sports with colleagues from another country?`
	`A: Criticizing the sports of your colleagues’ country.`
	`Q: Which is typically a friendly topic in most places according to the author?`
	`A: Sports.`
	`Q: Why are people from Asia more private in their conversation with others?`
	`A: They don’t want to have their good relationship with others harmed by informal conversation.`
	`Q: The author considers politics and religion _ .`
	`A:`
`Correct Answer` ${\textstyle \rightarrow}$	`taboo`
`Incorrect Answer` ${\textstyle \rightarrow}$	`cheerful topics`
`Incorrect Answer` ${\textstyle \rightarrow}$	`rude topics`
`Incorrect Answer` ${\textstyle \rightarrow}$	`topics that can never be talked about`

`Context` ${\textstyle \rightarrow}$	`anli 2: anli 2: The Gold Coast Hotel & Casino is a hotel and casino located in Paradise, Nevada. This locals’ casino is owned and operated by Boyd Gaming. The Gold Coast is located one mile (` ${\textstyle \sim {1.6\hspace{0pt}{km}}}$ `) west of the Las Vegas Strip on West Flamingo Road. It is located across the street from the Palms Casino Resort and the Rio All Suite Hotel and Casino.`
	`Question: The Gold Coast is a budget-friendly casino. True, False, or Neither?`
`Correct Answer` ${\textstyle \rightarrow}$	`Neither`
`Incorrect Answer` ${\textstyle \rightarrow}$	`True`
`Incorrect Answer` ${\textstyle \rightarrow}$	`False`

`Context` ${\textstyle \rightarrow}$	`Article:`
	`Mrs. Smith is an unusual teacher. Once she told each student to bring along a few potatoes in plastic bag. On each potato the students had to write a name of a person that they hated And the next day, every child brought some potatoes. Some had two potatoes;some three;some up to five.`
	`Mrs. Smith then told the children to carry the bags everywhere they went, even to the toilet, for two weeks. As day after day passed, the children started to complain about the awful smell of the rotten potatoes.`
	`Those children who brought five potatoes began to feel the weight trouble of the bags. After two weeks, the children were happy to hear that the game was finally ended. Mrs. Smith asked,"How did you feel while carrying the potatoes for two weeks?" The children started complaining about the trouble loudly.`
	Then Mrs. Smith told them why she asked them to play the game. She said,"This is exactly the situation when you carry your hatred for somebody inside your heart. The terrible smell of the hatred will pollute your heart and you will carry something unnecessary with you all the time. If you cannot stand the smell of the rotten potatoes for just two weeks, can you imagine how heavy it would be to have the hatred in your heart for your lifetime? So throw away any hatred from your heart, and you’ll be really happy."
	`Q: Which of the following is True according to the passage?`
	`A: If a kid hated four people,he or she had to carry four potatoes.`
	`Q: We can learn from the passage that we should _ .`
	`A: throw away the hatred inside`
	`Q: The children complained about _ besides the weight trouble.`
	`A: the smell`
	`Q: Mrs.Smith asked her students to write _ on the potatoes.`
	`A:`
`Correct Answer` ${\textstyle \rightarrow}$	`names`
`Incorrect Answer` ${\textstyle \rightarrow}$	`numbers`
`Incorrect Answer` ${\textstyle \rightarrow}$	`time`
`Incorrect Answer` ${\textstyle \rightarrow}$	`places`

`Context` ${\textstyle \rightarrow}$	`How to apply sealant to wood.`
`Correct Answer` ${\textstyle \rightarrow}$	`Using a brush, brush on sealant onto wood until it is fully saturated with the sealant.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`Using a brush, drip on sealant onto wood until it is fully saturated with the sealant.`

`Context` ${\textstyle \rightarrow}$	`My body cast a shadow over the grass because`
`Correct Answer` ${\textstyle \rightarrow}$	`the sun was rising.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`the grass was cut.`

`Context` ${\textstyle \rightarrow}$	(CNN) Yuval Rabin, whose father, Yitzhak Rabin, was assassinated while serving as Prime Minister of Israel, criticized Donald Trump for appealing to "Second Amendment people" in a speech and warned that the words that politicians use can incite violence and undermine democracy. "Trump’s words are an incitement to the type of political violence that touched me personally," Rabin wrote in USAToday. He said that Trump’s appeal to "Second Amendment people" to stop Hillary Clinton -- comments that were criticized as a call for violence against Clinton, something Trump denied -- "were a new level of ugliness in an ugly campaign season."
	`- The son of a former Israeli Prime Minister who was assassinated wrote an op ed about the consequence of violent political rhetoric.`
	`- Warns of "parallels" between Israel of the 1990s and the U.S. today.`
`Correct Answer` ${\textstyle \rightarrow}$	`- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned Donald Trump’s aggressive rhetoric.`
`Correct Answer` ${\textstyle \rightarrow}$	`- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned Trump’s aggressive rhetoric.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned Hillary Clinton’s aggressive rhetoric.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned U.S.’s aggressive rhetoric.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned Yitzhak Rabin’s aggressive rhetoric.`

`Context` ${\textstyle \rightarrow}$	`anli 1: anli 1: Fulton James MacGregor MSP is a Scottish politician who is a Scottish National Party (SNP) Member of Scottish Parliament for the constituency of Coatbridge and Chryston. MacGregor is currently Parliamentary Liaison Officer to Shona Robison, Cabinet Secretary for Health & Sport. He also serves on the Justice and Education & Skills committees in the Scottish Parliament.`
	`Question: Fulton James MacGregor is a Scottish politican who is a Liaison officer to Shona Robison who he swears is his best friend. True, False, or Neither?`
`Correct Answer` ${\textstyle \rightarrow}$	`Neither`
`Incorrect Answer` ${\textstyle \rightarrow}$	`True`
`Incorrect Answer` ${\textstyle \rightarrow}$	`False`

`Context` ${\textstyle \rightarrow}$	`Organisms require energy in order to do what?`
`Correct Answer` ${\textstyle \rightarrow}$	`mature and develop.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`rest soundly.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`absorb light.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`take in nutrients.`

`Context` ${\textstyle \rightarrow}$	`Making a cake: Several cake pops are shown on a display. A woman and girl are shown making the cake pops in a kitchen. They`
`Correct Answer` ${\textstyle \rightarrow}$	`bake them, then frost and decorate.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`taste them as they place them on plates.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`put the frosting on the cake as they pan it.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`come out and begin decorating the cake as well.`

`Context` ${\textstyle \rightarrow}$	`anli 3: anli 3: We shut the loophole which has American workers actually subsidizing the loss of their own job. They just passed an expansion of that loophole in the last few days: $43 billion of giveaways, including favors to the oil and gas industry and the people importing ceiling fans from China.`
	`Question: The loophole is now gone True, False, or Neither?`
`Correct Answer` ${\textstyle \rightarrow}$	`False`
`Incorrect Answer` ${\textstyle \rightarrow}$	`True`
`Incorrect Answer` ${\textstyle \rightarrow}$	`Neither`

`Context` ${\textstyle \rightarrow}$	`Question: George wants to warm his hands quickly by rubbing them. Which skin surface will produce the most heat?`
	`Answer:`
`Correct Answer` ${\textstyle \rightarrow}$	`dry palms`
`Incorrect Answer` ${\textstyle \rightarrow}$	`wet palms`
`Incorrect Answer` ${\textstyle \rightarrow}$	`palms covered with oil`
`Incorrect Answer` ${\textstyle \rightarrow}$	`palms covered with lotion`

`Context` ${\textstyle \rightarrow}$	`lull is to trust as`
`Correct Answer` ${\textstyle \rightarrow}$	`cajole is to compliance`
`Incorrect Answer` ${\textstyle \rightarrow}$	`balk is to fortitude`
`Incorrect Answer` ${\textstyle \rightarrow}$	`betray is to loyalty`
`Incorrect Answer` ${\textstyle \rightarrow}$	`hinder is to destination`
`Incorrect Answer` ${\textstyle \rightarrow}$	`soothe is to passion`

`Correct Context` ${\textstyle \rightarrow}$	`Grace was happy to trade me her sweater for my jacket. She thinks the sweater`
`Incorrect Context` ${\textstyle \rightarrow}$	`Grace was happy to trade me her sweater for my jacket. She thinks the jacket`
`Target Completion` ${\textstyle \rightarrow}$	`looks dowdy on her.`

`Correct Context` ${\textstyle \rightarrow}$	`Johnny likes fruits more than vegetables in his new keto diet because the fruits`
`Incorrect Context` ${\textstyle \rightarrow}$	`Johnny likes fruits more than vegetables in his new keto diet because the vegetables`
`Target Completion` ${\textstyle \rightarrow}$	`are saccharine.`

`Context` ${\textstyle \rightarrow}$	`READING COMPREHENSION ANSWER KEY`
	While this process moved along, diplomacy continued its rounds. Direct pressure on the Taliban had proved unsuccessful. As one NSC staff note put it, "Under the Taliban, Afghanistan is not so much a state sponsor of terrorism as it is a state sponsored by terrorists." In early 2000, the United States began a high-level effort to persuade Pakistan to use its influence over the Taliban. In January 2000, Assistant Secretary of State Karl Inderfurth and the State Department’s counterterrorism coordinator, Michael Sheehan, met with General Musharraf in Islamabad, dangling before him the possibility of a presidential visit in March as a reward for Pakistani cooperation. Such a visit was coveted by Musharraf, partly as a sign of his government’s legitimacy. He told the two envoys that he would meet with Mullah Omar and press him on Bin Laden. They left, however, reporting to Washington that Pakistan was unlikely in fact to do anything," given what it sees as the benefits of Taliban control of Afghanistan." President Clinton was scheduled to travel to India. The State Department felt that he should not visit India without also visiting Pakistan. The Secret Service and the CIA, however, warned in the strongest terms that visiting Pakistan would risk the President’s life. Counterterrorism officials also argued that Pakistan had not done enough to merit a presidential visit. But President Clinton insisted on including Pakistan in the itinerary for his trip to South Asia. His one-day stopover on March 25, 2000, was the first time a U.S. president had been there since 1969. At his meeting with Musharraf and others, President Clinton concentrated on tensions between Pakistan and India and the dangers of nuclear proliferation, but also discussed Bin Laden. President Clinton told us that when he pulled Musharraf aside for a brief, one-on-one meeting, he pleaded with the general for help regarding Bin Laden." I offered him the moon when I went to see him, in terms of better relations with the United States, if he’d help us get Bin Laden and deal with another issue or two." The U.S. effort continued.
	`Who did The State Department feel should visit both India and Pakistan?`
`Correct Answer` ${\textstyle \rightarrow}$	`- [False] Bin Laden`
`Incorrect Answer` ${\textstyle \rightarrow}$	`- [True] Bin Laden`

`Context` ${\textstyle \rightarrow}$	`Question: Which factor will most likely cause a person to develop a fever?`
	`Answer:`
`Correct Answer` ${\textstyle \rightarrow}$	`a bacterial population in the bloodstream`
`Incorrect Answer` ${\textstyle \rightarrow}$	`a leg muscle relaxing after exercise`
`Incorrect Answer` ${\textstyle \rightarrow}$	`several viral particles on the skin`
`Incorrect Answer` ${\textstyle \rightarrow}$	`carbohydrates being digested in the stomach`

`Context` ${\textstyle \rightarrow}$	`Bob went to the gas station to fill up his car. His tank was completely empty and so was his wallet. The cashier offered to pay for his gas if he came back later to pay. Bob felt grateful as he drove home.`
`Correct Answer` ${\textstyle \rightarrow}$	`Bob believed that there were good people in the world.`
`Incorrect Answer` ${\textstyle \rightarrow}$	`Bob contemplated how unfriendly the world was.`

`Context` ${\textstyle \rightarrow}$	`Helsinki is the capital and largest city of Finland. It is in the region of Uusimaa, in southern Finland, on the shore of the Gulf of Finland. Helsinki has a population of , an urban population of , and a metropolitan population of over 1.4 million, making it the most populous municipality and urban area in Finland. Helsinki is some north of Tallinn, Estonia, east of Stockholm, Sweden, and west of Saint Petersburg, Russia. Helsinki has close historical connections with these three cities.`
	The Helsinki metropolitan area includes the urban core of Helsinki, Espoo, Vantaa, Kauniainen, and surrounding commuter towns. It is the world’s northernmost metro area of over one million people, and the city is the northernmost capital of an EU member state. The Helsinki metropolitan area is the third largest metropolitan area in the Nordic countries after Stockholm and Copenhagen, and the City of Helsinki is the third largest after Stockholm and Oslo. Helsinki is Finland’s major political, educational, financial, cultural, and research center as well as one of northern Europe’s major cities. Approximately 75% of foreign companies that operate in Finland have settled in the Helsinki region. The nearby municipality of Vantaa is the location of Helsinki Airport, with frequent service to various destinations in Europe and Asia.
	`Q: what is the most populous municipality in Finland?`
	`A: Helsinki`
	`Q: how many people live there?`
	`A: 1.4 million in the metropolitan area`
	`Q: what percent of the foreign companies that operate in Finland are in Helsinki?`
	`A: 75%`
	`Q: what towns are a part of the metropolitan area?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`Helsinki, Espoo, Vantaa, Kauniainen, and surrounding commuter towns`

`Context` ${\textstyle \rightarrow}$	`Please unscramble the letters into a word, and write that word:`
	`asinoc =`
`Target Completion` ${\textstyle \rightarrow}$	`casino`

`Context` ${\textstyle \rightarrow}$	Passage: Saint Jean de Brébeuf was a French Jesuit missionary who travelled to New France in 1625. There he worked primarily with the Huron for the rest of his life, except for a few years in France from 1629 to 1633. He learned their language and culture, writing extensively about each to aid other missionaries. In 1649, Brébeuf and another missionary were captured when an Iroquois raid took over a Huron village . Together with Huron captives, the missionaries were ritually tortured and killed on March 16, 1649. Brébeuf was beatified in 1925 and among eight Jesuit missionaries canonized as saints in the Roman Catholic Church in 1930.
	`Question: How many years did Saint Jean de Brébeuf stay in New France before he went back to France for a few years?`
	`Answer:`
`Target Completion` ${\textstyle \rightarrow}$	`4`

`Context` ${\textstyle \rightarrow}$	`Fill in blank:`
	`She held the torch in front of her.`
	`She caught her breath.`
	`"Chris? There’s a step."`
	`"What?"`
	`"A step. Cut in the rock. About fifty feet ahead." She moved faster. They both moved faster. "In fact," she said, raising the torch higher, "there’s more than a ____. -` ${\textstyle >}$
`Target Completion` ${\textstyle \rightarrow}$	`step`

`Context` ${\textstyle \rightarrow}$	`Please unscramble the letters into a word, and write that word:`
	`skicts =`
`Target Completion` ${\textstyle \rightarrow}$	`sticks`

`Context` ${\textstyle \rightarrow}$	`Please unscramble the letters into a word, and write that word:`
	`volwskagen =`
`Target Completion` ${\textstyle \rightarrow}$	`volkswagen`

`Context` ${\textstyle \rightarrow}$	`Q: Who played tess on touched by an angel?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`Delloreese Patricia Early (July 6, 1931 – November 19, 2017), known professionally as Della Reese`

`Context` ${\textstyle \rightarrow}$	`TITLE: William Perry (American football) - Professional career`
	PARAGRAPH: In 1985, he was selected in the first round of the 1985 NFL Draft by the Chicago Bears; he had been hand-picked by coach Mike Ditka. However, defensive coordinator Buddy Ryan, who had a highly acrimonious relationship with Ditka, called Perry a "wasted draft-pick". Perry soon became a pawn in the political power struggle between Ditka and Ryan. Perry’s "Refrigerator" nickname followed him into the NFL and he quickly became a favorite of the Chicago Bears fans. Teammates called him "Biscuit," as in "one biscuit shy of 350 pounds." While Ryan refused to play Perry, Ditka decided to use Perry as a fullback when the team was near the opponents’ goal line or in fourth and short situations, either as a ball carrier or a lead blocker for star running back Walter Payton. Ditka stated the inspiration for using Perry as a fullback came to him during five-yard sprint exercises. During his rookie season, Perry rushed for two touchdowns and caught a pass for one. Perry even had the opportunity to run the ball during Super Bowl XX, as a nod to his popularity and contributions to the team’s success. The first time he got the ball, he was tackled for a one-yard loss while attempting to throw his first NFL pass on a halfback option play. The second time he got the ball, he scored a touchdown (running over Patriots linebacker Larry McGrew in the process). About halfway through his rookie season, Ryan finally began to play Perry, who soon proved that he was a capable defensive lineman. His Super Bowl ring size is the largest of any professional football player in the history of the event. His ring size is 25, while the ring size for the average adult male is between 10 and 12. Perry went on to play for ten years in the NFL, retiring after the 1994 season. In his ten years as a pro, he regularly struggled with his weight, which hampered his performance at times. He played in 138 games, recording 29.5 sacks and five fumble recoveries, which he returned for a total of 71 yards. In his offensive career he ran five yards for two touchdowns, and had one reception for another touchdown. Perry later attempted a comeback, playing an unremarkable 1996 season with the London Monarchs of the World League of American Football (later NFL Europa).
	`Q: what team did he play for?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`the Chicago Bears`

`Context` ${\textstyle \rightarrow}$	`Please unscramble the letters into a word, and write that word:`
	`r e!c.i p r o.c a/l =`
`Target Completion` ${\textstyle \rightarrow}$	`reciprocal`

`Context` ${\textstyle \rightarrow}$	`Please unscramble the letters into a word, and write that word:`
	`taefed =`
`Target Completion` ${\textstyle \rightarrow}$	`defeat`

`Context` ${\textstyle \rightarrow}$	`Title: The_Blitz`
	Background: From the German point of view, March 1941 saw an improvement. The Luftwaffe flew 4,000 sorties that month, including 12 major and three heavy attacks. The electronic war intensified but the Luftwaffe flew major inland missions only on moonlit nights. Ports were easier to find and made better targets. To confuse the British, radio silence was observed until the bombs fell. X- and Y-Gerät beams were placed over false targets and switched only at the last minute. Rapid frequency changes were introduced for X-Gerät, whose wider band of frequencies and greater tactical flexibility ensured it remained effective at a time when British selective jamming was degrading the effectiveness of Y-Gerät.
	`Q: How many sorties were flown in March 1941?`
	`A: 4,000`
	`Q: When did the Luftwaffe fly inland missions?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`only on moonlit nights`

`Context` ${\textstyle \rightarrow}$	Normal force -- In a simple case such as an object resting upon a table, the normal force on the object is equal but in opposite direction to the gravitational force applied on the object (or the weight of the object), that is, N = m g (\displaystyle N=mg), where m is mass, and g is the gravitational field strength (about 9.81 m/s on Earth). The normal force here represents the force applied by the table against the object that prevents it from sinking through the table and requires that the table is sturdy enough to deliver this normal force without breaking. However, it is easy to assume that the normal force and weight are action-reaction force pairs (a common mistake). In this case, the normal force and weight need to be equal in magnitude to explain why there is no upward acceleration of the object. For example, a ball that bounces upwards accelerates upwards because the normal force acting on the ball is larger in magnitude than the weight of the ball.
	`question: is the normal force equal to the force of gravity?`
	`answer:`
`Target Completion` ${\textstyle \rightarrow}$	`yes`

`Context` ${\textstyle \rightarrow}$	`The trend toward lower rents may seem surprising given that some communities in New York are bemoaning the loss of favorite local businesses to high rents. But, despite the recent softening, for many of these retailers there’s still been too big a jump from the rental rates of the late 1970s, when their leases were signed. Certainly, the recent drop in prices doesn’t mean Manhattan comes cheap.`
	`question: Manhattan comes cheap. true, false, or neither?`
	`answer:`
`Target Completion` ${\textstyle \rightarrow}$	`false`

`Context` ${\textstyle \rightarrow}$	`The bet, which won him dinner for four, was regarding the existence and mass of the top quark, an elementary particle discovered in 1995.`
	`question: The Top Quark is the last of six flavors of quarks predicted by the standard model theory of particle physics. True or False?`
	`answer:`
`Target Completion` ${\textstyle \rightarrow}$	`False`

`Context` ${\textstyle \rightarrow}$	`An outfitter provided everything needed for the safari.`
	`Before his first walking holiday, he went to a specialist outfitter to buy some boots.`
	`question: Is the word ‘outfitter’ used in the same way in the two sentences above?`
	`answer:`
`Target Completion` ${\textstyle \rightarrow}$	`no`

`Context` ${\textstyle \rightarrow}$	`Final Exam with Answer Key`
	`Instructions: Please carefully read the following passages. For each passage, you must identify which noun the pronoun marked in bold refers to.`
	`=====`
	`Passage: Mr. Moncrieff visited Chester’s luxurious New York apartment, thinking that it belonged to his son Edward. The result was that Mr. Moncrieff has decided to cancel Edward’s allowance on the ground that he no longer requires his financial support.`
	`Question: In the passage above, what does the pronoun "his" refer to?`
	`Answer:`
`Target Completion` ${\textstyle \rightarrow}$	`mr. moncrieff`

`Context` ${\textstyle \rightarrow}$	`Q: ‘Nude Descending A Staircase’ is perhaps the most famous painting by which 20th century artist?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`MARCEL DUCHAMP`
`Target Completion` ${\textstyle \rightarrow}$	`r mutt`
`Target Completion` ${\textstyle \rightarrow}$	`duchamp`
`Target Completion` ${\textstyle \rightarrow}$	`marcel duchamp`
`Target Completion` ${\textstyle \rightarrow}$	`R.Mutt`
`Target Completion` ${\textstyle \rightarrow}$	`Marcel duChamp`
`Target Completion` ${\textstyle \rightarrow}$	`Henri-Robert-Marcel Duchamp`
`Target Completion` ${\textstyle \rightarrow}$	`Marcel du Champ`
`Target Completion` ${\textstyle \rightarrow}$	`henri robert marcel duchamp`
`Target Completion` ${\textstyle \rightarrow}$	`Duchampian`
`Target Completion` ${\textstyle \rightarrow}$	`Duchamp`
`Target Completion` ${\textstyle \rightarrow}$	`duchampian`
`Target Completion` ${\textstyle \rightarrow}$	`marcel du champ`
`Target Completion` ${\textstyle \rightarrow}$	`Marcel Duchamp`
`Target Completion` ${\textstyle \rightarrow}$	`MARCEL DUCHAMP`

`Context` ${\textstyle \rightarrow}$	`Q: What school did burne hogarth establish?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`School of Visual Arts`

`Context` ${\textstyle \rightarrow}$	`Keinesfalls dürfen diese für den kommerziellen Gebrauch verwendet werden. =`
`Target Completion` ${\textstyle \rightarrow}$	`In no case may they be used for commercial purposes.`

`Context` ${\textstyle \rightarrow}$	`In no case may they be used for commercial purposes. =`
`Target Completion` ${\textstyle \rightarrow}$	`Keinesfalls dürfen diese für den kommerziellen Gebrauch verwendet werden.`

`Context` ${\textstyle \rightarrow}$	`Analysis of instar distributions of larval I. verticalis collected from a series of ponds also indicated that males were in more advanced instars than females. =`
`Target Completion` ${\textstyle \rightarrow}$	`L’analyse de la distribution de fréquence des stades larvaires d’I. verticalis dans une série d’étangs a également démontré que les larves mâles étaient à des stades plus avancés que les larves femelles.`

`Context` ${\textstyle \rightarrow}$	`L’analyse de la distribution de fréquence des stades larvaires d’I. verticalis dans une série d’étangs a également démontré que les larves mâles étaient à des stades plus avancés que les larves femelles. =`
`Target Completion` ${\textstyle \rightarrow}$	`Analysis of instar distributions of larval I. verticalis collected from a series of ponds also indicated that males were in more advanced instars than females.`

`Context` ${\textstyle \rightarrow}$	`The truth is that you want, at any price, and against the wishes of the peoples of Europe, to continue the negotiations for Turkey’s accession to the European Union, despite Turkey’s continuing refusal to recognise Cyprus and despite the fact that the democratic reforms are at a standstill. =`
`Target Completion` ${\textstyle \rightarrow}$	`Adevărul este că vă doriţi, cu orice preţ şi împotriva dorinţei europenilor, să continuaţi negocierile de aderare a Turciei la Uniunea Europeană, în ciuda refuzului continuu al Turciei de a recunoaşte Ciprul şi în ciuda faptului că reformele democratice au ajuns într-un punct mort.`

`Context` ${\textstyle \rightarrow}$	`Adevărul este că vă doriţi, cu orice preţ şi împotriva dorinţei europenilor, să continuaţi negocierile de aderare a Turciei la Uniunea Europeană, în ciuda refuzului continuu al Turciei de a recunoaşte Ciprul şi în ciuda faptului că reformele democratice au ajuns într-un punct mort. =`
`Target Completion` ${\textstyle \rightarrow}$	`The truth is that you want, at any price, and against the wishes of the peoples of Europe, to continue the negotiations for Turkey’s accession to the European Union, despite Turkey’s continuing refusal to recognise Cyprus and despite the fact that the democratic reforms are at a standstill.`

`Context` ${\textstyle \rightarrow}$	`Q: What is (2 * 4) * 6?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`48`

`Context` ${\textstyle \rightarrow}$	`Q: What is 17 minus 14?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`3`

`Context` ${\textstyle \rightarrow}$	`Q: What is 98 plus 45?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`143`

`Context` ${\textstyle \rightarrow}$	`Q: What is 95 times 45?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`4275`

`Context` ${\textstyle \rightarrow}$	`Q: What is 509 minus 488?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`21`

`Context` ${\textstyle \rightarrow}$	`Q: What is 556 plus 497?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`1053`

`Context` ${\textstyle \rightarrow}$	`Q: What is 6209 minus 3365?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`2844`

`Context` ${\textstyle \rightarrow}$	`Q: What is 9923 plus 617?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`10540`

`Context` ${\textstyle \rightarrow}$	`Q: What is 40649 minus 78746?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`-38097`

`Context` ${\textstyle \rightarrow}$	`Q: What is 65360 plus 16204?`
	`A:`
`Target Completion` ${\textstyle \rightarrow}$	`81564`

Apéndice H Resultados en Todas las Tareas para Todos los Tamaños de Modelo

					Zero-Shot								One-Shot								Few-Shot
Nombre	Métrica	División	SOTA con Fine-tune	K	Small	Med	Large	XL	2.7B	6.7B	13B	175B	Small	Med	Large	XL	2.7B	6.7B	13B	175B	Small	Med	Large	XL	2.7B	6.7B	13B	175B	175B (test server)
HellaSwag	acc	dev	85.6	20	33.7	43.6	51.0	54.7	62.8	67.4	70.9	78.9	33.0	42.9	50.5	53.5	61.9	66.5	70.0	78.1	33.5	43.1	51.3	54.9	62.9	67.3	71.3	79.3
LAMBADA	acc	test	68.0	15	42.7	54.3	60.4	63.6	67.1	70.3	72.5	76.2	22.0	47.1	52.6	58.3	61.1	65.4	69.0	72.5	22.0	40.4	63.2	57.0	78.1	79.1	81.3	86.4
LAMBADA	ppl	test	8.63	15	18.6	9.09	6.53	5.44	4.60	4.00	3.56	3.00	165.0	11.6	8.29	6.46	5.53	4.61	4.06	3.35	165.0	27.6	6.63	7.45	2.89	2.56	2.56	1.92
StoryCloze	acc	test	91.8	70	63.3	68.5	72.4	73.4	77.2	77.7	79.5	83.2	62.3	68.7	72.3	74.2	77.3	78.7	79.7	84.7	62.3	70.2	73.9	76.1	80.2	81.2	83.0	87.7
NQs	acc	test	44.5	64	0.64	1.75	2.71	4.40	6.01	5.79	7.84	14.6	1.19	3.07	4.79	5.43	8.73	9.78	13.7	23.0	1.72	4.46	7.89	9.72	13.2	17.0	21.0	29.9
TriviaQA	acc	dev	68.0	64	4.15	7.61	14.0	19.7	31.3	38.7	41.8	64.3	4.19	12.9	20.5	26.5	35.9	44.4	51.3	68.0	6.96	16.3	26.5	32.1	42.3	51.6	57.5	71.2	71.2
WebQs	acc	test	45.5	64	1.77	3.20	4.33	4.63	7.92	7.73	8.22	14.4	2.56	6.20	8.51	9.15	14.5	15.1	19.0	25.3	5.46	12.6	15.9	19.6	24.8	27.7	33.5	41.5
Ro ${\textstyle \rightarrow}$ En 16	BLEU-mb	test	39.9	64	2.08	2.71	3.09	3.15	16.3	8.34	20.2	19.9	0.55	15.4	23.0	26.3	30.6	33.2	35.6	38.6	1.25	20.7	25.8	29.2	33.1	34.8	37.0	39.5
Ro ${\textstyle \rightarrow}$ En 16	BLEU-sb	test		64	2.39	3.08	3.49	3.56	16.8	8.75	20.8	20.9	0.65	15.9	23.6	26.8	31.3	34.2	36.7	40.0	1.40	21.3	26.6	30.1	34.3	36.2	38.4	41.3
En ${\textstyle \rightarrow}$ Ro 16	BLEU-mb	test	38.5	64	2.14	2.65	2.53	2.50	3.46	4.24	5.32	14.1	0.35	3.30	7.89	8.72	13.2	15.1	17.3	20.6	1.25	5.90	9.33	10.7	14.3	16.3	18.0	21.0
En ${\textstyle \rightarrow}$ Ro 16	BLEU-sb	test		64	2.61	3.11	3.07	3.09	4.26	5.31	6.43	18.0	0.55	3.90	9.15	10.3	15.7	18.2	20.8	24.9	1.64	7.40	10.9	12.9	17.2	19.6	21.8	25.8
Fr ${\textstyle \rightarrow}$ En 14	BLEU-mb	test	35.0	64	1.81	2.53	3.47	3.13	20.6	15.1	21.8	21.2	1.28	15.9	23.7	26.3	29.0	30.5	30.2	33.7	4.98	25.5	28.5	31.1	33.7	34.9	36.6	39.2
Fr ${\textstyle \rightarrow}$ En 14	BLEU-sb	test		64	2.29	2.99	3.90	3.60	21.2	15.5	22.4	21.9	1.50	16.3	24.4	27.0	30.0	31.6	31.4	35.6	5.30	26.2	29.5	32.2	35.1	36.4	38.3	41.4
En ${\textstyle \rightarrow}$ Fr 14	BLEU-mb	test	45.6	64	1.74	2.16	2.73	2.15	15.1	8.82	12.0	25.2	0.49	8.00	14.8	15.9	20.3	23.3	24.9	28.3	4.08	14.5	19.3	21.5	24.9	27.3	29.5	32.6
En ${\textstyle \rightarrow}$ Fr 14	BLEU-sb	test	45.9	64	2.44	2.75	3.54	2.82	19.3	11.4	15.3	31.3	0.81	10.0	18.2	19.3	24.7	28.3	30.1	34.1	5.31	18.0	23.6	26.1	30.3	33.3	35.5	39.9
De ${\textstyle \rightarrow}$ En 16	BLEU-mb	test	40.2	64	2.06	2.87	3.41	3.63	21.5	17.3	23.0	27.2	0.83	16.2	22.5	24.7	28.2	30.7	33.0	30.4	3.25	22.7	26.2	29.2	32.7	34.8	37.3	40.6
De ${\textstyle \rightarrow}$ En 16	BLEU-sb	test		64	2.39	3.27	3.85	4.04	22.5	18.2	24.4	28.6	0.93	17.1	23.4	25.8	29.2	31.9	34.5	32.1	3.60	23.8	27.5	30.5	34.1	36.5	39.1	43.0
En ${\textstyle \rightarrow}$ De 16	BLEU-mb	test	41.2	64	1.70	2.27	2.31	2.43	12.9	8.66	10.4	24.6	0.50	7.00	12.9	13.1	18.3	20.9	22.5	26.2	3.42	12.3	15.4	17.1	20.9	23.0	26.6	29.7
En ${\textstyle \rightarrow}$ De 16	BLEU-sb	test	41.2	64	2.09	2.65	2.75	2.92	13.7	9.36	11.0	25.3	0.54	7.40	13.4	13.4	18.8	21.7	23.3	27.3	3.78	12.9	16.1	17.7	21.7	24.1	27.7	30.9
Winograd	acc	test	93.8	7	66.3	72.9	74.7	76.9	82.4	85.7	87.9	88.3	63.4	68.5	72.9	76.9	82.4	84.6	86.1	89.7	63.4	67.4	73.6	76.9	84.3	85.4	82.4	88.6
Winogrande	acc	dev	84.6	50	52.0	52.1	57.4	58.7	62.3	64.5	67.9	70.2	51.3	53.0	58.3	59.1	61.7	65.8	66.9	73.2	51.3	52.6	57.5	59.1	62.6	67.4	70.0	77.7
PIQA	acc	dev	77.1	50	64.6	70.2	72.9	75.1	75.6	78.0	78.5	81.0	64.3	69.3	71.8	74.4	74.3	76.3	77.8	80.5	64.3	69.4	72.0	74.3	75.4	77.8	79.9	82.3	82.8
ARC (Challenge)	acc	test	78.5	50	26.6	29.5	31.8	35.5	38.0	41.4	43.7	51.4	25.5	30.2	31.6	36.4	38.4	41.5	43.1	53.2	25.5	28.4	32.3	36.7	39.5	43.7	44.8	51.5
ARC (Easy)	acc	test	92.0	50	43.6	46.5	53.0	53.8	58.2	60.2	63.8	68.8	42.7	48.2	54.6	55.9	60.3	62.6	66.8	71.2	42.7	51.0	58.1	59.1	62.1	65.8	69.1	70.1
OpenBookQA	acc	test	87.2	100	35.6	43.2	45.2	46.8	53.0	50.4	55.6	57.6	37.0	39.8	46.2	46.4	53.4	53.0	55.8	58.8	37.0	43.6	48.0	50.6	55.6	55.2	60.8	65.4
Quac	f1	dev	74.4	5	21.2	26.8	31.0	30.1	34.7	36.1	38.4	41.5	21.1	26.9	31.9	32.3	37.4	39.0	40.6	43.4	21.6	27.6	32.9	34.2	38.2	39.9	40.9	44.3
RACE-h	acc	test	90.0	10	35.2	37.9	40.1	40.9	42.4	44.1	44.6	45.5	34.3	37.7	40.0	42.0	43.8	44.3	44.6	45.9	34.3	37.0	40.4	41.4	42.3	44.7	45.1	46.8
RACE-m	acc	test	93.1	10	42.1	47.2	52.1	52.3	54.7	54.4	56.7	58.4	42.3	47.3	51.7	55.2	56.1	54.7	56.9	57.4	42.3	47.0	52.7	53.0	55.6	55.4	58.1	58.1
SQuADv2	em	dev	90.7	16	22.6	32.8	33.9	43.1	43.6	45.4	49.0	52.6	25.1	37.5	37.9	47.9	47.9	51.1	56.0	60.1	27.5	40.5	39.2	53.5	50.0	56.6	62.6	64.9
SQuADv2	f1	dev	93.0	16	28.3	40.2	41.4	50.3	51.0	52.7	56.3	59.5	30.1	43.6	44.1	54.0	54.1	57.1	61.8	65.4	32.1	45.5	44.9	58.7	55.9	62.1	67.7	69.8
CoQA	f1	dev	90.7	5	34.5	55.0	61.8	65.3	71.1	72.8	76.3	81.5	30.6	52.1	61.6	66.1	71.8	75.1	77.9	84.0	31.1	52.0	62.7	66.8	73.2	77.3	79.9	85.0
DROP	f1	dev	89.1	20	9.40	13.6	14.4	16.4	19.7	17.0	24.0	23.6	11.7	18.1	20.9	23.0	26.4	27.3	29.2	34.3	12.9	18.7	24.0	25.6	29.7	29.7	32.3	36.5
BoolQ	acc	dev	91.0	32	49.7	60.3	58.9	62.4	67.1	65.4	66.2	60.5	52.6	61.7	60.4	63.7	68.4	68.7	69.0	76.7	43.1	60.6	62.0	64.1	70.3	70.0	70.2	77.5	76.4
CB	acc	dev	96.9	32	0.00	32.1	8.93	19.6	19.6	28.6	19.6	46.4	55.4	53.6	53.6	48.2	57.1	33.9	55.4	64.3	42.9	58.9	53.6	69.6	67.9	60.7	66.1	82.1	75.6
CB	f1	dev	93.9	32	0.00	29.3	11.4	17.4	22.4	25.1	20.3	42.8	60.1	39.8	45.6	37.5	45.7	28.5	44.6	52.5	26.1	40.4	32.6	48.3	45.7	44.6	46.0	57.2	52.0
Copa	acc	dev	94.8	32	66.0	68.0	73.0	77.0	76.0	80.0	84.0	91.0	62.0	64.0	66.0	74.0	76.0	82.0	86.0	87.0	67.0	64.0	72.0	77.0	83.0	83.0	86.0	92.0	92.0
RTE	acc	dev	92.5	32	47.7	49.8	48.4	56.0	46.6	55.2	62.8	63.5	53.1	47.3	49.5	49.5	54.9	54.9	56.3	70.4	52.3	48.4	46.9	50.9	56.3	49.5	60.6	72.9	69.0
WiC	acc	dev	76.1	32	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	50.0	50.3	50.3	49.2	49.4	50.3	50.0	48.6	49.8	55.0	53.0	53.0	51.6	53.1	51.1	55.3	49.4
WSC	acc	dev	93.8	32	59.6	56.7	65.4	61.5	66.3	60.6	64.4	65.4	58.7	58.7	60.6	62.5	66.3	60.6	66.3	69.2	58.7	60.6	54.8	49.0	62.5	67.3	75.0	75.0	80.1
MultiRC	acc	dev	62.3	32	4.72	9.65	12.3	13.6	14.3	18.4	24.2	27.6	4.72	9.65	12.3	13.6	14.3	18.4	24.2	27.6	6.09	11.8	16.8	20.8	24.7	23.8	25.0	32.5	30.5
MultiRC	f1a	dev	88.2	32	57.0	59.7	60.4	59.9	60.0	64.5	71.4	72.9	57.0	59.7	60.4	59.9	60.0	64.5	71.4	72.9	45.0	55.9	64.2	65.4	69.5	66.4	69.3	74.8	75.4
ReCoRD	acc	dev	92.5	32	70.8	78.5	82.1	84.1	86.2	88.6	89.0	90.2	69.8	77.0	80.7	83.0	85.9	88.0	88.8	90.2	69.8	77.2	81.3	83.1	86.6	87.9	88.9	89.0	90.2
ReCoRD	f1	dev	93.3	32	71.9	79.2	82.8	85.2	87.3	89.5	90.4	91.0	70.7	77.8	81.6	83.9	86.8	88.8	89.7	91.2	70.7	77.9	82.1	84.0	87.5	88.8	89.8	90.1	91.1
SuperGLUE	average	dev	89.0		40.6	47.4	46.8	49.6	50.1	52.3	54.4	58.2	54.4	55.1	56.7	57.8	61.2	59.7	64.3	68.9	50.2	56.2	56.8	60.0	64.3	63.6	66.9	73.2	71.8
ANLI R1	acc	test	73.8	50	33.4	34.2	33.4	33.4	34.2	32.3	33.2	34.6	32.1	31.6	31.9	34.6	30.6	31.6	32.7	32.0	32.1	32.5	30.9	32.5	33.5	33.1	33.3	36.8
ANLI R2	acc	test	50.7	50	33.2	31.9	33.3	33.3	33.8	33.5	33.5	35.4	35.7	33.7	33.2	32.7	32.7	33.9	33.9	33.9	35.7	33.8	32.1	31.4	32.6	33.3	32.6	34.0
ANLI R3	acc	test	48.3	50	33.6	34.0	33.8	33.4	35.3	34.8	34.4	34.5	35.0	32.6	33.0	33.9	34.1	33.1	32.5	35.1	35.0	34.4	35.1	36.0	32.7	33.9	34.5	40.2
2D+	acc	n/a		50	0.70	0.65	0.70	0.85	1.10	2.54	15.4	76.9	2.00	0.55	3.15	4.00	12.1	19.6	73.0	99.6	2.00	4.10	3.50	4.50	8.90	11.9	55.5	100.0
2D-	acc	n/a		50	1.25	1.25	1.25	1.25	1.60	7.60	12.6	58.0	1.15	0.95	1.45	1.95	3.85	11.5	44.6	86.4	1.15	1.45	2.25	2.70	7.35	13.6	52.4	98.9
3D+	acc	n/a		50	0.10	0.10	0.05	0.10	0.10	0.25	1.40	34.2	0.15	0.00	0.10	0.30	0.45	0.95	15.4	65.5	0.15	0.45	0.30	0.55	0.75	0.90	8.40	80.4
3D-	acc	n/a		50	0.05	0.05	0.05	0.05	0.05	0.45	1.35	48.3	0.05	0.15	0.25	0.30	0.55	1.60	6.15	78.7	0.05	0.10	0.15	0.35	0.65	1.05	9.20	94.2
4D+	acc	n/a		50	0.05	0.05	0.00	0.00	0.05	0.05	0.15	4.00	0.00	0.00	0.10	0.00	0.00	0.10	0.80	14.0	0.00	0.05	0.05	0.00	0.15	0.15	0.40	25.5
4D-	acc	n/a		50	0.00	0.00	0.00	0.00	0.00	0.00	0.10	7.50	0.00	0.00	0.00	0.00	0.05	0.00	0.50	14.0	0.00	0.05	0.00	0.00	0.10	0.05	0.40	26.8
5D+	acc	n/a		50	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.65	0.00	0.00	0.00	0.00	0.00	0.00	0.05	3.45	0.00	0.00	0.00	0.00	0.00	0.00	0.05	9.30
5D-	acc	n/a		50	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.80	0.00	0.00	0.00	0.00	0.00	0.00	0.05	3.75	0.00	0.00	0.00	0.00	0.00	0.00	0.00	9.90
2Dx	acc	n/a		50	2.20	2.25	2.65	2.10	2.55	5.80	6.15	19.8	1.35	2.35	3.35	2.35	4.75	9.15	11.0	27.4	1.35	2.90	2.70	2.85	4.25	6.10	7.05	29.2
1DC	acc	n/a		50	1.25	2.95	2.75	0.05	0.30	2.35	0.75	9.75	1.90	2.80	2.85	3.65	6.45	9.15	8.20	14.3	1.70	2.15	3.90	5.75	6.20	7.60	9.95	21.3
Cycled Letters	acc	n/a		100	0.62	0.71	2.85	0.00	0.63	1.35	2.58	3.66	1.67	4.36	5.68	6.46	6.25	9.41	15.1	21.7	4.63	9.27	10.7	14.5	16.7	21.9	27.7	37.9
Anagrams 1	acc	n/a		100	0.10	0.14	0.40	0.00	0.27	0.69	1.16	2.28	0.21	0.61	1.12	1.27	1.60	2.72	3.72	8.62	0.50	1.27	2.13	3.05	3.81	5.49	8.38	15.1
Anagrams 2	acc	n/a		100	0.81	1.21	2.69	0.01	1.71	3.75	4.53	8.91	1.19	2.62	4.70	4.77	6.97	10.2	14.6	25.9	1.94	4.80	7.59	9.87	12.6	18.9	25.6	39.7
Symbol Insertion	acc	n/a		100	0.00	0.00	0.10	0.00	0.05	0.42	0.89	8.26	0.03	0.05	0.57	1.18	1.67	3.46	6.62	45.4	0.11	0.28	2.19	4.18	6.61	11.0	27.3	67.2
Reversed Words	acc	n/a		100	0.00	0.01	0.01	0.01	0.02	0.03	0.03	0.09	0.02	0.01	0.01	0.00	0.05	0.07	0.11	0.48	0.00	0.05	0.00	0.17	0.24	0.30	0.42	0.44
SAT Analogies	acc	n/a		20	35.6	39.0	45.2	44.1	50.0	49.2	52.7	53.7	30.5	41.2	43.1	46.5	55.1	54.3	53.5	59.1	30.5	40.4	42.8	40.6	48.4	51.9	53.5	65.2

Referencias

ADG⁺ [16] Marcin Andrychowicz, Misha Denil, Sergio Gomez, Matthew W Hoffman, David Pfau, Tom Schaul, Brendan Shillingford, and Nando De Freitas. Learning to learn by Lua error: Internal error: The interpreter exited with status 1. by Lua error: Internal error: The interpreter exited with status 1.. In Advances in neural information processing systems, pages 3981–3989, 2016.
AI [19] WeChat AI. Tr-mt (ensemble), December 2019.
AJF [19] Roee Aharoni, Melvin Johnson, and Orhan Firat. Massively multilingual neural machine translation. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019.
BBDIW [20] Su Lin Blodgett, Solon Barocas, Hal Daumé III, and Hanna Wallach. Language (technology) is power: A critical survey of “bias” in nlp. arXiv preprint arXiv:2005.14050, 2020.
BCFL [13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. Semantic parsing on freebase from question-answer pairs. In Proceedings of the 2013 conference on empirical methods in natural language processing, pages 1533–1544, 2013.
BDD⁺ [09] Luisa Bentivogli, Ido Dagan, Hoa Trang Dang, Danilo Giampiccolo, and Bernardo Magnini. The fifth PASCAL recognizing textual entailment challenge. 2009.
BES [10] Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining. In Lrec, volume 10, pages 2200–2204, 2010.
BHDD⁺ [06] Roy Bar Haim, Ido Dagan, Bill Dolan, Lisa Ferro, Danilo Giampiccolo, Bernardo Magnini, and Idan Szpektor. The second PASCAL recognising textual entailment challenge. 2006.
BHT⁺ [20] Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, et al. Experience grounds language. arXiv preprint arXiv:2004.10151, 2020.
BLC [13] Yoshua Bengio, Nicholas Léonard, and Aaron C. Courville. Estimating or propagating gradients through stochastic neurons for conditional computation. Arxiv, 2013.
BZB⁺ [19] Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, and Yejin Choi. Piqa: Reasoning about physical commonsense in natural language. arXiv preprint arXiv:1911.11641, 2019.
Car [97] Rich Caruana. Multitask learning. Machine learning, 28(1), 1997.
CB [78] Susan Carey and Elsa Bartlett. Acquiring a single new word. Proceedings of the Stanford Child Language Conference, 1978.
CCE⁺ [18] Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. ArXiv, abs/1803.05457, 2018.
CGRS [19] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse Lua error: Internal error: The interpreter exited with status 1., 2019.
CHI⁺ [18] Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wen-tau Yih, Yejin Choi, Percy Liang, and Luke Zettlemoyer. Quac : Question answering in context. Arxiv, 2018.
CLC⁺ [19] Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. BoolQ: Exploring the surprising difficulty of natural yes/no questions. arXiv preprint arXiv:1905.10044, 2019.
CLY⁺ [19] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. Uniter: Learning universal image-text representations. arXiv preprint arXiv:1909.11740, 2019.
Cra [17] Kate Crawford. The trouble with bias. NIPS 2017 Keynote, 2017.
DCLT [18] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Lua error: Internal error: The interpreter exited with status 1. of deep bidirectional Lua error: Internal error: The interpreter exited with status 1. for language understanding. arXiv preprint arXiv:1810.04805, 2018.
DGM [06] Ido Dagan, Oren Glickman, and Bernardo Magnini. The PASCAL recognising textual entailment challenge. In Machine learning challenges. evaluating predictive uncertainty, visual object classification, and recognising textual entailment, pages 177–190. Springer, 2006.
DGV⁺ [18] Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, and Lukasz Kaiser. Universal Lua error: Internal error: The interpreter exited with status 1.. Arxiv, 2018.
DHKH [14] Nadir Durrani, Barry Haddow, Philipp Koehn, and Kenneth Heafield. Edinburgh’s phrase-based machine translation systems for wmt-14. In Proceedings of the Ninth Workshop on Statistical Machine Translation, pages 97–104, 2014.
DL [15] Andrew M. Dai and Quoc V. Le. Semi-supervised sequence learning. In Advances in neural information processing systems, 2015.
DMST [19] Marie-Catherine De Marneffe, Mandy Simons, and Judith Tonhauser. The CommitmentBank: Investigating projection in naturally occurring discourse. 2019. To appear in proceedings of Sinn und Bedeutung 23. Data can be found at https://github.com/mcdm/CommitmentBank/.
DSC⁺ [16] Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever, and Pieter Abbeel. Rl²: Fast reinforcement learning via slow reinforcement learning. ArXiv, abs/1611.02779, 2016.
DWD⁺ [19] Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. Drop: A reading comprehension benchmark requiring discrete reasoning over paragraphs. arXiv preprint arXiv:1903.00161, 2019.
DYY⁺ [19] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G. Carbonell, Quoc V. Le, and Ruslan Salakhutdinov. Lua error: Internal error: The interpreter exited with status 1.-xl: Attentive language models beyond a fixed-length context. Arxiv, 2019.
EOAG [18] Sergey Edunov, Myle Ott, Michael Auli, and David Grangier. Understanding back-translation at scale. arXiv preprint arXiv:1808.09381, 2018.
FAL [17] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. ArXiv, abs/1703.03400, 2017.
Fyo [00] Yaroslav Fyodorov. A natural logic inference system, 2000.
GG [19] Hila Gonen and Yoav Goldberg. Lipstick on a pig: Debiasing methods cover up systematic gender biases in word Lua error: Internal error: The interpreter exited with status 1. but do not remove them. arXiv preprint arXiv:1903.03862, 2019.
GLT⁺ [20] Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Ming-Wei Chang. Realm: Retrieval-augmented language model Lua error: Internal error: The interpreter exited with status 1.. arXiv preprint arXiv:2002.08909, 2020.
GMDD [07] Danilo Giampiccolo, Bernardo Magnini, Ido Dagan, and Bill Dolan. The third PASCAL recognizing textual entailment challenge. In Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing, pages 1–9. Association for Computational Linguistics, 2007.
Gra [16] Alex Graves. Adaptive computation time for recurrent neural networks. Arxiv, 2016.
GSL⁺ [18] Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel R Bowman, and Noah A Smith. Annotation artifacts in natural language inference data. arXiv preprint arXiv:1803.02324, 2018.
GSR [19] Sebastian Gehrmann, Hendrik Strobelt, and Alexander M. Rush. Gltr: Statistical detection and visualization of generated text. arXiv preprint arXiv: 1906.04043, 2019.
GWC⁺ [18] Jiatao Gu, Yong Wang, Yun Chen, Kyunghyun Cho, and Victor OK Li. Meta-learning for low-resource neural machine translation. arXiv preprint arXiv:1808.08437, 2018.
HB [20] Daniel Hernandez and Tom Brown. Ai and efficiency, May 2020.
HBFC [19] Ari Holtzman, Jan Buys, Maxwell Forbes, and Yejin Choi. The curious case of neural text degeneration. CoRR, abs/1904.09751, 2019.
HLW⁺ [20] Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Lua error: Internal error: The interpreter exited with status 1. Dziedzic, Rishabh Krishnan, and Dawn Song. Pretrained Lua error: Internal error: The interpreter exited with status 1. improve out of distribution robustness. arXiv preprint arXiv:2004.06100, 2020.
HNA⁺ [17] Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md. Mostofa Ali Patwary, Yang Yang, and Yanqi Zhou. Lua error: Internal error: The interpreter exited with status 1. scaling is predictable, empirically. arXiv preprint arXiv:1712.00409, 2017.
HR [18] Jeremy Howard and Sebastian Ruder. Universal language model Lua error: Internal error: The interpreter exited with status 1. for text classification. arXiv preprint arXiv:1801.06146, 2018.
HVD [15] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.
HYC [01] Sepp Hochreiter, A Steven Younger, and Peter R Conwell. Learning to Learn Using Gradient Descent. In International Conference on Artificial Neural Networks, pages 87–94. Springer, 2001.
HZJ⁺ [19] Po-Sen Huang, Huan Zhang, Ray Jiang, Robert Stanforth, Johannes Welbl, Jack Rae, Vishal Maini, Dani Yogatama, and Pushmeet Kohli. Reducing sentiment bias in language models via counterfactual evaluation. arXiv preprint arXiv:1911.03064, 2019.
IBGC⁺ [14] Mohit Iyyer, Jordan Boyd-Graber, Leonardo Claudino, Richard Socher, and Hal Daumé III. A neural network for factoid question answering over paragraphs. In Empirical Methods in Natural Language Processing, 2014.
IDCBE [19] Daphne Ippolito, Daniel Duckworth, Chris Callison-Burch, and Douglas Eck. Automatic detection of generated text is easiest when humans are fooled. arXiv preprint arXiv:1911.00650, 2019.
JCWZ [17] Mandar Joshi, Eunsol Choi, Daniel S. Weld, and Luke Zettlemoyer. TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension. arXiv preprint arXiv:1705.03551, 2017.
JN [20] Zheng Junyuan and Gamma Lab NYC. Numeric Lua error: Internal error: The interpreter exited with status 1. - albert, March 2020.
JVS⁺ [16] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016.
JYS⁺ [19] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. TinyBERT: Distilling BERT for natural language understanding. arXiv preprint arXiv:1909.10351, 2019.
JZC⁺ [19] Ying Ju, Fubang Zhao, Shijie Chen, Bowen Zheng, Xuefeng Yang, and Yunfeng Liu. Technical report on conversational question answering. arXiv preprint arXiv:1909.10772, 2019.
KCR⁺ [18] Daniel Khashabi, Snigdha Chaturvedi, Michael Roth, Shyam Upadhyay, and Dan Roth. Looking beyond the surface: A challenge set for reading comprehension over multiple sentences. In Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL), 2018.
KKS⁺ [20] Daniel Khashabi, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. Unifiedqa: Crossing format boundaries with a single qa system. arXiv preprint arXiv:2005.00700, 2020.
KMB [20] Sarah E. Kreps, Miles McCain, and Miles Brundage. All the news that’s fit to fabricate: Ai-generated text as a tool of media misinformation, 2020.
KMH⁺ [20] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models, 2020.
KPR⁺ [19] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Matthew Kelcey, Jacob Devlin, Kenton Lee, Kristina N. Toutanova, Llion Jones, Ming-Wei Chang, Andrew Dai, Jakob Uszkoreit, Quoc Le, and Slav Petrov. Natural questions: a benchmark for question answering research. Transactions of the Association of Computational Linguistics, 2019.
KR [16] Yoon Kim and Alexander M. Rush. Sequence-level knowledge distillation. Arxiv, 2016.
LB [02] Edward Loper and Steven Bird. Nltk: The natural language toolkit, 2002.
LC [19] Guillaume Lample and Alexis Conneau. Cross-lingual language model Lua error: Internal error: The interpreter exited with status 1.. arXiv preprint arXiv:1901.07291, 2019.
LCG⁺ [19] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. ALBERT: A lite BERT for Lua error: Internal error: The interpreter exited with status 1. of language representations. arXiv preprint arXiv:1909.11942, 2019.
LCH⁺ [20] Xiaodong Liu, Hao Cheng, Pengcheng He, Weizhu Chen, Yu Wang, Hoifung Poon, and Jianfeng Gao. Adversarial training for large neural language models. arXiv preprint arXiv:2004.08994, 2020.
LDL [19] Zhongyang Li, Xiao Ding, and Ting Liu. Story ending prediction by transferable bert. arXiv preprint arXiv:1905.07504, 2019.
LDM [12] Hector Levesque, Ernest Davis, and Leora Morgenstern. The Winograd schema challenge. In Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning, 2012.
LGG⁺ [20] Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. Multilingual denoising Lua error: Internal error: The interpreter exited with status 1. for neural machine translation. arXiv preprint arXiv:2001.08210, 2020.
LGH⁺ [15] Xiaodong Liu, Jianfeng Gao, Xiaodong He, Li Deng, Kevin Duh, and Ye-Yi Wang. Representation learning using multi-task deep neural networks for semantic classification and information retrieval. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2015.
LH [17] Ilya Loshchilov and Frank Hutter. Decoupled Lua error: Internal error: The interpreter exited with status 1. Lua error: Internal error: The interpreter exited with status 1.. arXiv preprint arXiv:1711.05101, 2017.
[69] Xiaodong Liu, Pengcheng He, Weizhu Chen, and Jianfeng Gao. Improving multi-task deep neural networks via knowledge distillation for natural language understanding. arXiv preprint arXiv:1904.09482, 2019.
[70] Xiaodong Liu, Pengcheng He, Weizhu Chen, and Jianfeng Gao. Multi-task deep neural networks for natural language understanding. arXiv preprint arXiv:1901.11504, 2019.
Lin [20] Tal Linzen. How can we accelerate progress towards human-like linguistic generalization? arXiv preprint arXiv:2005.00955, 2020.
LLG⁺ [19] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. Bart: Denoising Lua error: Internal error: The interpreter exited with status 1. Lua error: Internal error: The interpreter exited with status 1. for natural language generation, translation, and comprehension. arXiv preprint arXiv:1910.13461, 2019.
LM [17] Ke Li and Jitendra Malik. Learning to optimize neural nets. arXiv preprint arXiv:1703.00441, 2017.
LOG⁺ [19] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A robustly optimized BERT Lua error: Internal error: The interpreter exited with status 1. approach. arXiv preprint arXiv:1907.11692, 2019.
LPP⁺ [20] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Kiela Douwe. Retrieval-augmented generation for knowledge-intensive nlp tasks. arXiv preprint arXiv:2005.11401, 2020.
LSP⁺ [18] Peter J. Liu, Mohammad Saleh, Etienne Pot, Ben Goodrich, Ryan Sepassi, Lukasz Kaiser, and Noam Shazeer. Generating Wikipedia by summarizing long sequences. arXiv preprint arXiv:1801.10198, 2018.
LWS⁺ [20] Zhuohan Li, Eric Wallace, Sheng Shen, Kevin Lin, Kurt Keutzer, Dan Klein, and Joseph E. Gonzalez. Train large, then compress: Rethinking model size for efficient training and inference of Lua error: Internal error: The interpreter exited with status 1., 2020.
LXL⁺ [17] Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, and Eduard Hovy. Race: Large-scale reading comprehension dataset from examinations. arXiv preprint arXiv:1704.04683, 2017.
LYN⁺ [20] Sheng-Chieh Lin, Jheng-Hong Yang, Rodrigo Nogueira, Ming-Feng Tsai, Chuan-Ju Wang, and Jimmy Lin. Tttttackling winogrande schemas. arXiv preprint arXiv:2003.08380, 2020.
Mac [92] David. MacKay. Information-based Lua error: Internal error: The interpreter exited with status 1. for active data selection. Neural Computation, 1992.
MBXS [17] Bryan McCann, James Bradbury, Caiming Xiong, and Richard Socher. Learned in translation: Contextualized word vectors. In Advances in Neural Information Processing Systems, pages 6294–6305, 2017.
MCCD [13] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.
MCH⁺ [16] Nasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, and James Allen. A corpus and evaluation framework for deeper understanding of commonsense stories. arXiv preprint arXiv:1604.01696, 2016.
MCKS [18] Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. ArXiv, abs/1809.02789, 2018.
MKAT [18] Sam McCandlish, Jared Kaplan, Dario Amodei, and OpenAI Dota Team. An empirical model of large-batch training, 2018.
MKM⁺ [94] Mitchell Marcus, Grace Kim, Mary Ann Marcinkiewicz, Robert MacIntyre, Ann Bies, Mark Ferguson, Karen Katz, and Britta Schasberger. The penn treebank: annotating predicate argument structure. In Proceedings of the workshop on Human Language Technology, pages 114–119. Association for Computational Linguistics, 1994.
MKXS [18] Bryan McCann, Nitish Shirish Keskar, Caiming Xiong, and Richard Socher. The natural language decathlon: Multitask learning as question answering. arXiv preprint arXiv:1806.08730, 2018.
MPL [19] R Thomas McCoy, Ellie Pavlick, and Tal Linzen. Right for the wrong reasons: Diagnosing syntactic heuristics in natural language inference. arXiv preprint arXiv:1902.01007, 2019.
MWZ⁺ [18] Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model cards for model reporting, 2018.
NBR [20] Moin Nadeem, Anna Bethke, and Siva Reddy. Stereoset: Measuring stereotypical bias in pretrained language models. arXiv preprint arXiv:2004.09456, 2020.
NK [19] Timothy Niven and Hung-Yu Kao. Probing neural network comprehension of natural language arguments. arXiv preprint arXiv:1907.07355, 2019.
Nor [09] Peter Norvig. Natural language corpus data, 2009.
NvNvdG [19] Malvina Nissim, Rik van Noord, and Rob van der Goot. Fair is better than sensational: Man is to doctor as woman is to doctor. arXiv preprint arXiv:1905.09866, 2019.
NWD⁺ [19] Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, and Douwe Kiela. Adversarial nli: A new benchmark for natural language understanding. arXiv preprint arXiv:1910.14599, 2019.
oR [16] University of Regensburg. Fascha, 2016.
PCC [18] Mohammad Taher Pilehvar and Jose Camacho-Collados. WIC: 10,000 example pairs for evaluating context-sensitive representations. arXiv preprint arXiv:1808.09121, 2018.
PFB [18] Jason Phang, Thibault Févry, and Samuel R. Bowman. Sentence encoders on STILTs: Supplementary training on intermediate labeled-data tasks. arXiv preprint arXiv:1811.01088, 2018.
PHR⁺ [18] Lua error: Internal error: The interpreter exited with status 1. Poliak, Aparajita Haldar, Rachel Rudinger, J. Edward Hu, Ellie Pavlick, Aaron Steven White, and Benjamin Van Durme. Collecting diverse natural language inference problems for sentence representation evaluation. In Proceedings of EMNLP, 2018.
PKL⁺ [16] Denis Paperno, Germán Kruszewski, Angeliki Lazaridou, Quan Ngoc Pham, Raffaella Bernardi, Sandro Pezzelle, Marco Baroni, Gemma Boleda, and Raquel Fernández. The lambada dataset: Word prediction requiring a broad discourse context. arXiv preprint arXiv:1606.06031, 2016.
PNZtY [18] Matthew E. Peters, Mark Neumann, Luke Zettlemoyer, and Wen tau Yih. Dissecting contextual word Lua error: Internal error: The interpreter exited with status 1.: Architecture and representation, 2018.
Pos [18] Matt Post. A call for clarity in reporting BLEU scores. arXiv preprint arXiv:1804.08771, 2018.
PSM [14] Jeffrey Pennington, Richard Socher, and Christopher Manning. GloVe: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014.
QIA [20] QIANXIN. Sa-net on albert (ensemble), April 2020.
QMZH [19] Yusu Qian, Urwa Muaz, Ben Zhang, and Jae Won Hyun. Reducing gender bias in word-level language models with a gender-equalizing Lua error: Internal error: The interpreter exited with status 1.. arXiv preprint arXiv:1905.12801, 2019.
RBG [11] Melissa Roemmele, Cosmin Adrian Bejan, and Andrew S Gordon. Choice of plausible alternatives: An evaluation of commonsense causal reasoning. In 2011 AAAI Spring Symposium Series, 2011.
RCM [19] Siva Reddy, Danqi Chen, and Christopher D Manning. Coqa: A conversational question answering challenge. Transactions of the Association for Computational Linguistics, 7:249–266, 2019.
RCP⁺ [17] Scott Reed, Yutian Chen, Thomas Paine, Aäron van den Oord, SM Eslami, Danilo Rezende, Oriol Vinyals, and Nando de Freitas. Few-shot autoregressive density estimation: Towards learning to learn distributions. arXiv preprint arXiv:1710.10304, 2017.
RJL [18] Pranav Rajpurkar, Robin Jia, and Percy Liang. Know what you don’t know: Unanswerable questions for squad. arXiv preprint arXiv:1806.03822, 2018.
RL [16] Sachin Ravi and Hugo Larochelle. Optimization as a model for few-shot learning. ICLR 2017 (oral), 2016.
RLL⁺ [19] Qiu Ran, Yankai Lin, Peng Li, Jie Zhou, and Zhiyuan Liu. NumNet: Machine reading comprehension with numerical reasoning. In Proceedings of EMNLP, 2019.
RNLVD [18] Rachel Rudinger, Jason Naradowsky, Brian Leonard, and Benjamin Van Durme. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301, 2018.
RNSS [18] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative Lua error: Internal error: The interpreter exited with status 1., 2018.
Ros [12] R.S. Ross. Guide for conducting risk assessments. NIST Special Publication, 2012.
RRBS [19] Jonathan S. Rosenfeld, Amir Rosenfeld, Yonatan Belinkov, and Nir Shavit. A constructive prediction of the generalization error across scales, 2019.
RRS [20] Lua error: Internal error: The interpreter exited with status 1. Roberts, Colin Raffel, and Noam Shazeer. How much knowledge can you pack into the parameters of a language model? arXiv preprint arXiv:2002.08910, 2020.
RSR⁺ [19] Colin Raffel, Noam Shazeer, Lua error: Internal error: The interpreter exited with status 1. Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text Lua error: Internal error: The interpreter exited with status 1., 2019.
RWC⁺ [19] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners, 2019.
SBBC [19] Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. Winogrande: An adversarial winograd schema challenge at scale, 2019.
SBC⁺ [19] Irene Solaiman, Miles Brundage, Jack Clark, Amanda Askell, Ariel Herbert-Voss, Jeff Wu, Alec Radford, Gretchen Krueger, Jong Wook Kim, Sarah Kreps, Miles McCain, Alex Newhouse, Jason Blazakis, Kris McGuffie, and Jasmine Wang. Release strategies and the social impacts of language models, 2019.
SCNP [19] Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. The woman worked as a babysitter: On biases in language generation. arXiv preprint arXiv:1909.01326, 2019.
SDCW [19] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108, 2019.
SDSE [19] Roy Schwartz, Jesse Dodge, Noah A. Smith, and Oren Etzioni. Green AI. CoRR, abs/1907.10597, 2019.
SHB [15] Rico Sennrich, Barry Haddow, and Alexandra Birch. Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709, 2015.
SMM⁺ [17] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated Lua error: Internal error: The interpreter exited with status 1. layer. arXiv preprint arXiv:1701.06538, 2017.
SPP⁺ [19] Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, and Bryan Catanzaro. Megatron-lm: Training multi-billion parameter language models using model parallelism, 2019.
SS [20] Timo Schick and Hinrich Schütze. Exploiting cloze questions for few-shot text classification and natural language inference. arXiv preprint arXiv:2001.07676, 2020.
STQ⁺ [19] Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, and Tie-Yan Liu. MASS: Masked Lua error: Internal error: The interpreter exited with status 1. Lua error: Internal error: The interpreter exited with status 1. for language generation. arXiv preprint arXiv:1905.02450, 2019.
TFR⁺ [17] Josh Tobin, Rachel Fong, Alex Ray, Jonas Schneider, Wojciech Zaremba, and Pieter Abbeel. Domain randomization for transferring deep neural networks from simulation to the real world. In 2017 IEEE/RSJ international conference on intelligent robots and systems (IROS), pages 23–30. IEEE, 2017.
TL [05] Peter D. Turney and Michael L. Littman. Corpus-based learning of analogies and semantic relations. CoRR, abs/cs/0508103, 2005.
TL [18] Trieu H. Trinh and Quoc V. Le. A simple method for commonsense reasoning. arXiv preprint arXiv:1806.02847, 2018.
TLBS [03] Peter D. Turney, Michael L. Littman, Jeffrey Bigham, and Victor Shnayder. Combining independent modules to solve multiple-choice synonym and analogy problems. CoRR, cs.CL/0309035, 2003.
Tur [20] Project Turing. Microsoft research blog, Feb 2020.
VBL⁺ [16] Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Daan Wierstra, et al. Matching Networks for One Shot Learning. In Advances in neural information processing systems, pages 3630–3638, 2016.
VSP⁺ [17] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. Lua error: Internal error: The interpreter exited with status 1. is all you need. In Advances in neural information processing systems, 2017.
WPN⁺ [19] Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. Superglue: A stickier benchmark for general-purpose language understanding systems. In Advances in Neural Information Processing Systems, pages 3261–3275, 2019.
WXH⁺ [18] Yiren Wang, Yingce Xia, Tianyu He, Fei Tian, Tao Qin, ChengXiang Zhai, and Tie-Yan Liu. Multi-agent dual learning. ICLR 2019, 2018.
XDH⁺ [19] Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, and Quoc V. Le. Unsupervised data augmentation for consistency training, 2019.
YdC⁺ [19] Dani Yogatama, Cyprien de Masson d’Autume, Jerome Connor, Tomas Kocisky, Mike Chrzanowski, Lingpeng Kong, Angeliki Lazaridou, Wang Ling, Lei Yu, Chris Dyer, et al. Learning and evaluating general linguistic intelligence. arXiv preprint arXiv:1901.11373, 2019.
YDY⁺ [19] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V. Le. XLNet: Generalized autoregressive Lua error: Internal error: The interpreter exited with status 1. for language understanding. arXiv preprint arXiv:1906.08237, 2019.
ZHB⁺ [19] Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. Hellaswag: Can a machine really finish your sentence? arXiv preprint arXiv:1905.07830, 2019.
ZHR⁺ [19] Rowan Zellers, Ari Holtzman, Hannah Rashkin, Yonatan Bisk, Ali Farhadi, Franziska Roesner, and Yejin Choi. Defending against neural fake news. arXiv preprint arXiv:1905.12616, 2019.
ZLL⁺ [18] Sheng Zhang, Xiaodong Liu, Jingjing Liu, Jianfeng Gao, Kevin Duh, and Benjamin Van Durme. ReCoRD: Bridging the gap between human and machine commonsense reading comprehension. arXiv preprint arXiv:1810.12885, 2018.
[143] Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Lua error: Internal error: The interpreter exited with status 1. language models from human preferences, 2019.
[144] Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Lua error: Internal error: The interpreter exited with status 1. language models from human preferences. ArXiv, abs/1909.08593, 2019.