In-Context Learning/es
| Article | |
|---|---|
| Topic area | Large Language Models |
| Prerequisites | Transformer, Large Language Model, Attention Mechanism |
Visión general
Aprendizaje en contexto (ICL, por sus siglas en inglés) es la capacidad de un modelo de lenguaje grande preentrenado para realizar una nueva tarea en tiempo de inferencia condicionando con un pequeño número de ejemplos de entrada-salida colocados dentro de su prompt, sin actualización alguna de sus parámetros. El modelo lee los ejemplos como tokens ordinarios y produce una completación que resuelve una consulta retenida en el mismo formato. El ICL fue popularizado por el artículo de GPT-3, que mostró que escalar transformadores autorregresivos a cientos de miles de millones de parámetros causaba que esta capacidad emergiera de forma abrupta, convirtiendo un único modelo congelado en un aprendiz de pocos ejemplos de propósito general.[1] Como ningún gradiente fluye durante el ICL, este es operacionalmente distinto del ajuste fino y del metaaprendizaje clásico: el único canal de adaptación es el paso hacia adelante.
El ICL es importante porque cambia la forma en que se construyen los sistemas posteriores. En lugar de entrenar un modelo por tarea, los profesionales despliegan un único modelo base y dirigen su comportamiento escribiendo prompts. Este cambio es el fundamento de la moderna ingeniería de prompts, la generación aumentada por recuperación y los agentes que usan herramientas, y subyace a la mayoría de los despliegues de producción de los LLM de frontera.
Mecanismo e intuición
Un prompt típico de ICL tiene tres partes: una instrucción opcional en lenguaje natural, una secuencia de $ k $ demostraciones de la forma (entrada, salida) y una entrada de consulta final cuya salida debe producir el modelo. La nomenclatura estándar sigue el número de demostraciones: $ k=0 $ es zero-shot, $ k=1 $ es one-shot y $ k>1 $ es few-shot. El modelo nunca ve una señal de "entrenamiento" separada; simplemente continúa la secuencia más probable dado el prompt.
Intuitivamente, las demostraciones desempeñan dos papeles simultáneamente. Especifican la tarea mostrando la distribución de entrada, el espacio de salida y el formato de las etiquetas, y proporcionan patrones concretos contra los cuales el modelo puede emparejar. Empíricamente, sorprendentemente poca parte de la ganancia proviene de que los emparejamientos entrada-etiqueta sean realmente correctos: barajar las etiquetas a menudo solo degrada la precisión de manera modesta, mientras que corromper la distribución de entrada o el espacio de etiquetas perjudica gravemente.[2] Esto sugiere que el ICL principalmente activa capacidades ya latentes en el modelo preentrenado en lugar de aprender otras nuevas a partir del prompt.
Formulación
Sea $ p_\theta $ un modelo de lenguaje autorregresivo congelado con parámetros $ \theta $. Dado un contexto de prompt
$ {\displaystyle C_k = (x_1, y_1, x_2, y_2, \ldots, x_k, y_k, x_{\text{query}})} $
el modelo predice la respuesta como
$ {\displaystyle \hat{y} = \arg\max_y p_\theta(y \mid C_k).} $
La distribución condicional $ p_\theta(\cdot \mid C_k) $ se calcula completamente ejecutando el paso hacia adelante del Transformer sobre la secuencia de tokens concatenada; $ \theta $ permanece sin cambios. El "aprendizaje" aparece puramente como una función del contexto y de los pesos preentrenados del modelo.
Un encuadre útil consiste en ver el ICL como inferencia bayesiana implícita: el modelo se comporta como si tuviera una distribución a priori sobre tareas latentes inducida por el preentrenamiento, y las demostraciones afinan su distribución a posteriori sobre qué tarea se está solicitando.[3] Bajo esta perspectiva, las demostraciones funcionan incluso cuando el modelo nunca las almacenó explícitamente; actualizan la distribución a posteriori, no los parámetros.
Comportamiento en inferencia
El ICL tiene varias características distintivas en tiempo de inferencia que lo diferencian de otros métodos de adaptación.
- Sin estado: cada nueva consulta es su propio paso hacia adelante; no hay cambio persistente en el modelo. Dos usuarios en paralelo pueden usar el mismo modelo con prompts de ICL completamente distintos.
- El cómputo escala con la longitud de contexto: dado que la autoatención es cuadrática en la longitud de la secuencia, duplicar $ k $ incrementa el costo de inferencia aproximadamente de forma cuadrática (para el prefill) y lineal para la decodificación. La caché KV y los trucos de prefijo compartido mitigan el costo cuando se reutilizan las mismas demostraciones.
- Sensible al orden: el rendimiento puede oscilar significativamente con el orden de las demostraciones, especialmente cuando el modelo presenta sesgo de recencia. Las estrategias de selección y ordenamiento (por ejemplo, basadas en recuperación, por similitud con la consulta) son un área activa de la práctica.
- Sensible al formato: la elección de delimitadores, la verbalización de etiquetas y los espacios en blanco pueden cambiar la precisión en varios puntos. El ICL es frágil de maneras en que el ajuste fino típicamente no lo es.
Variantes
Una serie de variantes comunes amplían la receta básica.
- Prompting zero-shot
- Sin demostraciones, solo una instrucción. Los modelos modernos ajustados por instrucciones suelen rendir casi tan bien en zero-shot como en few-shot, porque el ajuste por instrucciones ha internalizado el formato.
- Prompting few-shot
- La configuración canónica del ICL con $ k $ demostraciones. Habitualmente $ k $ es pequeño (4-32) debido a los límites de contexto y a los rendimientos decrecientes.
- Cadena de pensamiento (CoT)
- Las demostraciones incluyen pasos de razonamiento intermedios, no solo la respuesta final. CoT mejora drásticamente la aritmética de varios pasos, el razonamiento simbólico y de sentido común, y ahora es un estándar para tareas analíticas.[4]
- ICL aumentado por recuperación
- Las demostraciones se seleccionan dinámicamente por consulta a partir de un corpus mayor, a menudo usando similitud de embeddings. Esto acopla el ICL con la generación aumentada por recuperación.
- ICL many-shot
- Con ventanas de contexto de millones de tokens, los prompts pueden llevar cientos o miles de demostraciones, acercándose a veces a la calidad del ajuste fino en tareas estrechas.
- ICL para código y herramientas
- Las demostraciones muestran cómo invocar herramientas, escribir código o seguir un esquema de salida estructurada; el modelo aprende el protocolo a partir de los ejemplos.
Perspectivas teóricas
Por qué un Transformer congelado realiza algo parecido a aprender en su paso hacia adelante es una pregunta de investigación activa, y han surgido varias explicaciones complementarias.
El relato de las cabezas de inducción identifica circuitos específicos de cabezas de atención que, tras suficiente preentrenamiento, implementan un patrón de "mira hacia atrás y luego copia con desplazamiento". Estas cabezas pueden completar secuencias $ [A][B] \ldots [A] \to [B] $ y están fuertemente correlacionadas con la emergencia del ICL durante el entrenamiento.[5]
El relato del optimizador implícito argumenta que, bajo ciertos supuestos, el paso hacia adelante de un transformador sobre entradas de ICL puede implementar descenso del gradiente sobre un objetivo implícito de regresión lineal o por núcleo definido por las demostraciones. Pruebas constructivas muestran que los transformadores pueden simular uno o más pasos de gradiente en un único paso hacia adelante, ofreciendo una historia mecanicista para la regresión en contexto.[6]
El relato bayesiano considera el ICL como inferencia a posteriori sobre tareas latentes codificadas en la distribución de preentrenamiento, recuperando un comportamiento similar al metaaprendizaje sin un bucle explícito de meta-entrenamiento. Estas tres perspectivas no son mutuamente excluyentes: las cabezas de inducción pueden implementar las consultas que un paso de gradiente implícito o una actualización bayesiana necesitan.
Comparación con el ajuste fino y el metaaprendizaje
El ICL cambia las actualizaciones de parámetros por el diseño de prompts. Comparado con el ajuste fino o el ajuste fino eficiente en parámetros (por ejemplo, LoRA), el ICL tiene un costo de configuración casi nulo, no requiere infraestructura de datos y no produce un artefacto por tarea, pero típicamente alcanza una precisión máxima inferior en tareas con muchos datos y paga un mayor costo de cómputo por inferencia. El ajuste fino amortiza la adaptación una sola vez en los pesos; el ICL paga por ella en cada llamada.
Comparado con el metaaprendizaje clásico (por ejemplo, MAML), el ICL es metaaprendizaje que emergió de manera gratuita: el objetivo de meta-entrenamiento es simplemente la predicción estándar del siguiente token sobre un corpus diverso, y el bucle interno es un paso hacia adelante en lugar de un paso de gradiente explícito. Por tanto, el ICL es mucho más barato de entrenar pero más difícil de controlar o analizar.
Los enfoques híbridos son comunes en la práctica: un modelo ajustado por instrucciones se afina sobre formatos de tareas amplios y luego se dirige por tarea mediante ICL. Las pipelines de recuperación combinan el ICL con un almacén dinámico de ejemplos, difuminando la frontera con el aprendizaje no paramétrico.
Limitaciones
El ICL hereda las limitaciones del modelo subyacente y añade algunas propias. El rendimiento se estanca o incluso se degrada más allá de un número de demostraciones específico de la tarea; los contextos largos incurren en un costo cuadrático de atención; y el comportamiento es sensible a la elección, el orden y el formato de las demostraciones. El ICL no puede enseñar de forma fiable al modelo contenido factual genuinamente nuevo no representado en el preentrenamiento, ya que no cambian parámetros; las demostraciones solo pueden dirigir capacidades existentes. Los estudios de robustez muestran que la precisión del ICL a menudo es una fina capa sobre la alucinación cuando la tarea se aparta aunque sea ligeramente de la distribución de las demostraciones.
También existen modos de fallo relevantes para la seguridad. Las demostraciones adversarias pueden usarse para inducir comportamientos no deseados (inyección de prompts), y la misma flexibilidad que hace útil al ICL hace que sea difícil de acotar. Los sistemas de producción suelen combinar el ICL con validación de salida, anclaje por recuperación y modelos base ajustados por preferencias para limitar estos riesgos.
Referencias
- ↑ Brown et al., "Language Models are Few-Shot Learners," 2020. Template:Cite arxiv
- ↑ Min et al., "Rethinking the Role of Demonstrations," 2022. Template:Cite arxiv
- ↑ Xie et al., "An Explanation of In-context Learning as Implicit Bayesian Inference," 2021. Template:Cite arxiv
- ↑ Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models," 2022. Template:Cite arxiv
- ↑ Olsson et al., "In-context Learning and Induction Heads," 2022. Template:Cite arxiv
- ↑ von Oswald et al., "Transformers Learn In-Context by Gradient Descent," 2022. Template:Cite arxiv