Chain-of-Thought Prompting/es

    From Marovi AI
    This page is a translated version of the page Chain-of-Thought Prompting and the translation is 100% complete.
    Other languages:
    Article
    Topic area Natural Language Processing
    Prerequisites Transformer, Language Models are Few-Shot Learners


    Resumen

    El prompting con cadena de pensamiento (CoT, por sus siglas en ingles) es una tecnica de prompting que induce razonamiento de multiples pasos en modelos de lenguaje de gran tamano al instruir o demostrar al modelo que debe producir pasos intermedios en lenguaje natural antes de emitir una respuesta final. Introducido por Wei et al. en 2022,[1] el prompting con cadena de pensamiento mejora sustancialmente el rendimiento en tareas que requieren razonamiento aritmetico, de sentido comun y simbolico, y lo hace sin modificar los pesos del modelo. La tecnica es hoy un componente estandar de la ingenieria de prompts para tareas en las que la respuesta depende de una secuencia de inferencias en lugar de una unica coincidencia de patron.

    La observacion central es que los modelos de lenguaje suficientemente grandes pueden resolver problemas que de otro modo fallarian cuando el prompt los anima a externalizar el proceso de razonamiento como texto. Los pasos intermedios actuan como un cuaderno de borrador: cada paso condiciona al siguiente, y la respuesta final queda condicionada a la traza completa. La cadena de pensamiento esta estrechamente relacionada con la idea mas amplia de computo en tiempo de inferencia, en la que se gastan tokens adicionales durante la inferencia a cambio de una mayor exactitud.

    Motivacion

    El prompting con pocos ejemplos estandar, popularizado por GPT-3,[2] presenta al modelo pares de entrada y salida y le pide que complete una nueva entrada. Este enfoque funciona bien en tareas que asocian una entrada con una salida mediante una unica relacion aprendida, pero rinde menos en problemas de varios pasos como aritmetica multidigito, problemas de palabras o deduccion logica. Wei et al. demostraron que en estas tareas el cuello de botella no era el conocimiento del modelo sino su asignacion de computo: forzado a emitir una respuesta en una sola pasada hacia adelante, no disponia de mecanismo alguno para descomponer el problema.

    En cambio, cuando cada ejemplo en contexto muestra una solucion desarrollada en lugar de solo la respuesta, el modelo imita el formato y produce su propia solucion desarrollada en tiempo de inferencia. Esto reformula el prompting como una forma de proporcionar no solo la tarea, sino tambien un procedimiento para resolverla.

    Formulacion

    Sea $ x $ la pregunta de entrada y $ y $ la respuesta final. Un prompt few-shot estandar modela $ p(y \mid x, \mathcal{D}) $, donde $ \mathcal{D} = \{(x_i, y_i)\}_{i=1}^k $ es un conjunto de demostraciones. La cadena de pensamiento introduce una variable intermedia $ r $, la traza de razonamiento, y el prompt suministra en su lugar $ \mathcal{D}_{\mathrm{CoT}} = \{(x_i, r_i, y_i)\} $. El modelo descompone la distribucion conjunta como

    $ {\displaystyle p(r, y \mid x, \mathcal{D}_{\mathrm{CoT}}) = p(r \mid x, \mathcal{D}_{\mathrm{CoT}})\, p(y \mid x, r, \mathcal{D}_{\mathrm{CoT}}).} $

    En tiempo de inferencia, el modelo se decodifica de forma autorregresiva: primero emite $ r $ token a token y despues emite $ y $ condicionado a la traza completa. Como cada token de $ r $ participa en los calculos posteriores de atencion, la traza amplia efectivamente la profundidad de computo de la que dispone el modelo, mas alla de lo que permitiria una respuesta de un unico token de tamano fijo.

    Una decision de diseno habitual consiste en marcar la respuesta final con un delimitador fijo como "The answer is" (la respuesta es), de modo que $ y $ pueda extraerse de forma programatica del texto generado.

    CoT con pocos ejemplos (few-shot)

    En la cadena de pensamiento few-shot, cada demostracion del prompt consta de una pregunta, una solucion desarrollada y una respuesta final. Un ejemplo canonico del articulo original[3] es la siguiente plantilla de problema aritmetico:

     P: Roger tiene 5 pelotas de tenis. Compra 2 latas mas de pelotas de tenis.
        Cada lata tiene 3 pelotas de tenis. Cuantas pelotas de tenis tiene ahora?
     R: Roger empezo con 5 pelotas. 2 latas de 3 pelotas de tenis cada una son 6
        pelotas de tenis. 5 + 6 = 11. La respuesta es 11.
    

    Tipicamente, entre cuatro y ocho ejemplos de este tipo bastan para inducir comportamiento de cadena de pensamiento sobre una nueva pregunta. No es preciso que los ejemplos provengan de la distribucion de prueba; la transferencia entre dominios de razonamiento es habitual, aunque los ejemplos del mismo dominio suelen ayudar.

    CoT sin ejemplos (zero-shot)

    Kojima et al.[4] mostraron que las demostraciones no son estrictamente necesarias. A menudo basta con anadir la frase desencadenante "Let's think step by step" (pensemos paso a paso) a la pregunta para producir una traza de razonamiento, un enfoque conocido como CoT zero-shot. Un segundo prompt extrae despues la respuesta final de la traza. La CoT zero-shot es mas debil que la CoT few-shot en la mayoria de los benchmarks, pero elimina el trabajo de escribir ejemplos y evita el riesgo de que un ejemplo filtre informacion sobre la respuesta.

    Autoconsistencia

    Wang et al.[5] observaron que las trazas de razonamiento son ruidosas: un modelo puede llegar a la respuesta correcta a traves de varios caminos argumentales distintos, mientras que un camino incorrecto suele ser idiosincratico. La autoconsistencia muestrea $ N $ trazas independientes con temperatura no nula y devuelve la respuesta que aparece con mayor frecuencia en el conjunto resultante $ \{y^{(1)}, \dots, y^{(N)}\} $. Formalmente, la prediccion es

    $ {\displaystyle \hat{y} = \arg\max_{y} \sum_{i=1}^{N} \mathbb{1}[y^{(i)} = y].} $

    La autoconsistencia mejora monotonamente la exactitud con $ N $ en la mayoria de los benchmarks de razonamiento, a costa de un computo de inferencia $ N $ veces mayor. Hoy es un envoltorio estandar sobre cualquier decodificador de cadena de pensamiento.

    Variantes en arbol y en grafo

    Varias extensiones estructuran el razonamiento mas alla de una unica traza lineal. Tree of Thoughts (Yao et al., 2023)[6] explora multiples trazas parciales, las puntua con el propio modelo y emplea algoritmos de busqueda como busqueda en anchura o busqueda primero en el mejor para expandir las ramas mas prometedoras. Graph of Thoughts generaliza esto a un grafo dirigido en el que los estados intermedios pueden fusionarse, refinarse o agregarse.

    Estas variantes desplazan una mayor parte del bucle de inferencia desde el modelo hacia un controlador externo, y cambian computo adicional por mayor robustez en tareas en las que una unica traza se desvia con facilidad.

    Comparacion con alternativas

    La cadena de pensamiento es una de varias aproximaciones al razonamiento de varios pasos. Los metodos de scratchpad, introducidos para aritmetica, entrenan a los modelos a emitir pasos intermedios mediante ajuste fino supervisado, en lugar de mediante prompting. Los modelos de lenguaje asistidos por programa (PAL) y otros metodos similares basados en herramientas delegan la aritmetica y la logica en un interprete externo, devolviendo al modelo solo el razonamiento estructural. Los modelos de recompensa de proceso supervisan los pasos individuales de razonamiento durante el aprendizaje por refuerzo, en lugar de supervisar solo la respuesta final. Los modelos modernos entrenados para razonar, como los obtenidos mediante aprendizaje por refuerzo a partir de retroalimentacion de proceso, pueden verse como modelos que han internalizado la cadena de pensamiento en su comportamiento de decodificacion por defecto.

    Frente a estas alternativas, la cadena de pensamiento basada en prompting tiene la ventaja de no requerir entrenamiento y de ser aplicable a cualquier modelo suficientemente capaz. Sus desventajas son un mayor coste de inferencia, sensibilidad a la eleccion de ejemplos y el hecho de que la traza expuesta puede no reflejar fielmente el computo que produjo la respuesta.

    Emergencia y escala

    Los beneficios de la cadena de pensamiento dependen marcadamente de la escala del modelo. Wei et al. informaron que en el benchmark de problemas aritmeticos GSM8K la CoT es esencialmente neutra o perjudicial por debajo de unos 10 mil millones de parametros y solo empieza a dominar al prompt estandar en torno a los 60 mil millones de parametros. Este patron, en el que una capacidad aparece de manera abrupta con la escala, es uno de los ejemplos canonicos citados en las discusiones sobre capacidades emergentes de los modelos de lenguaje grandes. El umbral de escala varia con la tarea, la familia del modelo base y la metrica.

    Tambien es importante la interaccion con el ajuste por instrucciones y el aprendizaje por refuerzo a partir de retroalimentacion humana: los modelos ajustados por instrucciones a menudo producen trazas de razonamiento por defecto, difuminando la distincion entre cadena de pensamiento inducida por prompt y cadena de pensamiento no inducida.

    Limitaciones

    El prompting con cadena de pensamiento presenta varios modos de fallo bien documentados. En primer lugar, no se garantiza que la traza de razonamiento sea fiel: el modelo puede emitir un argumento de apariencia plausible que en realidad no determina la respuesta final que da, un fenomeno estudiado bajo el rotulo de fidelidad del razonamiento. En segundo lugar, los errores se acumulan: si un paso temprano es erroneo, el resto de la traza y la respuesta final suelen heredar el error, y la salida resultante, que suena confiada, puede ser mas enganosa que una respuesta directamente equivocada. En tercer lugar, el coste de inferencia crece con la longitud de la traza, lo que importa en despliegues sensibles a la latencia. Por ultimo, la sensibilidad al fraseo y al orden de los ejemplos significa que pequenas perturbaciones del prompt pueden producir grandes oscilaciones en la exactitud, convirtiendo la propia seleccion del prompt en un problema de ajuste.

    A pesar de estas salvedades, la cadena de pensamiento y sus descendientes son hoy el enfoque por defecto para hacer prompting a los modelos de lenguaje en tareas que requieren mas de un paso de inferencia, y constituyen la base conceptual de los regimenes de entrenamiento con razonamiento explicito empleados por los modelos de frontera actuales.

    Referencias