Classifier-Free Guidance/es

    From Marovi AI
    This page is a translated version of the page Classifier-Free Guidance and the translation is 100% complete.
    Other languages:
    Article
    Topic area Generative Models
    Prerequisites Diffusion Models, Score Matching


    Resumen general

    La guía sin clasificador (CFG, por sus siglas en inglés) es una técnica aplicada en el momento de inferencia que permite a un único modelo de difusión condicional intercambiar diversidad de muestras por fidelidad a una señal de condicionamiento, sin necesidad de entrenar un clasificador independiente. Fue introducida por Ho y Salimans en 2021 como una alternativa más simple a la guía por clasificador, que se utilizaba previamente para empujar las muestras de los modelos de difusión de texto a imagen y condicionados por clase hacia una mayor calidad. El truco consiste en entrenar una única red que pueda funcionar tanto como modelo condicional como incondicional, omitiendo aleatoriamente la entrada de condicionamiento durante el entrenamiento, para luego extrapolar en el momento del muestreo a lo largo de la dirección que va de la predicción incondicional a la condicional.

    La CFG se ha convertido en la estrategia de muestreo predeterminada para casi todos los modelos de difusión condicionales modernos, incluidos los sistemas de texto a imagen como Imagen, Stable Diffusion y DALL-E 2, así como sus variantes de texto a video y texto a audio. La misma idea se ha adaptado a modelos generativos autorregresivos y de emparejamiento de flujos. Una escala de guía escalar controla con qué intensidad el muestreador sigue el condicionamiento, ofreciendo a los profesionales un único mando para ajustar el compromiso entre condicionamiento y diversidad durante la inferencia.

    Antecedentes: guía por clasificador

    El trabajo previo de Dhariwal y Nichol utilizaba un clasificador $ p_\phi(y \mid x_t) $ entrenado con imágenes ruidosas para dirigir un modelo de difusión incondicional hacia una clase objetivo. En cada paso de difusión inversa, el score de la distribución de datos ruidosos se aumenta con el gradiente del logaritmo de la verosimilitud del clasificador:

    $ {\displaystyle \nabla_{x_t} \log p(x_t \mid y) = \nabla_{x_t} \log p(x_t) + \nabla_{x_t} \log p_\phi(y \mid x_t).} $

    Multiplicar el gradiente del clasificador por una escala $ w $ agudiza la distribución condicional e intercambia diversidad por calidad de las muestras. El inconveniente es práctico: el clasificador debe entrenarse sobre entradas ruidosas en todos los niveles de ruido, es difícil extenderlo a condicionamientos de forma libre como el texto, y el propio clasificador es un modelo adicional que hay que mantener.

    Formulación

    La CFG elimina el clasificador externo reutilizando la red de difusión como uno implícito. La regla de Bayes aplicada al score condicional da

    $ {\displaystyle \nabla_{x_t} \log p(x_t \mid y) = \nabla_{x_t} \log p(x_t) + \nabla_{x_t} \log p(y \mid x_t),} $

    de modo que el gradiente del clasificador implícito es la diferencia entre los scores condicional e incondicional. Un score ponderado por la guía se define extrapolando a lo largo de esa diferencia con peso $ w \ge 0 $:

    $ {\displaystyle \tilde{\epsilon}_\theta(x_t, y) = (1 + w)\,\epsilon_\theta(x_t, y) - w\,\epsilon_\theta(x_t, \varnothing),} $

    donde $ \epsilon_\theta $ es la red de predicción de ruido, $ \varnothing $ es un token nulo aprendido que representa "sin condicionamiento" y $ w $ es la escala de guía. Tomar $ w = 0 $ recupera el modelo condicional; $ w \to \infty $ empuja las muestras hacia los modos preferidos con mayor fuerza por el condicionamiento. Algunas referencias parametrizan la misma operación con una escala $ s = 1 + w $ aplicada al condicional y restando $ s - 1 $ al incondicional; ambas convenciones son equivalentes.

    La misma expresión reescrita como una actualización del score es

    $ {\displaystyle \tilde{s}_\theta(x_t, y) = s_\theta(x_t, y) + w \big( s_\theta(x_t, y) - s_\theta(x_t, \varnothing) \big),} $

    lo que hace explícita la lectura geométrica: dar un paso desde el score incondicional hacia el score condicional y luego continuar más allá. La CFG es por tanto una extrapolación, no una interpolación, en el espacio de scores.

    Entrenamiento

    Se entrena una única red para manejar tanto entradas condicionales como incondicionales. Con probabilidad $ p_\text{drop} $ el condicionamiento $ y $ se sustituye por el token nulo $ \varnothing $; en caso contrario se utiliza el condicionamiento real. El objetivo de eliminación de ruido estándar se convierte entonces en

    $ {\displaystyle \mathcal{L}_\text{CFG} = \mathbb{E}_{x_0, y, \epsilon, t}\big[\,\lVert \epsilon - \epsilon_\theta(x_t, c)\rVert^2\,\big], \quad c = \begin{cases} \varnothing & \text{with probability } p_\text{drop} \\ y & \text{otherwise.} \end{cases}} $

    Las probabilidades de descarte típicas son del 10 al 20 por ciento. Los mismos parámetros aprenden así a eliminar ruido en cada nivel tanto con como sin el condicionamiento, y la vía incondicional desempeña el papel del clasificador implícito.

    Inferencia

    En cada paso de difusión inversa el muestreador realiza dos pasadas hacia adelante: una con el condicionamiento y otra con el token nulo. Las dos predicciones se combinan con la fórmula de CFG anterior y el resultado se introduce en la regla de actualización DDPM o DDIM elegida. Duplicar el cómputo es el principal coste operativo; en la práctica las dos pasadas se procesan por lotes juntas, por lo que la penalización en tiempo de reloj se acerca más a un factor constante que a duplicarse.

    La escala de guía es el hiperparámetro dominante en el momento del muestreo. Valores en torno a $ w = 7.5 $ son los predeterminados habituales para los modelos de texto a imagen; los modelos condicionales por clase de ImageNet utilizan a menudo valores más pequeños, en torno a $ w = 1 $ a $ 3 $. Las escalas mayores mejoran las métricas que recompensan la alineación entre muestra y prompt, como la puntuación CLIP, pero degradan la FID y saturan o simplifican visiblemente las salidas. La escala óptima depende del conjunto de datos y del modelo y suele elegirse barriendo una pequeña rejilla.

    Compromisos y patologías

    La CFG ofrece un compromiso de un solo mando entre fidelidad al prompt y diversidad de muestras, pero las escalas de guía altas introducen artefactos sistemáticos. Los modelos de difusión en el espacio de píxeles tienden a saturar los colores y a producir imágenes excesivamente contrastadas con valores grandes de $ w $; esto se mitiga a veces mediante el umbralizado dinámico, que recorta y reescala las estadísticas de píxeles durante el muestreo para mantenerlas dentro del rango, como hace Imagen. Los modelos en espacio latente como Stable Diffusion muestran tendencias similares en forma de texturas caricaturizadas y colapso de modos hacia un pequeño número de composiciones canónicas.

    Empíricamente, la CFG también amplifica los sesgos presentes en los datos de entrenamiento. Como la técnica empuja las muestras hacia los modos que el modelo considera más fuertemente condicionales al prompt, las asociaciones estereotipadas se ven enfatizadas. Se trata de una propiedad del modelo y los datos más que de un defecto de la guía en sí, pero interactúa con la escala de guía de formas que hacen que las auditorías sean sensibles a la elección de $ w $.

    Otra preocupación distinta es que la CFG no se corresponde con ninguna distribución de probabilidad propiamente dicha: el score guiado generalmente no es el score de ninguna densidad normalizable. El muestreo bajo CFG se entiende, por tanto, mejor como una heurística que desplaza la masa de probabilidad que como una inferencia exacta bajo una distribución posterior bien definida.

    Variantes y extensiones

    Diversas mejoras tratan de conservar los beneficios de la CFG reduciendo a la vez sus costes. CFG++ reformula la actualización de guía de modo que las escalas altas preserven más de la estructura de la distribución incondicional, mitigando la saturación. Autoguidance utiliza una versión más pequeña o de un punto de control anterior del mismo modelo como rama incondicional, en lugar de un token nulo aprendido, desacoplando la fuerza de la guía de la brecha de calidad entre las vías condicional e incondicional. CFG dinámica programa la escala de guía a lo largo de los niveles de ruido, usando a menudo menos guía al inicio del muestreo y más en niveles bajos de ruido. El prompt negativo sustituye el token nulo por un prompt negativo especificado por el usuario $ y^- $, de modo que el muestreador es alejado de $ p(x_t \mid y^-) $ y empujado hacia $ p(x_t \mid y) $; se utiliza ampliamente en las interfaces de texto a imagen.

    La CFG también se ha portado a flow matching, a los flujos rectificados y a los modelos de consistencia, así como a los modelos de secuencia autorregresivos, donde el análogo es interpolar logits entre una pasada condicional y una incondicional. Ideas relacionadas aparecen en el RLHF y en el muestreo inclinado por recompensa, que pueden verse como una alternativa aprendida al clasificador implícito.

    Comparación con la guía por clasificador

    La CFG y la guía por clasificador producen efectos cualitativamente similares, pero la CFG es la preferida en casi todos los entornos modernos. Evita entrenar un clasificador consciente del ruido; gestiona condicionamientos arbitrarios, incluido el texto de forma libre, sin cambios arquitectónicos; y se beneficia de las mismas leyes de escalado que el modelo de difusión subyacente. La guía por clasificador conserva un papel marginal cuando se necesita realmente un modelo de recompensa externo, por ejemplo para sesgar la generación hacia una propiedad que no formaba parte del condicionamiento de entrenamiento.

    Limitaciones

    El coste de inferencia duplicado es la limitación citada con más frecuencia; los trabajos en curso sobre destilación de la guía intentan plegar el efecto de la CFG en una única pasada hacia adelante. La falta de una interpretación probabilística adecuada hace incómoda la combinación de CFG con técnicas que requieren verosimilitudes bien definidas, como algunos métodos de muestreo de la posterior. Y los efectos de saturación, estrechamiento de modos y amplificación de sesgos significan que la CFG no es gratis: mejora las métricas nominales mientras produce distribuciones que difieren del modelo no guiado en su naturaleza, no solo en su grado.

    Referencias

    [1] [2] [3] [4] [5]