Diffusion Models/es

    From Marovi AI
    This page is a translated version of the page Diffusion Models and the translation is 100% complete.
    Other languages:
    Article
    Topic area Generative Models
    Prerequisites Variational Autoencoder, Backpropagation, KL Divergence


    Resumen

    Los modelos de difusión son una familia de modelos generativos que aprenden una distribución de datos invirtiendo un proceso gradual de adición de ruido. Partiendo de ruido gaussiano puro, el modelo realiza una secuencia de pequeños pasos de eliminación de ruido hasta que emerge una muestra que se asemeja a los datos reales. El marco fue popularizado en aprendizaje automático por Sohl-Dickstein y colegas en 2015, y llevado a calidad de imagen de vanguardia por el artículo Denoising Diffusion Probabilistic Models (DDPM) de Ho, Jain y Abbeel en 2020.[1] Los modelos de difusión sustentan actualmente gran parte de la sintesis moderna de imagenes, audio y video, incluidos sistemas como Stable Diffusion, DALL-E 3 e Imagen, y se han expandido al diseno molecular, la robotica y la simulacion cientifica.

    En comparación con las Generative Adversarial Networks y los Variational Autoencoders, los modelos de difusión sacrifican un muestreo más lento a cambio de un objetivo de entrenamiento estable, alta diversidad de muestras y propiedades sólidas de verosimilitud. Su idea central es que aprender a eliminar una pequeña cantidad de ruido es mucho más fácil que aprender a mapear ruido directamente a datos, y que iterar este problema más simple puede componer un proceso generativo poderoso.

    Intuición

    El proceso directo añade repetidamente una pequeña cantidad de ruido gaussiano a una muestra limpia hasta que, tras muchos pasos, solo queda ruido. El proceso inverso busca deshacer cada paso de adición de ruido, pero el inverso exacto es intratable. En su lugar, se entrena al modelo para aproximar el paso inverso en cada nivel de ruido. En tiempo de inferencia, el muestreo comienza desde ruido y aplica el desruidor aprendido muchas veces para retroceder hasta la variedad de los datos.

    Una analogía útil es la escultura. El proceso directo entierra una estatua en arena, un grano a la vez. El modelo aprende, para cualquier estatua parcialmente enterrada, cómo es el siguiente grano que hay que retirar. Con suficiente práctica, el modelo puede partir de un montón de arena y retirar granos uno por uno hasta que la estatua reaparece.

    Proceso directo

    El proceso directo es una Markov chain fija que corrompe gradualmente una muestra de datos $ x_0 $ a lo largo de $ T $ pasos de tiempo según una agenda de varianza $ \beta_1, \dots, \beta_T \in (0, 1) $:

    $ {\displaystyle q(x_t \mid x_{t-1}) = \mathcal{N}(x_t;\, \sqrt{1 - \beta_t}\, x_{t-1},\, \beta_t I).} $

    Una propiedad conveniente es que $ x_t $ puede muestrearse en forma cerrada directamente desde $ x_0 $. Con $ \alpha_t = 1 - \beta_t $ y $ \bar\alpha_t = \prod_{s=1}^{t} \alpha_s $:

    $ {\displaystyle q(x_t \mid x_0) = \mathcal{N}(x_t;\, \sqrt{\bar\alpha_t}\, x_0,\, (1 - \bar\alpha_t) I).} $

    Cuando $ \bar\alpha_T \approx 0 $, la marginal $ q(x_T) $ es efectivamente una gaussiana estándar, lo que proporciona al proceso inverso un punto de partida tratable.

    Proceso inverso y entrenamiento

    El proceso inverso se parametriza mediante una red neuronal $ p_\theta(x_{t-1} \mid x_t) $, típicamente una U-Net para imágenes o un Transformer (DiT) para secuencias y generación de alta resolución. El objetivo de entrenamiento minimiza una cota variacional sobre la log-verosimilitud negativa. Ho et al. mostraron que, con una reponderación particular, esta cota se reduce a una pérdida de predicción de ruido notablemente simple:

    $ {\displaystyle L_{\mathrm{simple}} = \mathbb{E}_{x_0,\, t,\, \epsilon}\!\left[\,\lVert \epsilon - \epsilon_\theta(x_t, t) \rVert^2\,\right],} $

    donde $ \epsilon \sim \mathcal{N}(0, I) $, $ x_t = \sqrt{\bar\alpha_t}\, x_0 + \sqrt{1 - \bar\alpha_t}\, \epsilon $ y $ t $ se muestrea uniformemente de $ \{1, \dots, T\} $. La red se entrena para predecir el ruido que se añadió, condicionada en la entrada ruidosa y el paso de tiempo. Parametrizaciones equivalentes predicen $ x_0 $ directamente o la velocidad $ v $, lo que puede mejorar la estabilidad numérica en los extremos de la agenda.

    Muestreo

    Una vez entrenado, el muestreo procede extrayendo $ x_T \sim \mathcal{N}(0, I) $ e iterando el paso inverso desde $ t = T $ hasta $ t = 1 $. La actualización de DDPM es

    $ {\displaystyle x_{t-1} = \frac{1}{\sqrt{\alpha_t}}\!\left(x_t - \frac{\beta_t}{\sqrt{1 - \bar\alpha_t}}\, \epsilon_\theta(x_t, t)\right) + \sigma_t z,\quad z \sim \mathcal{N}(0, I).} $

    El muestreo DDPM ingenuo requiere cientos o miles de evaluaciones de la red por imagen, lo que constituye la principal preocupación de eficiencia de los modelos de difusión. Muestreadores más rápidos como DDIM,[2] DPM-Solver y los modelos de consistencia reducen esto a entre uno y cincuenta pasos al interpretar el muestreo como la resolución de una ecuación diferencial ordinaria o estocástica y aplicar integradores numéricos de orden superior o destilación.

    Visión basada en puntuaciones y SDE

    Song y Ermon plantearon el desruido como la estimación de la Score Function $ \nabla_x \log p_t(x) $ de la distribución de datos ruidosos en cada nivel de ruido.[3] En el límite continuo, el proceso directo se convierte en una ecuación diferencial estocástica, y el proceso inverso está gobernado por una SDE en tiempo inverso correspondiente que depende solo de la puntuación. También existe una EDO de flujo de probabilidad determinista con las mismas marginales, lo que permite el cálculo exacto de la verosimilitud y el uso de solucionadores de EDO estándar. El predictor de ruido DDPM y la red de puntuación son equivalentes hasta un escalamiento conocido, lo que unifica las dos perspectivas.

    Condicionamiento y guía

    La generación condicional se logra alimentando información adicional al desruidor, como una etiqueta de clase, una incrustación de texto o una imagen de baja resolución. Dos técnicas ampliamente utilizadas amplifican la alineación condicional en tiempo de muestreo. La guía por clasificador perturba la puntuación con el gradiente de un clasificador externo. La Classifier-Free Guidance entrena una sola red con omisión aleatoria de la condición (dropout) y combina las predicciones condicional e incondicional en inferencia, intercambiando diversidad por adherencia al prompt mediante una única escala de guía. La guía es la principal razón por la que los modelos de difusión de texto a imagen siguen los prompts tan de cerca.

    Variantes y extensiones

    Los Latent Diffusion Models ejecutan el proceso de difusión en el espacio latente comprimido de un Variational Autoencoder, reduciendo el cómputo en un orden de magnitud y permitiendo síntesis de imagen y vídeo de alta resolución en hardware de consumo. La difusión en cascada apila un modelo base de baja resolución con una o más etapas de difusión de superresolución. Los modelos de consistencia destilan un muestreador de varios pasos en un generador de un solo paso. El emparejamiento de flujo y el flujo rectificado generalizan el marco entrenando redes para predecir campos de velocidad a lo largo de trayectorias de probabilidad más rectas. La difusión discreta adapta la formulación a texto y grafos reemplazando el ruido gaussiano por procesos de corrupción absorbente o uniforme.

    Comparación con otros modelos generativos

    Los modelos de difusión ofrecen un entrenamiento estable de tipo máxima verosimilitud, una cobertura de modos que supera a las Generative Adversarial Networks, y una calidad de muestra que rivaliza o supera a las GANs en dominios de imagen. Comparados con los Variational Autoencoders, evitan las reconstrucciones borrosas que se derivan de un decodificador gaussiano de un solo paso. Comparados con los modelos autorregresivos, paralelizan la generación a lo largo de las dimensiones espaciales y no imponen un orden de generación artificial. La principal desventaja es el coste de muestreo. Incluso con muestreadores rápidos modernos, generar una imagen de alta resolución típicamente requiere más cómputo que un único paso hacia adelante de un GAN o un transformador autorregresivo comparable.

    Limitaciones y problemas abiertos

    La velocidad de muestreo sigue siendo el principal cuello de botella práctico, lo que motiva el trabajo en curso sobre destilación, solucionadores de pocos pasos y objetivos de consistencia. La evaluación de la verosimilitud requiere la EDO de flujo de probabilidad y resulta costosa a alta resolución. Los modelos de difusión pueden memorizar y reproducir ejemplos de entrenamiento cuando se condicionan con prompts poco frecuentes, lo que plantea preocupaciones sobre privacidad y derechos de autor. La controlabilidad más allá de los prompts de texto, incluyendo el diseño espacial preciso, la preservación de identidad en ediciones, y el conteo y la representación fiel de texto, sigue siendo un área activa de investigación. Por último, escalar la difusión a secuencias largas y a modalidades físicamente fundamentadas como moléculas, proteínas y escenas 3D requiere agendas de ruido personalizadas y arquitecturas equivariantes en lugar de U-Nets estándar.

    Referencias