Image Generation Models/es

Article
Topic area	Deep Learning
Prerequisites	Neural Networks, Generative Models, Probability Distributions

This page is a translated version of the page Image Generation Models and the translation is 100% complete.

Other languages:

English
Español
中文

Resumen

Los modelos de generación de imágenes son una familia de modelos generativos que aprenden a sintetizar imágenes nuevas aproximando la distribución de datos de un conjunto de entrenamiento. Dadas muestras extraídas de una distribución desconocida $p_{\text{data}}(x)$ sobre imágenes, el objetivo es aprender una distribución del modelo $p_\theta(x)$ de la cual puedan extraerse muestras nuevas que se asemejen a los datos de entrenamiento sin copiarlos. La generación moderna de imágenes sustenta aplicaciones que van desde la síntesis fotorrealista y la edición de imágenes hasta el aumento de datos, la visualización científica y las herramientas de diseño.^[1]

El campo ha evolucionado a través de varias familias de modelos, cada una con diferentes compensaciones entre la calidad de las muestras, la diversidad, la estabilidad del entrenamiento, la velocidad de muestreo y la tratabilidad de la verosimilitud. Los cuatro paradigmas dominantes hoy en dia son los autoencoders variacionales (VAE), las redes generativas adversarias (GAN), los modelos autorregresivos y los modelos de difusion. Los flujos normalizadores forman una quinta familia, mas reducida. Los enfoques hibridos combinan piezas de cada uno.

Formulacion del problema

La generacion de imagenes puede plantearse como estimacion de densidad, como muestreo, o como ambas cosas. Sea $x \in \mathbb{R}^{H \times W \times C}$ una imagen con altura $$ H $$ , anchura $$ W $$ y $$ C $$ canales. Un modelo generativo se parametriza mediante $\theta$ y busca que $p_\theta(x)$ se aproxime a $p_{\text{data}}(x)$ bajo alguna divergencia o distancia.

Los objetivos de entrenamiento difieren segun la familia. Los modelos basados en verosimilitud maximizan

$\mathcal{L}(\theta) = \mathbb{E}_{x \sim p_{\text{data}}}[\log p_\theta(x)]$

o una cota inferior tratable. Los modelos implicitos, como las GAN, nunca calculan verosimilitudes y, en su lugar, hacen coincidir distribuciones mediante un discriminador aprendido. Los modelos basados en puntaje y los modelos de difusion ajustan el gradiente de la log-densidad (la funcion de puntaje) $\nabla_x \log p(x)$ en lugar de la densidad misma. La eleccion del objetivo lo determina todo: que arquitecturas funcionan, que artefactos aparecen y como procede el muestreo en el momento de la inferencia.

Autoencoders variacionales

Un VAE empareja un codificador $q_\phi(z \mid x)$ con un decodificador $p_\theta(x \mid z)$ sobre una variable latente $$ z $$ , tipicamente una gaussiana de baja dimension. El entrenamiento maximiza la cota inferior de la evidencia (ELBO):

$\mathcal{L}_{\text{ELBO}} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x \mid z)] - D_{\text{KL}}(q_\phi(z \mid x) \,\|\, p(z))$

El truco de reparametrizacion permite que los gradientes fluyan a traves del muestreo estocastico.^[2] Los VAE ofrecen un entrenamiento estable, un espacio latente explicito util para interpolacion y edicion, y cotas tratables de verosimilitud. Su principal debilidad son las muestras borrosas, atribuibles a la verosimilitud gaussiana a nivel de pixel y a la brecha entre la ELBO y la log-verosimilitud verdadera. Las variantes jerarquicas y de latente discreto, como el VQ-VAE, reducen esta brecha y son ahora habituales como primera etapa de canalizaciones de dos etapas.

Redes generativas adversarias

Las GAN eluden por completo la verosimilitud. Un generador $G_\theta(z)$ mapea ruido a imagenes, mientras que un discriminador $D_\phi(x)$ intenta distinguir las muestras reales de las generadas. El objetivo minimax es

$\min_\theta \max_\phi \; \mathbb{E}_{x \sim p_{\text{data}}}[\log D_\phi(x)] + \mathbb{E}_{z \sim p(z)}[\log(1 - D_\phi(G_\theta(z)))]$

Cuando el discriminador es optimo, este juego minimiza la divergencia de Jensen-Shannon entre los datos y el modelo.^[3] Las GAN alcanzaron un fotorrealismo notable desde temprano, especialmente mediante StyleGAN y BigGAN, pero su entrenamiento es notoriamente inestable. El colapso de modos, en el que el generador produce solo una franja estrecha de la distribucion de datos, es una falla recurrente. Las GAN de Wasserstein reemplazan la perdida original por la distancia Earth-Mover para mejorar la senal de gradiente, y la normalizacion espectral o las penalizaciones de gradiente estabilizan el discriminador. El muestreo es rapido: una sola pasada hacia adelante por $G_\theta$ .

Modelos autorregresivos

Los modelos autorregresivos de imagenes factorizan la distribucion conjunta sobre los pixeles (o sobre tokens aprendidos) como un producto de condicionales:

$p_\theta(x) = \prod_{i=1}^{N} p_\theta(x_i \mid x_{<i})$

PixelRNN y PixelCNN modelan directamente las distribuciones condicionales a nivel de pixel, mientras que los Image Transformers y las canalizaciones modernas basadas en tokens (por ejemplo, VQGAN mas un Transformer) operan sobre codigos discretos producidos por un tokenizador aprendido.^[4] Los modelos autorregresivos ofrecen verosimilitudes exactas, se entrenan de forma estable con entropia cruzada y escalan bien con los parametros y el computo. El coste dominante es el muestreo: producir una imagen requiere $$ N $$ pasadas secuenciales hacia adelante, donde $$ N $$ puede ser de miles de tokens. La decodificacion paralela, el almacenamiento en cache y la decodificacion especulativa mitigan parcialmente este problema.

Modelos de difusion

Los modelos de difusion definen un proceso directo que corrompe progresivamente los datos con ruido gaussiano a lo largo de $$ T $$ pasos de tiempo, y aprenden un proceso inverso que elimina el ruido para devolver las muestras a los datos. El proceso directo

$q(x_t \mid x_{t-1}) = \mathcal{N}(x_t;\, \sqrt{1-\beta_t}\, x_{t-1},\, \beta_t I)$

admite una marginal en forma cerrada en cualquier paso, y el proceso inverso se parametriza mediante una red $\epsilon_\theta(x_t, t)$ entrenada para predecir el ruido. El objetivo de entrenamiento simplificado es

$\mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\| \epsilon - \epsilon_\theta(x_t, t) \|^2\right]$

Esto equivale a la coincidencia de puntajes con eliminacion de ruido a la escala de ruido $$ t $$ .^[5] La difusion fija actualmente el estado del arte en calidad de muestras, admite condicionamiento flexible mediante guiado sin clasificador y se entrena de forma estable. Su coste principal es el muestreo multietapa, a menudo de 20 a 1000 evaluaciones de red por imagen. La difusion latente ejecuta el proceso de difusion en un espacio latente comprimido producido por un VAE, reduciendo el computo en un orden de magnitud y habilitando sistemas de texto a imagen como Stable Diffusion.^[6] Los modelos de consistencia, la destilacion y los flujos rectificados reducen el muestreo a unos pocos pasos.

Condicionamiento y guiado

La mayoria de los sistemas practicos son condicionales, generando $p_\theta(x \mid c)$ para una etiqueta de clase, una descripcion textual, un mapa de segmentacion o una imagen de referencia. Las canalizaciones de texto a imagen emparejan un codificador de texto congelado (a menudo CLIP o un codificador de modelo de lenguaje grande) con un generador. El guiado sin clasificador intercambia diversidad por fidelidad extrapolando entre las predicciones condicional e incondicional:

$\hat{\epsilon}_\theta(x_t, c) = (1+w)\, \epsilon_\theta(x_t, c) - w\, \epsilon_\theta(x_t, \emptyset)$

con escala de guiado $$ w $$ tipicamente entre 3 y 15. ControlNet e IP-Adapter anaden condicionamiento estructural o estilistico a un modelo base congelado sin reentrenarlo.

Evaluacion

Ninguna metrica unica captura la calidad de la generacion. La distancia de Frechet de Inception (FID) compara los momentos de las distribuciones de caracteristicas de Inception entre muestras reales y generadas; cuanto menor, mejor.^[7] El Inception Score, la precision y el recuerdo para modelos generativos y la puntuacion CLIP (para alineacion textual) complementan la FID. Los modelos basados en verosimilitud tambien reportan bits por dimension. Los estudios de preferencia humana siguen siendo la verdad de referencia para la calidad perceptual, especialmente en sistemas de texto a imagen, donde las metricas automaticas correlacionan debilmente con el juicio humano.

Comparaciones y compensaciones

Entre las cuatro grandes familias, los modelos de difusion lideran actualmente en fidelidad de muestras y controlabilidad condicional; las GAN siguen siendo atractivas cuando se requiere inferencia de un solo paso (graficos en tiempo real, dispositivos moviles); los modelos autorregresivos brillan cuando importa la verosimilitud exacta o el manejo unificado de multiples modalidades; los VAE son codificadores de primera etapa de uso habitual para la tokenizacion y la compresion latente. Las canalizaciones de dos etapas, con un VAE o un VQ-VAE comprimiendo los pixeles y un modelo de difusion o un transformer modelando los latentes, dominan la generacion de texto a imagen y de video a gran escala en 2024-2026.

Limitaciones

Los modelos de generacion de imagenes heredan y pueden amplificar los sesgos de sus datos de entrenamiento. Pueden memorizar y reproducir ejemplos de entrenamiento, especialmente bajo cambio de distribucion o ante indicaciones poco frecuentes, lo que plantea preocupaciones sobre derechos de autor y privacidad. Detectar imagenes generadas por maquina es un problema abierto con dinamicas adversariales. Los costes de computo y energia del entrenamiento y la inferencia no son triviales, y los pequenos cambios distribucionales (indicaciones fuera de dominio, composiciones inusuales) pueden producir artefactos sutiles que las metricas automaticas pasan por alto. El filtrado de seguridad, las marcas de agua y el rastreo de procedencia son areas activas de investigacion y de politica.

Referencias

↑ Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016, ch. 20.
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv

[1] Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016, ch. 20.

[2] Template:Cite arxiv

[3] Template:Cite arxiv

[4] Template:Cite arxiv

[5] Template:Cite arxiv

[6] Template:Cite arxiv

[7] Template:Cite arxiv

[1]

[2]

[3]

[4]

[5]

[6]

[7]