Generative Adversarial Networks/es

Article
Topic area	Deep Learning
Prerequisites	Neural Networks, Backpropagation, Stochastic Gradient Descent

This page is a translated version of the page Generative Adversarial Networks and the translation is 100% complete.

Other languages:

English
Español
中文

Resumen

Las redes generativas adversarias (GAN, por sus siglas en ingles) son una clase de modelos generativos en los que dos redes neuronales se entrenan conjuntamente mediante un juego de dos jugadores. Una red generadora mapea muestras procedentes de una distribucion de ruido sencilla a muestras candidatas en el espacio de datos, mientras que una red discriminadora intenta distinguir las muestras reales de entrenamiento de las generadas. El entrenamiento avanza actualizando el discriminador para mejorar su precision de clasificacion y actualizando el generador para producir muestras que el discriminador no pueda distinguir de los datos reales. Introducidas por Goodfellow y colaboradores en 2014, las GAN se convirtieron en uno de los enfoques dominantes para la sintesis de imagenes de alta fidelidad a finales de la decada de 2010 y siguen siendo influyentes en dominios donde el entrenamiento basado en verosimilitud resulta incomodo o donde se desean salidas nitidas y de alta frecuencia.^[1] Aunque los metodos basados en difusion han tomado el liderazgo en gran parte de la frontera de la generacion de imagenes, las GAN siguen utilizandose para traduccion de imagen a imagen, super-resolucion, sintesis de audio y como bloques de construccion dentro de sistemas mas grandes.

Intuicion

La analogia clasica describe al generador como un falsificador y al discriminador como un detective. El falsificador produce billetes falsos; el detective inspecciona los billetes y etiqueta cada uno como autentico o falso. Cada parte mejora en respuesta a la otra: a medida que el detective se vuelve mejor detectando falsificaciones, el falsificador debe producir copias mas convincentes y, conforme aumenta la calidad de las falsificaciones, el detective debe fijarse en detalles mas finos. En el equilibrio, los billetes falsificados resultan indistinguibles de los autenticos y el detective no puede hacerlo mejor que el azar.

Esta configuracion adversaria evita un objetivo explicito de verosimilitud. En lugar de pedirle al generador que maximice la probabilidad que asigna a los datos de entrenamiento, las GAN solo exigen que sus muestras sean estadisticamente indistinguibles de las muestras de entrenamiento bajo un clasificador aprendido. Por tanto, la senal de entrenamiento proviene de un critico aprendido y adaptable, en lugar de una superficie de perdida fija (loss surface), lo cual es una razon clave por la que las muestras de las GAN suelen verse mas nitidas que las de modelos entrenados por verosimilitud, que tienden a repartir masa de probabilidad sobre regiones inverosimiles.

Formulacion

Sea $p_{\text{data}}$ la distribucion desconocida de los datos reales y sea $$ p_z $$ una distribucion a priori fija sobre un vector latente $$ z $$ , normalmente una gaussiana estandar o una uniforme. El generador $G_\theta : \mathcal{Z} \to \mathcal{X}$ mapea los latentes al espacio de datos, induciendo una distribucion implicita $$ p_g $$ sobre $\mathcal{X}$ . El discriminador $D_\phi : \mathcal{X} \to (0, 1)$ produce la probabilidad de que su entrada sea una muestra real. El objetivo original de la GAN es la funcion de valor minimax

$\min_\theta \max_\phi \; V(D_\phi, G_\theta) = \mathbb{E}_{x \sim p_{\text{data}}}[\log D_\phi(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D_\phi(G_\theta(z)))].$

Para un generador fijo, el discriminador optimo es

$D^*(x) = \frac{p_{\text{data}}(x)}{p_{\text{data}}(x) + p_g(x)},$

y al sustituirlo de nuevo se obtiene un objetivo del generador igual (salvo constantes) a la divergencia de Jensen-Shannon entre $p_{\text{data}}$ y $$ p_g $$ . El unico minimo global es por tanto $p_g = p_{\text{data}}$ , punto en el cual el discriminador devuelve $$ 1/2 $$ en todo el dominio. Este resultado teorico motiva el diseno pero no garantiza por si mismo la convergencia bajo parametrizaciones realistas y no convexas.

Entrenamiento e inferencia

El entrenamiento alterna pasos de gradiente estocastico sobre $\phi$ y $\theta$ . Un esquema habitual realiza uno o varios pasos del discriminador por cada paso del generador, ya que se necesita un discriminador fuerte para proporcionar gradientes utiles al generador. Ambas actualizaciones se basan en la retropropagacion a traves del discriminador: el gradiente del generador se calcula derivando $\log(1 - D_\phi(G_\theta(z)))$ respecto de $\theta$ a lo largo de la red compuesta.

En la practica, la perdida original del generador $\log(1 - D)$ se satura cuando el discriminador rechaza con confianza las muestras falsas en las primeras etapas del entrenamiento, produciendo gradientes que se desvanecen. La solucion estandar es la formulacion no saturante

$\mathcal{L}_G = -\mathbb{E}_{z \sim p_z}[\log D_\phi(G_\theta(z))],$

que tiene los mismos puntos fijos pero proporciona gradientes mas fuertes cuando el generador esta perdiendo. Otros estabilizadores ampliamente utilizados son el suavizado de etiquetas, la normalizacion espectral sobre el discriminador, las penalizaciones de gradiente y las medias moviles exponenciales de los pesos del generador en evaluacion. La inferencia es directa: se muestrea $z \sim p_z$ y se devuelve $G_\theta(z)$ . El discriminador suele descartarse despues del entrenamiento, aunque a veces se reutiliza como extractor de caracteristicas perceptuales o como critico.

Variantes

El espacio de variantes de GAN es amplio; a continuacion se enumeran algunas familias representativas.

DCGAN sustituye las capas totalmente conectadas por arquitecturas profundas convolucionales y prescribe normalizacion por lotes, convoluciones con stride y activaciones ReLU/LeakyReLU para estabilizar la sintesis de imagenes.
GAN condicionales condicionan tanto $$ G $$ como $$ D $$ a informacion auxiliar $$ y $$ , como una etiqueta de clase o un embedding de texto, lo que permite generacion controlable.
Wasserstein GAN reemplaza el objetivo de Jensen-Shannon por la distancia de Wasserstein-1, usando un critico 1-Lipschitz impuesto mediante recorte de pesos o, mas habitualmente, una penalizacion de gradiente (WGAN-GP). Esto suele dar lugar a un entrenamiento mas estable y a una perdida que correlaciona con la calidad de las muestras.
CycleGAN aprende traduccion de imagen a imagen entre dominios no emparejados componiendo dos generadores con una perdida de consistencia ciclica (consistency loss), lo que permite mapeos como foto-a-pintura sin datos de entrenamiento emparejados.
StyleGAN introduce una red de mapeo que desentrana los factores latentes y una red de sintesis modulada por estilo, alcanzando fotorrealismo de vanguardia en rostros y otros dominios durante varios anos.
Crecimiento progresivo empieza el entrenamiento a baja resolucion y va anadiendo capas de forma incremental, lo que simplifica el paisaje de optimizacion para sintesis a alta resolucion.

Comparaciones

En comparacion con otras familias de modelos generativos, las GAN ocupan un punto particular en el compromiso entre calidad y tratabilidad. Los modelos basados en verosimilitud como los autoencoders, los autoencoders variacionales y los modelos autorregresivos permiten evaluar la log-verosimilitud de forma exacta o acotada, pero tienden a producir muestras mas borrosas porque la verosimilitud penaliza colocar masa fuera del soporte de los datos. Las GAN evitan esto entrenando un critico aprendido, lo que suele dar salidas mas nitidas pero no ofrece una evaluacion directa de la verosimilitud, complicando la seleccion de modelos y la estimacion de densidad.

Frente a los modelos de difusion, las GAN suelen ser mucho mas rapidas en el muestreo, ya que un unico paso hacia adelante por $$ G $$ produce una muestra, mientras que la difusion requiere muchos pasos de eliminacion de ruido. Los modelos de difusion, sin embargo, suelen ser mas faciles de entrenar, escalan de forma mas predecible con datos y computo, y han superado en gran medida a las GAN en pruebas como la sintesis condicionada por clase en ImageNet. Trabajos recientes han reducido esta brecha de velocidad de muestreo destilando la difusion en muestreadores de pocos pasos, mientras que la investigacion en GAN ha explorado correspondientemente objetivos hibridos.

Limitaciones

El entrenamiento de las GAN es notoriamente fragil. Dado que el objetivo es un problema de punto de silla y no una minimizacion, el descenso de gradiente ordinario no necesariamente converge; las oscilaciones y dinamicas divergentes son comunes. El modo de fallo mas citado es el colapso de modos (mode collapse), en el que el generador se concentra en un pequeno subconjunto de la distribucion de datos que el discriminador actual no puede rechazar, lo que conduce a salidas con poca diversidad. Diagnosticar el colapso de modos es dificil porque las GAN carecen de una verosimilitud tratable; en la practica se recurre a metricas indirectas como la puntuacion de Inception y la Frechet Inception Distance, que son a su vez imperfectas.

Otros problemas practicos incluyen la sensibilidad a las elecciones arquitectonicas y a los hiperparametros, los gradientes del discriminador que se desvanecen o explotan, y la dificultad de detectar cuando ha terminado el entrenamiento. Desde un punto de vista teorico, la existencia y unicidad de equilibrios para parametrizaciones no convexas no esta garantizada, y la divergencia de Jensen-Shannon se vuelve poco informativa cuando $p_{\text{data}}$ y $$ p_g $$ tienen soportes disjuntos, lo que motivo la transicion a objetivos del tipo Wasserstein.

Aplicaciones

Las GAN se han aplicado a la super-resolucion de imagenes, al inpainting, a la transferencia de estilo, a la adaptacion de dominio, a la segmentacion semantica, a la generacion de voz y musica y a la simulacion fisica. Tambien se utilizan como perdida perceptual aprendida dentro de otros sistemas y como aumentadores de datos para clasificadores aguas abajo. En contextos de produccion donde la latencia de muestreo domina, los generadores GAN de un solo paso siguen siendo atractivos incluso cuando los modelos basados en difusion ofrecerian mayor calidad pico.

Referencias

↑ Template:Cite arxiv

[1] Template:Cite arxiv

[1]