Image Generation Models/zh

Article
Topic area	Deep Learning
Prerequisites	Neural Networks, Generative Models, Probability Distributions

This page is a translated version of the page Image Generation Models and the translation is 100% complete.

Other languages:

English
Español
中文

概述

图像生成模型是一类生成模型,通过逼近训练集的数据分布来学习合成新图像。给定从图像上的未知分布 $p_{\text{data}}(x)$ 中抽取的样本,目标是学习一个模型分布 $p_\theta(x)$ ,从中可以抽取出与训练数据相似但不复制训练数据的新样本。现代图像生成支撑着从照片级真实合成、图像编辑到数据增强、科学可视化和设计工具等广泛应用。^[1]

该领域经历了多个模型家族的演进,每个家族在样本质量、多样性、训练稳定性、采样速度和似然可处理性之间做出不同的权衡。当前占主导地位的四种范式是变分自编码器(VAE)、生成对抗网络(GAN)、自回归模型和扩散模型。归一化流构成第五个较小的家族。混合方法结合了上述各家族的组件。

问题表述

图像生成可以表述为密度估计、采样,或两者兼而有之。设 $x \in \mathbb{R}^{H \times W \times C}$ 是一幅高度为 $$ H $$ 、宽度为 $$ W $$ 、通道数为 $$ C $$ 的图像。生成模型以 $\theta$ 为参数,目标是在某种散度或距离下使 $p_\theta(x)$ 接近 $p_{\text{data}}(x)$ 。

训练目标因家族而异。基于似然的模型最大化

$\mathcal{L}(\theta) = \mathbb{E}_{x \sim p_{\text{data}}}[\log p_\theta(x)]$

或者一个可处理的下界。隐式模型,例如 GAN,从不计算似然,而是通过学习的判别器来匹配分布。基于分数的模型和扩散模型匹配对数密度的梯度(即分数函数) $\nabla_x \log p(x)$ ,而非密度本身。目标的选择决定了一切:哪些架构有效、出现哪些伪影,以及推理时如何进行采样。

变分自编码器

VAE将编码器 $q_\phi(z \mid x)$ 与解码器 $p_\theta(x \mid z)$ 配对,作用于潜变量 $$ z $$ ,通常是低维高斯分布。训练最大化证据下界(ELBO):

$\mathcal{L}_{\text{ELBO}} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x \mid z)] - D_{\text{KL}}(q_\phi(z \mid x) \,\|\, p(z))$

重参数化技巧使梯度能够通过随机采样进行传播。^[2] VAE 提供稳定的训练、可用于插值和编辑的显式潜空间,以及可处理的似然下界。其主要弱点是样本模糊,这可追溯到像素级别的高斯似然以及 ELBO 与真实对数似然之间的差距。分层和离散潜变量的变体(例如 VQ-VAE)缩小了这一差距,目前常被用作两阶段流水线的第一阶段。

生成对抗网络

GAN完全绕开似然。生成器 $G_\theta(z)$ 将噪声映射为图像,而判别器 $D_\phi(x)$ 试图区分真实样本和生成样本。极小极大目标为

$\min_\theta \max_\phi \; \mathbb{E}_{x \sim p_{\text{data}}}[\log D_\phi(x)] + \mathbb{E}_{z \sim p(z)}[\log(1 - D_\phi(G_\theta(z)))]$

当判别器达到最优时,该博弈最小化数据与模型之间的Jensen-Shannon 散度。^[3] GAN 早期就实现了惊人的照片级真实感,尤其是通过 StyleGAN 和 BigGAN,但其训练以不稳定著称。模式坍塌(即生成器仅产生数据分布中很窄的一部分)是一个反复出现的故障。Wasserstein GAN用 Earth-Mover 距离取代原始损失以改善梯度信号,而谱归一化或梯度惩罚则稳定判别器。采样速度很快:只需对 $G_\theta$ 进行一次前向传播即可。

自回归模型

自回归图像模型将像素(或学习到的 token)上的联合分布分解为条件分布的乘积:

$p_\theta(x) = \prod_{i=1}^{N} p_\theta(x_i \mid x_{<i})$

PixelRNN 和 PixelCNN 直接建模像素级别的条件分布,而 Image Transformer和现代基于 token 的流水线(例如 VQGAN 加上一个 Transformer)则在由学习到的分词器产生的离散码上进行操作。^[4] 自回归模型给出精确的似然,使用交叉熵稳定地训练,并能随参数和算力良好地扩展。主要代价是采样:生成一幅图像需要进行 $$ N $$ 次顺序前向传播,其中 $$ N $$ 可能多达数千个 token。并行解码、缓存以及推测解码可部分缓解此问题。

扩散模型

扩散模型定义了一个前向过程,在 $$ T $$ 个时间步内逐步用高斯噪声破坏数据,并学习一个反向过程将样本去噪还原为数据。前向过程

$q(x_t \mid x_{t-1}) = \mathcal{N}(x_t;\, \sqrt{1-\beta_t}\, x_{t-1},\, \beta_t I)$

在任意步上都具有闭式的边缘分布,反向过程则由一个网络 $\epsilon_\theta(x_t, t)$ 参数化,该网络被训练用于预测噪声。简化的训练目标为

$\mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\| \epsilon - \epsilon_\theta(x_t, t) \|^2\right]$

这等价于在噪声尺度 $$ t $$ 下的去噪分数匹配。^[5] 扩散模型当前在样本质量上达到了最新水平,通过无分类器引导支持灵活的条件控制,且训练稳定。其主要代价是多步采样,每张图像通常需要 20 到 1000 次网络评估。潜扩散在由 VAE 产生的压缩潜空间中运行扩散过程,将计算量降低一个数量级,并支持像 Stable Diffusion 这样的文生图系统。^[6] 一致性模型、蒸馏以及修正流可将采样减少到屈指可数的几步。

条件化与引导

大多数实用系统是条件化的,根据类别标签、文本描述、分割图或参考图像生成 $p_\theta(x \mid c)$ 。文生图流水线将一个冻结的文本编码器(通常是 CLIP 或大语言模型编码器)与生成器配对。无分类器引导通过在条件预测和无条件预测之间外推,以多样性换取保真度:

$\hat{\epsilon}_\theta(x_t, c) = (1+w)\, \epsilon_\theta(x_t, c) - w\, \epsilon_\theta(x_t, \emptyset)$

其中引导尺度 $$ w $$ 通常介于 3 到 15 之间。ControlNet 和 IP-Adapter 在不重新训练冻结的基础模型的情况下,为其添加结构或风格上的条件控制。

评估

没有任何单一指标能够全面衡量生成质量。Frechet Inception 距离(FID)比较真实样本与生成样本之间 Inception 特征分布的矩;越低越好。^[7] Inception Score、用于生成模型的精确率/召回率,以及 CLIP 分数(用于文本对齐)与 FID 互为补充。基于似然的模型还会报告每维比特数。人类偏好研究仍是感知质量的真值标准,尤其是在自动指标与人类判断相关性较弱的文生图系统中。

比较与权衡

在四大家族中,扩散模型目前在样本保真度和条件可控性方面领先;在需要单步推理时(实时图形、移动设备),GAN仍具吸引力;自回归模型在需要精确似然或统一处理多种模态时表现突出;VAE是用于分词化和潜空间压缩的常用第一阶段编码器。由 VAE 或 VQ-VAE 压缩像素、再由扩散模型或 transformer 对潜空间建模的两阶段流水线,在 2024-2026 年间主导着大规模文生图和视频生成。

局限性

图像生成模型会继承并可能放大其训练数据中的偏见。它们可能记忆并复述训练样本,尤其是在分布偏移或罕见提示下,从而引发版权和隐私方面的担忧。检测机器生成的图像是一个具有对抗动态的开放问题。训练和推理的算力与能耗成本都不可忽视,而较小的分布偏移(域外提示、不寻常的构图)可能产生自动指标遗漏的微妙伪影。安全过滤、水印和溯源跟踪是当前研究和政策的活跃领域。

参考文献

↑ Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016, ch. 20.
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv

[1] Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016, ch. 20.

[2] Template:Cite arxiv

[3] Template:Cite arxiv

[4] Template:Cite arxiv

[5] Template:Cite arxiv

[6] Template:Cite arxiv

[7] Template:Cite arxiv

[1]

[2]

[3]

[4]

[5]

[6]

[7]