Image Generation Models/zh

    From Marovi AI
    This page is a translated version of the page Image Generation Models and the translation is 100% complete.
    Other languages:
    Article
    Topic area Deep Learning
    Prerequisites Neural Networks, Generative Models, Probability Distributions


    概述

    图像生成模型是一类生成模型,通过逼近训练集的数据分布来学习合成新图像。给定从图像上的未知分布 $ p_{\text{data}}(x) $ 中抽取的样本,目标是学习一个模型分布 $ p_\theta(x) $,从中可以抽取出与训练数据相似但不复制训练数据的新样本。现代图像生成支撑着从照片级真实合成、图像编辑到数据增强、科学可视化和设计工具等广泛应用。[1]

    该领域经历了多个模型家族的演进,每个家族在样本质量、多样性、训练稳定性、采样速度和似然可处理性之间做出不同的权衡。当前占主导地位的四种范式是变分自编码器(VAE)、生成对抗网络(GAN)、自回归模型扩散模型归一化流构成第五个较小的家族。混合方法结合了上述各家族的组件。

    问题表述

    图像生成可以表述为密度估计、采样,或两者兼而有之。设 $ x \in \mathbb{R}^{H \times W \times C} $ 是一幅高度为 $ H $、宽度为 $ W $、通道数为 $ C $ 的图像。生成模型$ \theta $ 为参数,目标是在某种散度或距离下使 $ p_\theta(x) $ 接近 $ p_{\text{data}}(x) $

    训练目标因家族而异。基于似然的模型最大化

    $ {\displaystyle \mathcal{L}(\theta) = \mathbb{E}_{x \sim p_{\text{data}}}[\log p_\theta(x)]} $

    或者一个可处理的下界。隐式模型,例如 GAN,从不计算似然,而是通过学习的判别器来匹配分布。基于分数的模型和扩散模型匹配对数密度的梯度(即分数函数)$ \nabla_x \log p(x) $,而非密度本身。目标的选择决定了一切:哪些架构有效、出现哪些伪影,以及推理时如何进行采样。

    变分自编码器

    VAE将编码器 $ q_\phi(z \mid x) $ 与解码器 $ p_\theta(x \mid z) $ 配对,作用于潜变量 $ z $,通常是低维高斯分布。训练最大化证据下界(ELBO):

    $ {\displaystyle \mathcal{L}_{\text{ELBO}} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x \mid z)] - D_{\text{KL}}(q_\phi(z \mid x) \,\|\, p(z))} $

    重参数化技巧使梯度能够通过随机采样进行传播。[2] VAE 提供稳定的训练、可用于插值和编辑的显式潜空间,以及可处理的似然下界。其主要弱点是样本模糊,这可追溯到像素级别的高斯似然以及 ELBO 与真实对数似然之间的差距。分层和离散潜变量的变体(例如 VQ-VAE)缩小了这一差距,目前常被用作两阶段流水线的第一阶段。

    生成对抗网络

    GAN完全绕开似然。生成器 $ G_\theta(z) $ 将噪声映射为图像,而判别器 $ D_\phi(x) $ 试图区分真实样本和生成样本。极小极大目标为

    $ {\displaystyle \min_\theta \max_\phi \; \mathbb{E}_{x \sim p_{\text{data}}}[\log D_\phi(x)] + \mathbb{E}_{z \sim p(z)}[\log(1 - D_\phi(G_\theta(z)))]} $

    当判别器达到最优时,该博弈最小化数据与模型之间的Jensen-Shannon 散度[3] GAN 早期就实现了惊人的照片级真实感,尤其是通过 StyleGAN 和 BigGAN,但其训练以不稳定著称。模式坍塌(即生成器仅产生数据分布中很窄的一部分)是一个反复出现的故障。Wasserstein GAN用 Earth-Mover 距离取代原始损失以改善梯度信号,而谱归一化或梯度惩罚则稳定判别器。采样速度很快:只需对 $ G_\theta $ 进行一次前向传播即可。

    自回归模型

    自回归图像模型将像素(或学习到的 token)上的联合分布分解为条件分布的乘积:

    $ {\displaystyle p_\theta(x) = \prod_{i=1}^{N} p_\theta(x_i \mid x_{<i})} $

    PixelRNN 和 PixelCNN 直接建模像素级别的条件分布,而 Image Transformer和现代基于 token 的流水线(例如 VQGAN 加上一个 Transformer)则在由学习到的分词器产生的离散码上进行操作。[4] 自回归模型给出精确的似然,使用交叉稳定地训练,并能随参数和算力良好地扩展。主要代价是采样:生成一幅图像需要进行 $ N $ 次顺序前向传播,其中 $ N $ 可能多达数千个 token。并行解码、缓存以及推测解码可部分缓解此问题。

    扩散模型

    扩散模型定义了一个前向过程,在 $ T $ 个时间步内逐步用高斯噪声破坏数据,并学习一个反向过程将样本去噪还原为数据。前向过程

    $ {\displaystyle q(x_t \mid x_{t-1}) = \mathcal{N}(x_t;\, \sqrt{1-\beta_t}\, x_{t-1},\, \beta_t I)} $

    在任意步上都具有闭式的边缘分布,反向过程则由一个网络 $ \epsilon_\theta(x_t, t) $ 参数化,该网络被训练用于预测噪声。简化的训练目标为

    $ {\displaystyle \mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\| \epsilon - \epsilon_\theta(x_t, t) \|^2\right]} $

    这等价于在噪声尺度 $ t $ 下的去噪分数匹配[5] 扩散模型当前在样本质量上达到了最新水平,通过无分类器引导支持灵活的条件控制,且训练稳定。其主要代价是多步采样,每张图像通常需要 20 到 1000 次网络评估。潜扩散在由 VAE 产生的压缩潜空间中运行扩散过程,将计算量降低一个数量级,并支持像 Stable Diffusion 这样的文生图系统。[6] 一致性模型蒸馏以及修正流可将采样减少到屈指可数的几步。

    条件化与引导

    大多数实用系统是条件化的,根据类别标签、文本描述、分割或参考图像生成 $ p_\theta(x \mid c) $。文生图流水线将一个冻结的文本编码器(通常是 CLIP大语言模型编码器)与生成器配对。无分类器引导通过在条件预测和无条件预测之间外推,以多样性换取保真度:

    $ {\displaystyle \hat{\epsilon}_\theta(x_t, c) = (1+w)\, \epsilon_\theta(x_t, c) - w\, \epsilon_\theta(x_t, \emptyset)} $

    其中引导尺度 $ w $ 通常介于 3 到 15 之间。ControlNet 和 IP-Adapter 在不重新训练冻结的基础模型的情况下,为其添加结构或风格上的条件控制。

    评估

    没有任何单一指标能够全面衡量生成质量。Frechet Inception 距离(FID)比较真实样本与生成样本之间 Inception 特征分布的矩;越低越好。[7] Inception Score、用于生成模型精确率/召回率,以及 CLIP 分数(用于文本对齐)与 FID 互为补充。基于似然的模型还会报告每维比特数。人类偏好研究仍是感知质量的真值标准,尤其是在自动指标与人类判断相关性较弱的文生图系统中。

    比较与权衡

    在四大家族中,扩散模型目前在样本保真度和条件可控性方面领先;在需要单步推理时(实时图形、移动设备),GAN仍具吸引力;自回归模型在需要精确似然或统一处理多种模态时表现突出;VAE是用于分词化和潜空间压缩的常用第一阶段编码器。由 VAE 或 VQ-VAE 压缩像素、再由扩散模型或 transformer 对潜空间建模的两阶段流水线,在 2024-2026 年间主导着大规模文生图和视频生成。

    局限性

    图像生成模型会继承并可能放大其训练数据中的偏见。它们可能记忆并复述训练样本,尤其是在分布偏移或罕见提示下,从而引发版权和隐私方面的担忧。检测机器生成的图像是一个具有对抗动态的开放问题。训练和推理的算力与能耗成本都不可忽视,而较小的分布偏移(域外提示、不寻常的构图)可能产生自动指标遗漏的微妙伪影。安全过滤、水印和溯源跟踪是当前研究和政策的活跃领域。

    参考文献