Image Generation Models/zh
| Article | |
|---|---|
| Topic area | Deep Learning |
| Prerequisites | Neural Networks, Generative Models, Probability Distributions |
概述
圖像生成模型是一類生成模型,通過逼近訓練集的數據分布來學習合成新圖像。給定從圖像上的未知分布 $ p_{\text{data}}(x) $ 中抽取的樣本,目標是學習一個模型分布 $ p_\theta(x) $,從中可以抽取出與訓練數據相似但不複製訓練數據的新樣本。現代圖像生成支撐着從照片級真實合成、圖像編輯到數據增強、科學可視化和設計工具等廣泛應用。[1]
該領域經歷了多個模型家族的演進,每個家族在樣本質量、多樣性、訓練穩定性、採樣速度和似然可處理性之間做出不同的權衡。當前占主導地位的四種範式是變分自編碼器(VAE)、生成對抗網絡(GAN)、自回歸模型和擴散模型。歸一化流構成第五個較小的家族。混合方法結合了上述各家族的組件。
問題表述
圖像生成可以表述為密度估計、採樣,或兩者兼而有之。設 $ x \in \mathbb{R}^{H \times W \times C} $ 是一幅高度為 $ H $、寬度為 $ W $、通道數為 $ C $ 的圖像。生成模型以 $ \theta $ 為參數,目標是在某種散度或距離下使 $ p_\theta(x) $ 接近 $ p_{\text{data}}(x) $。
訓練目標因家族而異。基於似然的模型最大化
$ {\displaystyle \mathcal{L}(\theta) = \mathbb{E}_{x \sim p_{\text{data}}}[\log p_\theta(x)]} $
或者一個可處理的下界。隱式模型,例如 GAN,從不計算似然,而是通過學習的判別器來匹配分布。基於分數的模型和擴散模型匹配對數密度的梯度(即分數函數)$ \nabla_x \log p(x) $,而非密度本身。目標的選擇決定了一切:哪些架構有效、出現哪些偽影,以及推理時如何進行採樣。
變分自編碼器
VAE將編碼器 $ q_\phi(z \mid x) $ 與解碼器 $ p_\theta(x \mid z) $ 配對,作用於潛變量 $ z $,通常是低維高斯分布。訓練最大化證據下界(ELBO):
$ {\displaystyle \mathcal{L}_{\text{ELBO}} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x \mid z)] - D_{\text{KL}}(q_\phi(z \mid x) \,\|\, p(z))} $
重參數化技巧使梯度能夠通過隨機採樣進行傳播。[2] VAE 提供穩定的訓練、可用於插值和編輯的顯式潛空間,以及可處理的似然下界。其主要弱點是樣本模糊,這可追溯到像素級別的高斯似然以及 ELBO 與真實對數似然之間的差距。分層和離散潛變量的變體(例如 VQ-VAE)縮小了這一差距,目前常被用作兩階段流水線的第一階段。
生成對抗網絡
GAN完全繞開似然。生成器 $ G_\theta(z) $ 將噪聲映射為圖像,而判別器 $ D_\phi(x) $ 試圖區分真實樣本和生成樣本。極小極大目標為
$ {\displaystyle \min_\theta \max_\phi \; \mathbb{E}_{x \sim p_{\text{data}}}[\log D_\phi(x)] + \mathbb{E}_{z \sim p(z)}[\log(1 - D_\phi(G_\theta(z)))]} $
當判別器達到最優時,該博弈最小化數據與模型之間的Jensen-Shannon 散度。[3] GAN 早期就實現了驚人的照片級真實感,尤其是通過 StyleGAN 和 BigGAN,但其訓練以不穩定著稱。模式坍塌(即生成器僅產生數據分布中很窄的一部分)是一個反覆出現的故障。Wasserstein GAN用 Earth-Mover 距離取代原始損失以改善梯度信號,而譜歸一化或梯度懲罰則穩定判別器。採樣速度很快:只需對 $ G_\theta $ 進行一次前向傳播即可。
自回歸模型
自回歸圖像模型將像素(或學習到的 token)上的聯合分布分解為條件分布的乘積:
$ {\displaystyle p_\theta(x) = \prod_{i=1}^{N} p_\theta(x_i \mid x_{<i})} $
PixelRNN 和 PixelCNN 直接建模像素級別的條件分布,而 Image Transformer和現代基於 token 的流水線(例如 VQGAN 加上一個 Transformer)則在由學習到的分詞器產生的離散碼上進行操作。[4] 自回歸模型給出精確的似然,使用交叉熵穩定地訓練,並能隨參數和算力良好地擴展。主要代價是採樣:生成一幅圖像需要進行 $ N $ 次順序前向傳播,其中 $ N $ 可能多達數千個 token。並行解碼、緩存以及推測解碼可部分緩解此問題。
擴散模型
擴散模型定義了一個前向過程,在 $ T $ 個時間步內逐步用高斯噪聲破壞數據,並學習一個反向過程將樣本去噪還原為數據。前向過程
$ {\displaystyle q(x_t \mid x_{t-1}) = \mathcal{N}(x_t;\, \sqrt{1-\beta_t}\, x_{t-1},\, \beta_t I)} $
在任意步上都具有閉式的邊緣分布,反向過程則由一個網絡 $ \epsilon_\theta(x_t, t) $ 參數化,該網絡被訓練用於預測噪聲。簡化的訓練目標為
$ {\displaystyle \mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\| \epsilon - \epsilon_\theta(x_t, t) \|^2\right]} $
這等價於在噪聲尺度 $ t $ 下的去噪分數匹配。[5] 擴散模型當前在樣本質量上達到了最新水平,通過無分類器引導支持靈活的條件控制,且訓練穩定。其主要代價是多步採樣,每張圖像通常需要 20 到 1000 次網絡評估。潛擴散在由 VAE 產生的壓縮潛空間中運行擴散過程,將計算量降低一個數量級,並支持像 Stable Diffusion 這樣的文生圖系統。[6] 一致性模型、蒸餾以及修正流可將採樣減少到屈指可數的幾步。
條件化與引導
大多數實用系統是條件化的,根據類別標籤、文本描述、分割圖或參考圖像生成 $ p_\theta(x \mid c) $。文生圖流水線將一個凍結的文本編碼器(通常是 CLIP 或大語言模型編碼器)與生成器配對。無分類器引導通過在條件預測和無條件預測之間外推,以多樣性換取保真度:
$ {\displaystyle \hat{\epsilon}_\theta(x_t, c) = (1+w)\, \epsilon_\theta(x_t, c) - w\, \epsilon_\theta(x_t, \emptyset)} $
其中引導尺度 $ w $ 通常介於 3 到 15 之間。ControlNet 和 IP-Adapter 在不重新訓練凍結的基礎模型的情況下,為其添加結構或風格上的條件控制。
評估
沒有任何單一指標能夠全面衡量生成質量。Frechet Inception 距離(FID)比較真實樣本與生成樣本之間 Inception 特徵分布的矩;越低越好。[7] Inception Score、用於生成模型的精確率/召回率,以及 CLIP 分數(用於文本對齊)與 FID 互為補充。基於似然的模型還會報告每維比特數。人類偏好研究仍是感知質量的真值標準,尤其是在自動指標與人類判斷相關性較弱的文生圖系統中。
比較與權衡
在四大家族中,擴散模型目前在樣本保真度和條件可控性方面領先;在需要單步推理時(實時圖形、移動設備),GAN仍具吸引力;自回歸模型在需要精確似然或統一處理多種模態時表現突出;VAE是用於分詞化和潛空間壓縮的常用第一階段編碼器。由 VAE 或 VQ-VAE 壓縮像素、再由擴散模型或 transformer 對潛空間建模的兩階段流水線,在 2024-2026 年間主導着大規模文生圖和視頻生成。
局限性
圖像生成模型會繼承並可能放大其訓練數據中的偏見。它們可能記憶並複述訓練樣本,尤其是在分布偏移或罕見提示下,從而引發版權和隱私方面的擔憂。檢測機器生成的圖像是一個具有對抗動態的開放問題。訓練和推理的算力與能耗成本都不可忽視,而較小的分布偏移(域外提示、不尋常的構圖)可能產生自動指標遺漏的微妙偽影。安全過濾、水印和溯源跟蹤是當前研究和政策的活躍領域。
參考文獻
- ↑ Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016, ch. 20.
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv