Image Generation Models/zh

Article
Topic area	Deep Learning
Prerequisites	Neural Networks, Generative Models, Probability Distributions

This page is a translated version of the page Image Generation Models and the translation is 100% complete.

Other languages:

English
Español
中文

概述

圖像生成模型是一類生成模型,通過逼近訓練集的數據分布來學習合成新圖像。給定從圖像上的未知分布 $p_{\text{data}}(x)$ 中抽取的樣本,目標是學習一個模型分布 $p_\theta(x)$ ,從中可以抽取出與訓練數據相似但不複製訓練數據的新樣本。現代圖像生成支撐着從照片級真實合成、圖像編輯到數據增強、科學可視化和設計工具等廣泛應用。^[1]

該領域經歷了多個模型家族的演進,每個家族在樣本質量、多樣性、訓練穩定性、採樣速度和似然可處理性之間做出不同的權衡。當前占主導地位的四種範式是變分自編碼器(VAE)、生成對抗網絡(GAN)、自回歸模型和擴散模型。歸一化流構成第五個較小的家族。混合方法結合了上述各家族的組件。

問題表述

圖像生成可以表述為密度估計、採樣,或兩者兼而有之。設 $x \in \mathbb{R}^{H \times W \times C}$ 是一幅高度為 $$ H $$ 、寬度為 $$ W $$ 、通道數為 $$ C $$ 的圖像。生成模型以 $\theta$ 為參數,目標是在某種散度或距離下使 $p_\theta(x)$ 接近 $p_{\text{data}}(x)$ 。

訓練目標因家族而異。基於似然的模型最大化

$\mathcal{L}(\theta) = \mathbb{E}_{x \sim p_{\text{data}}}[\log p_\theta(x)]$

或者一個可處理的下界。隱式模型,例如 GAN,從不計算似然,而是通過學習的判別器來匹配分布。基於分數的模型和擴散模型匹配對數密度的梯度(即分數函數) $\nabla_x \log p(x)$ ,而非密度本身。目標的選擇決定了一切:哪些架構有效、出現哪些偽影,以及推理時如何進行採樣。

變分自編碼器

VAE將編碼器 $q_\phi(z \mid x)$ 與解碼器 $p_\theta(x \mid z)$ 配對,作用於潛變量 $$ z $$ ,通常是低維高斯分布。訓練最大化證據下界(ELBO):

$\mathcal{L}_{\text{ELBO}} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x \mid z)] - D_{\text{KL}}(q_\phi(z \mid x) \,\|\, p(z))$

重參數化技巧使梯度能夠通過隨機採樣進行傳播。^[2] VAE 提供穩定的訓練、可用於插值和編輯的顯式潛空間,以及可處理的似然下界。其主要弱點是樣本模糊,這可追溯到像素級別的高斯似然以及 ELBO 與真實對數似然之間的差距。分層和離散潛變量的變體(例如 VQ-VAE)縮小了這一差距,目前常被用作兩階段流水線的第一階段。

生成對抗網絡

GAN完全繞開似然。生成器 $G_\theta(z)$ 將噪聲映射為圖像,而判別器 $D_\phi(x)$ 試圖區分真實樣本和生成樣本。極小極大目標為

$\min_\theta \max_\phi \; \mathbb{E}_{x \sim p_{\text{data}}}[\log D_\phi(x)] + \mathbb{E}_{z \sim p(z)}[\log(1 - D_\phi(G_\theta(z)))]$

當判別器達到最優時,該博弈最小化數據與模型之間的Jensen-Shannon 散度。^[3] GAN 早期就實現了驚人的照片級真實感,尤其是通過 StyleGAN 和 BigGAN,但其訓練以不穩定著稱。模式坍塌(即生成器僅產生數據分布中很窄的一部分)是一個反覆出現的故障。Wasserstein GAN用 Earth-Mover 距離取代原始損失以改善梯度信號,而譜歸一化或梯度懲罰則穩定判別器。採樣速度很快:只需對 $G_\theta$ 進行一次前向傳播即可。

自回歸模型

自回歸圖像模型將像素(或學習到的 token)上的聯合分布分解為條件分布的乘積:

$p_\theta(x) = \prod_{i=1}^{N} p_\theta(x_i \mid x_{<i})$

PixelRNN 和 PixelCNN 直接建模像素級別的條件分布,而 Image Transformer和現代基於 token 的流水線(例如 VQGAN 加上一個 Transformer)則在由學習到的分詞器產生的離散碼上進行操作。^[4] 自回歸模型給出精確的似然,使用交叉熵穩定地訓練,並能隨參數和算力良好地擴展。主要代價是採樣:生成一幅圖像需要進行 $$ N $$ 次順序前向傳播,其中 $$ N $$ 可能多達數千個 token。並行解碼、緩存以及推測解碼可部分緩解此問題。

擴散模型

擴散模型定義了一個前向過程,在 $$ T $$ 個時間步內逐步用高斯噪聲破壞數據,並學習一個反向過程將樣本去噪還原為數據。前向過程

$q(x_t \mid x_{t-1}) = \mathcal{N}(x_t;\, \sqrt{1-\beta_t}\, x_{t-1},\, \beta_t I)$

在任意步上都具有閉式的邊緣分布,反向過程則由一個網絡 $\epsilon_\theta(x_t, t)$ 參數化,該網絡被訓練用於預測噪聲。簡化的訓練目標為

$\mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\| \epsilon - \epsilon_\theta(x_t, t) \|^2\right]$

這等價於在噪聲尺度 $$ t $$ 下的去噪分數匹配。^[5] 擴散模型當前在樣本質量上達到了最新水平,通過無分類器引導支持靈活的條件控制,且訓練穩定。其主要代價是多步採樣,每張圖像通常需要 20 到 1000 次網絡評估。潛擴散在由 VAE 產生的壓縮潛空間中運行擴散過程,將計算量降低一個數量級,並支持像 Stable Diffusion 這樣的文生圖系統。^[6] 一致性模型、蒸餾以及修正流可將採樣減少到屈指可數的幾步。

條件化與引導

大多數實用系統是條件化的,根據類別標籤、文本描述、分割圖或參考圖像生成 $p_\theta(x \mid c)$ 。文生圖流水線將一個凍結的文本編碼器(通常是 CLIP 或大語言模型編碼器)與生成器配對。無分類器引導通過在條件預測和無條件預測之間外推,以多樣性換取保真度:

$\hat{\epsilon}_\theta(x_t, c) = (1+w)\, \epsilon_\theta(x_t, c) - w\, \epsilon_\theta(x_t, \emptyset)$

其中引導尺度 $$ w $$ 通常介於 3 到 15 之間。ControlNet 和 IP-Adapter 在不重新訓練凍結的基礎模型的情況下,為其添加結構或風格上的條件控制。

評估

沒有任何單一指標能夠全面衡量生成質量。Frechet Inception 距離(FID)比較真實樣本與生成樣本之間 Inception 特徵分布的矩;越低越好。^[7] Inception Score、用於生成模型的精確率/召回率,以及 CLIP 分數(用於文本對齊)與 FID 互為補充。基於似然的模型還會報告每維比特數。人類偏好研究仍是感知質量的真值標準,尤其是在自動指標與人類判斷相關性較弱的文生圖系統中。

比較與權衡

在四大家族中,擴散模型目前在樣本保真度和條件可控性方面領先;在需要單步推理時(實時圖形、移動設備),GAN仍具吸引力;自回歸模型在需要精確似然或統一處理多種模態時表現突出;VAE是用於分詞化和潛空間壓縮的常用第一階段編碼器。由 VAE 或 VQ-VAE 壓縮像素、再由擴散模型或 transformer 對潛空間建模的兩階段流水線,在 2024-2026 年間主導着大規模文生圖和視頻生成。

局限性

圖像生成模型會繼承並可能放大其訓練數據中的偏見。它們可能記憶並複述訓練樣本,尤其是在分布偏移或罕見提示下,從而引發版權和隱私方面的擔憂。檢測機器生成的圖像是一個具有對抗動態的開放問題。訓練和推理的算力與能耗成本都不可忽視,而較小的分布偏移(域外提示、不尋常的構圖)可能產生自動指標遺漏的微妙偽影。安全過濾、水印和溯源跟蹤是當前研究和政策的活躍領域。

參考文獻

↑ Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016, ch. 20.
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv

[1] Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016, ch. 20.

[2] Template:Cite arxiv

[3] Template:Cite arxiv

[4] Template:Cite arxiv

[5] Template:Cite arxiv

[6] Template:Cite arxiv

[7] Template:Cite arxiv

[1]

[2]

[3]

[4]

[5]

[6]

[7]