Generative Adversarial Nets/zh

Research Paper
Authors	Ian J. Goodfellow; Jean Pouget-Abadie; Mehdi Mirza; Bing Xu; David Warde-Farley; Sherjil Ozair; Aaron Courville; Yoshua Bengio
Year	2014
Venue	NeurIPS
Topic area	Deep Learning
Difficulty	Research
arXiv	1406.2661
PDF	Download PDF

Other languages:

English
Español
中文

Languages: English | Español | 中文

Generative Adversarial Nets是Goodfellow等人於2014年發表的論文，提出了生成對抗網絡（GAN），這是一種通過對抗過程訓練生成模型的框架。其核心思想是同時訓練兩個神經網絡——一個生成合成數據的生成器和一個區分真實數據與生成數據的判別器——在極小極大博弈中進行訓練。GAN開闢了生成建模的新範式，並在2010年代後期成為高保真圖像合成的主導方法。

概述

生成建模旨在學習訓練數據的潛在分佈，以便生成新的、逼真的樣本。在GAN出現之前，基於最大似然的生成方法——例如變分自編碼器（VAE）、玻爾茲曼機和深度置信網絡——面臨着難以處理的推斷問題，需要近似技術，或產生模糊的輸出。直接參數化並最大化高維數據分佈的似然被證明是困難的。

Goodfellow等人提出了一種根本不同的方法：不顯式地建模數據分佈，而是訓練一個生成器網絡來產生能夠欺騙判別器網絡的樣本，該判別器網絡被訓練以區分真實與虛假。這種對抗性表述避免了顯式密度估計、近似推斷或馬爾可夫鏈的需求，只需要通過兩個網絡進行反向傳播。

主要貢獻

對抗框架：一種新穎的訓練範式，其中生成器和判別器通過雙人極小極大博弈同時訓練，生成器學習產生越來越逼真的樣本。
理論基礎：證明了當生成器的分佈與真實數據分佈匹配時，極小極大博弈具有全局最優解，並且在某些條件下訓練過程會收斂到該最優解。
簡潔性與通用性：GAN只需要前饋神經網絡和反向傳播，無需馬爾可夫鏈、變分界限或複雜的推斷過程。
清晰樣本生成：與VAE不同（VAE由於其生成過程中的高斯假設傾向於產生模糊的輸出），GAN可以產生清晰、細節豐富的樣本。

方法

GAN框架由兩個可微函數組成：

生成器 $G(z; \theta_g)$ ：將從先驗分佈 $$ p_z(z) $$ （通常為高斯分佈或均勻分佈）採樣的潛在噪聲向量 $$ z $$ 映射到數據空間。
判別器 $D(x; \theta_d)$ ：輸出樣本 $$ x $$ 來自真實數據分佈而非生成器的概率。

這兩個網絡被訓練以優化極小極大目標：

$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{\text{data}}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]$

判別器被訓練以最大化該目標（正確分類真實樣本和生成樣本），而生成器被訓練以最小化該目標（欺騙判別器）。在實踐中，生成器並不是最小化 $\log(1 - D(G(z)))$ ，而是最大化 $\log D(G(z))$ ，這在生成器仍然較差的訓練早期提供了更強的梯度。

訓練在更新判別器 $$ k $$ 步與更新生成器一步之間交替進行。作者在實踐中推薦 $$ k = 1 $$ 。

該論文證明，對於固定的生成器，最優判別器為：

$D^*_G(x) = \frac{p_{\text{data}}(x)}{p_{\text{data}}(x) + p_g(x)}$

並且當 $$ D $$ 為最優時，生成器的目標簡化為最小化數據分佈與生成器分佈之間的Jensen-Shannon散度。全局最小值出現在 $p_g = p_{\text{data}}$ 時，此時處處有 $D(x) = \frac{1}{2}$ 。

結果

該論文在多個標準數據集上展示了GAN的效果：

MNIST（手寫數字）：生成的樣本在視覺上清晰且多樣，最右側一列顯示最接近的訓練樣本，以證明生成器並非僅在記憶訓練數據。
Toronto Face Database（TFD）：生成的人臉圖像呈現出可識別的面部結構和變化。
CIFAR-10：生成了物體的彩色圖像，儘管解像度有限。

定量評估使用高斯Parzen窗口估計賦予保留測試數據的對數似然。雖然作者承認這一指標在評估生成模型方面並不完善，但GAN樣本相比當時的其他生成模型取得了具有競爭力或更優的對數似然估計。

該論文還展示了所學習的潛在空間表現出平滑的插值——在兩個潛在向量 $$ z $$ 之間進行線性插值可在生成的圖像之間產生語義上有意義的過渡。

影響

GAN引發了深度學習研究中最活躍的領域之一。在發表後的幾年內，提出了數千種GAN變體，解決了訓練不穩定問題（WGAN、譜歸一化），實現了條件生成（cGAN、pix2pix），達到了照片級真實感的圖像合成（StyleGAN、BigGAN），並擴展到視頻、3D和其他模態。對抗訓練原理也被應用於領域適應、數據增強、超解像度和文本到圖像的生成。

Ian Goodfellow的原始論文已成為機器學習領域被引用最多的出版物之一。儘管自2020年代初以來，擴散模型在很大程度上取代了GAN成為圖像生成的主導方法，但對抗訓練框架仍然具有影響力，並繼續在許多領域找到應用。Yann LeCun稱GAN為"機器學習過去10年中最有趣的想法"。

另見

參考文獻

Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems 27 (NeurIPS 2014). arXiv:1406.2661
Radford, A., Metz, L., & Chintala, S. (2016). Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. ICLR 2016. arXiv:1511.06434.
Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein GAN. ICML 2017. arXiv:1701.07875.