Generative Adversarial Nets/zh
| Research Paper | |
|---|---|
| Authors | Ian J. Goodfellow; Jean Pouget-Abadie; Mehdi Mirza; Bing Xu; David Warde-Farley; Sherjil Ozair; Aaron Courville; Yoshua Bengio |
| Year | 2014 |
| Venue | NeurIPS |
| Topic area | Deep Learning |
| Difficulty | Research |
| arXiv | 1406.2661 |
| Download PDF | |
Generative Adversarial Nets是Goodfellow等人于2014年发表的论文,提出了生成对抗网络(GAN),这是一种通过对抗过程训练生成模型的框架。其核心思想是同时训练两个神经网络——一个生成合成数据的生成器和一个区分真实数据与生成数据的判别器——在极小极大博弈中进行训练。GAN开辟了生成建模的新范式,并在2010年代后期成为高保真图像合成的主导方法。
概述
生成建模旨在学习训练数据的潜在分布,以便生成新的、逼真的样本。在GAN出现之前,基于最大似然的生成方法——例如变分自编码器(VAE)、玻尔兹曼机和深度置信网络——面临着难以处理的推断问题,需要近似技术,或产生模糊的输出。直接参数化并最大化高维数据分布的似然被证明是困难的。
Goodfellow等人提出了一种根本不同的方法:不显式地建模数据分布,而是训练一个生成器网络来产生能够欺骗判别器网络的样本,该判别器网络被训练以区分真实与虚假。这种对抗性表述避免了显式密度估计、近似推断或马尔可夫链的需求,只需要通过两个网络进行反向传播。
主要贡献
- 对抗框架:一种新颖的训练范式,其中生成器和判别器通过双人极小极大博弈同时训练,生成器学习产生越来越逼真的样本。
- 理论基础:证明了当生成器的分布与真实数据分布匹配时,极小极大博弈具有全局最优解,并且在某些条件下训练过程会收敛到该最优解。
- 简洁性与通用性:GAN只需要前馈神经网络和反向传播,无需马尔可夫链、变分界限或复杂的推断过程。
- 清晰样本生成:与VAE不同(VAE由于其生成过程中的高斯假设倾向于产生模糊的输出),GAN可以产生清晰、细节丰富的样本。
方法
GAN框架由两个可微函数组成:
- 生成器 $ G(z; \theta_g) $:将从先验分布 $ p_z(z) $(通常为高斯分布或均匀分布)采样的潜在噪声向量 $ z $ 映射到数据空间。
- 判别器 $ D(x; \theta_d) $:输出样本 $ x $ 来自真实数据分布而非生成器的概率。
这两个网络被训练以优化极小极大目标:
$ \min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{\text{data}}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))] $
判别器被训练以最大化该目标(正确分类真实样本和生成样本),而生成器被训练以最小化该目标(欺骗判别器)。在实践中,生成器并不是最小化 $ \log(1 - D(G(z))) $,而是最大化 $ \log D(G(z)) $,这在生成器仍然较差的训练早期提供了更强的梯度。
训练在更新判别器 $ k $ 步与更新生成器一步之间交替进行。作者在实践中推荐 $ k = 1 $。
该论文证明,对于固定的生成器,最优判别器为:
$ D^*_G(x) = \frac{p_{\text{data}}(x)}{p_{\text{data}}(x) + p_g(x)} $
并且当 $ D $ 为最优时,生成器的目标简化为最小化数据分布与生成器分布之间的Jensen-Shannon散度。全局最小值出现在 $ p_g = p_{\text{data}} $ 时,此时处处有 $ D(x) = \frac{1}{2} $。
结果
该论文在多个标准数据集上展示了GAN的效果:
- MNIST(手写数字):生成的样本在视觉上清晰且多样,最右侧一列显示最接近的训练样本,以证明生成器并非仅在记忆训练数据。
- Toronto Face Database(TFD):生成的人脸图像呈现出可识别的面部结构和变化。
- CIFAR-10:生成了物体的彩色图像,尽管分辨率有限。
定量评估使用高斯Parzen窗口估计赋予保留测试数据的对数似然。虽然作者承认这一指标在评估生成模型方面并不完善,但GAN样本相比当时的其他生成模型取得了具有竞争力或更优的对数似然估计。
该论文还展示了所学习的潜在空间表现出平滑的插值——在两个潜在向量 $ z $ 之间进行线性插值可在生成的图像之间产生语义上有意义的过渡。
影响
GAN引发了深度学习研究中最活跃的领域之一。在发表后的几年内,提出了数千种GAN变体,解决了训练不稳定问题(WGAN、谱归一化),实现了条件生成(cGAN、pix2pix),达到了照片级真实感的图像合成(StyleGAN、BigGAN),并扩展到视频、3D和其他模态。对抗训练原理也被应用于领域适应、数据增强、超分辨率和文本到图像的生成。
Ian Goodfellow的原始论文已成为机器学习领域被引用最多的出版物之一。尽管自2020年代初以来,扩散模型在很大程度上取代了GAN成为图像生成的主导方法,但对抗训练框架仍然具有影响力,并继续在许多领域找到应用。Yann LeCun称GAN为"机器学习过去10年中最有趣的想法"。
另见
- Deep Residual Learning for Image Recognition
- ImageNet Classification with Deep CNNs
- Dropout A Simple Way to Prevent Overfitting
参考文献
- Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems 27 (NeurIPS 2014). arXiv:1406.2661
- Radford, A., Metz, L., & Chintala, S. (2016). Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. ICLR 2016. arXiv:1511.06434.
- Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein GAN. ICML 2017. arXiv:1701.07875.