探讨条件GAN在图像生成中的应用-电子发烧友网

生成对抗网络一直是深度学习的重要工具，经过近几年的发展，GANs也衍生出了许多不同的模式，例如DCGANs、Wassers tein GANs、BEGANs等。本文将要探讨的是条件GAN（Conditional GANs）在图像生成中的应用。

条件GANs已经应用与多种跟图像有关的任务中了，但分辨率通常都不高，并且看起来很不真实。而在这篇论文中，英伟达和加州大学伯克利分校的研究人员共同提出了一个新方法合成高分辨率的街景，利用条件GANs从语义标签映射生成的2048x1024的图像不仅在视觉上更吸引人，同时生成了新的对抗损失以及新的多尺度生成器和判别器体系结构。

合成实例级别的图像

接下来就是该项目的具体实验过程。首先，是基线算法 pix2pix的运用。pix2pix是用于图像翻译的条件GAN框架，它包含一个生成网络G和一个判别网络D。在这项任务中，生成网络G的目标就是将语义标签映射翻译成接近真实的图像，而判别网络D的目标是将生成图像与真实图像作对比。

pix2pix利用U-Net作为生成网络，同时用基础的卷积网络作为判别器。然而，利用数据集Cityspaces生成的图像分辨率最高只有256x256的，以至于训练过程十分不稳定，生成图片的质量也不是很好，所以pix2pix框架需要进行一些改善升级。

研究人员将生成网络换成由粗到精的网络，并采用多尺度的判别网络结构。同时采用稳定的对抗学习目标函数。

由粗到精的生成网络（Coarse-to-fine generator）

研究人员将生成网络分成了两部分：全局生成网络G1和局部增强网络G2。全局生成网络G1的可接受的分辨率为1024x512，局部增强网络输出的图像分辨率为前一个图像的4倍。如果还想得到更高的合成图像，可以继续增加局部增强网络。

探讨条件GAN在图像生成中的应用

生成网络结构

多尺度判别网络（multi-scale discriminators）

对GAN的判别网络来说，高分辨率的图像是不小的挑战。为了区分真正的高清图片与合成图片，判别网络需要一个巨大的接收区（receptive field）。所以这就需要一个更深的网络或更大的卷积核。但是这两种方法都会增加网络的能力，有可能导致过度拟合。并且它们在训练时都需要更大的存储脚本，这对高分辨率的图像生成来说是很稀少的。

为了解决这一问题，研究人员提出了使用多尺度判别器的方法，即用三种拥有同样结构的网络，但针对不同尺寸的图片运行。能处理最大尺寸的网络拥有最大的接收区，它能引导生成网络生成整体更协调的图像。而处理最小尺寸的网络能引导生成网络在细节上处理得更仔细。

损失函数

研究人员从鉴别网络的多个层中提取特征，并学习从真实和合成图像中匹配这些中间表征。为了方便表示，我们将判别网络Dk的第i层表示为Dk(i)，特征匹配损失LFM(G, Dk)表示为：

其中T是总层数，Ni表示每层的组成要素。

最终将GAN损失和特征匹配损失结合起来的函数表示为：

其中λ控制两项的重要性。

现有的图像合成方法仅使用语义标签映射，其中每个像素值代表像素所属的对象类别。这种映射不区分同一类别的对象。另一方面，实例级别的语义标签映射包括每个单独对象的唯一ID。要包含实例映射，一个简单的方法是将其直接传递给网络，或者将其编码成一个单独的向量。然而，由于不同图像可能包含不同数量相同类别的对象，所以这两种方法在实践中都难以实现。

所以我们选择用实例映射，它能够提供语义标签映射中没有的对象边界（object boundary）。例如，当多个相同类别的对象彼此相邻是，只查看语义标签映射无法区分它们。