图像生成领域的一个巨大进展：SAGAN-电子发烧友网

编者按：几个月前，论智介绍了图像生成领域的一个巨大进展：SAGAN。在那篇论文中，罗格斯大学和Google Brain的研究人员大胆把NLP中的self-attention模型引入GAN，解决了特征记忆问题，把图像生成的初始分数（IS）从36.8一下提到了52.52。而近日，一篇ICLR 2019的Open Review论文（赫瑞-瓦特大学&DeepMind）带来了更震撼结果，他们把IS一下子提高了一百多分，从52.52提升到了166.3。

摘要

尽管学界在生成图像建模上取得了不小进展，但从像ImageNet这样的复杂数据集中成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此，我们以至今最大规模训练了生成对抗网络（GAN），并研究了这种规模所特有的不稳定性。研究发现，通过在生成器上使用正交正则化，我们可以让它适应简单的“截断技巧”，即允许利用“截断”潜在空间来精确控制样本保真度和多样性之间的权衡。

我们的修改使模型的性能达到了新高度。当我们在ImageNet上用128×128分辨率的图像进行训练时，我们的模型（BigGAN）的IS为166.3，FID为9.6，而之前的最佳记录是IS 52.52，FID 18.65。

简介

近年来，生成图像建模领域出现了不少成果，其中最前沿的是GAN，它能直接从数据中学习，生成高保真、多样化的图像。虽然GAN的训练是动态的，而且对各方面的设置都很敏感（从优化参数到模型架构），但大量研究已经证实，这种方法可以在各种环境中稳定训练。

尽管取得了这些进步，当前生成图像模型在ImageNet数据集上的表现还是很一般，最高IS只有52.52，而真实图像数据的得分高达233。

在这篇论文中，研究人员通过一系列修改，缩小了GAN生成的图像和ImageNet中的真实图像之间的差异，他们做出的贡献主要有以下三点：

证明GAN能从大规模训练中受益。通过对体系结构做了两个简单修改，他们在训练过程中使用的参数量是现有研究的2-4倍，batch size是8倍，但模型性能有显著提高。

作为改进的副作用，新模型非常适合“截断技巧”，即精确控制样本保真度和多样性之间的权衡。

发现大规模GAN的特有不稳定性，并根据经验进行表征。根据分析所得，他们认为把新方法和现有技术结合可以缓解这种不稳定性，但如果要实现完全的稳定训练，这会大大有损性能。

主要改进

本文提出的BigGAN遵循了SAGAN的基本架构，它基于ResNet，但判别器D中的通道和一般ResNet不同，每个模块的第一个卷积层的filter数量等于输出的filter数，而不是输入数。

在128×128 ImageNet数据上的架构

研究人员首先简单增加了基线模型的batch size，这样做的效果如下表所示。随着batch size逐渐变为基线的2倍、4倍、8倍，模型的FID不断下降，IS不断增加，至8倍时，BigGAN的IS较SAGAN已经提高了约46%。对于这个结果，他们提出的一个猜想是更大的batch size意味着每个batch覆盖的模式更多，这为两个神经网络提供了更好的梯度。

但这么做也有缺点，就是虽然模型能在更少的迭代中达到更好的最终性能，但它很不稳定，甚至会在训练时崩溃。

各batch size下BigGAN的IS（越高越好）和FID（越低越好）

之后，他们又把神经网络每一层的通道数在原有基础上增加了50%，这时每个神经网络的参数数量也几乎翻了一倍。当BigGAN的参数数量是SAGAN的两倍时，它的IS较后者提高了约21%。对此，他们给出的解释是，相对于数据集的复杂性，模型的容量增加了。而增加神经网络深度不会产生相似效果，反而会降低最终性能。

考虑到生成器G中conditional BatchNorm layer的类嵌入c包含大量权重，他们不再为每个嵌入分别设置一个层，而是使用了一个共享嵌入，由它投影到每一层。这降低了计算和存储成本，并把训练速度提高了37%。同时，他们使用了分层潜在空间的变体，把噪声向量z馈送进生成器的多个层，直接影响不同分辨率和层次结构级别的特征。

(a)常规生成器架构；(b)生成器中的残差块

生成效果

BigGAN生成的各个类别的图像

BigGAN生成的256×256的图像

BigGAN生成的512×512的图像

上面是论文呈现的一些生成图像。虽然其他GAN也能精选一些不错的图，但对比细节，BigGAN在质地、光影、外形等方面的表现都优于以往成果。而且就SAGAN强调的腿部生成效果来看，上图中公鸡的腿不突兀、更自然，和真实图像难以区分。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4789

浏览量
101606
图像

图像

+关注

关注
2

文章
1091

浏览量
40684
GaN

GaN

+关注

关注
19

文章
2080

浏览量
75056

原文标题：DeepMind：从52.52到166.3，图像生成再现巨大突破

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

基于扩散模型的图像生成过程

近年来，扩散模型在文本到图像生成方面取得了巨大的成功，实现了更高图像生成质量，提高了推理性能，也可以激发扩展创作灵感。不过仅凭文本来控制

发表于 07-17 11:00 •3019次阅读

基于扩散模型的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

低质量图像的生成与增强的区别图像生成领域中存在的难点

1. 论文信息 2. 引言这篇论文的研究背景是图像生成领域中存在的一个难点 - 如何从低质量的

发表于 08-03 15:36 •1823次阅读

总结可微图像参数表示的最新进展

可微图像参数表示邀请我们提出了这样一个问题：“反向传播通过的是什么样的图像生成过程？”答案是相当多样的过程，其中

发表于 08-16 09:19 •3900次阅读

图像生成领域的一个巨大进展,BigGAN的效果真的有那么好吗？

因此，如果快速浏览BigGAN生成的一系列图像，我们能从中发现不少图具有诡异的美感。比如模型在生成下面几幅景观图时都遵循了从数据集中学到的构图和光影，但当这些来自不同样本的素材杂糅到

发表于 11-21 09:05 •6676次阅读

一种全新的遥感图像描述生成方法

遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题，其主要工作是对于给定的图像自动地生成

发表于 04-20 11:21 •2次下载

一种基于改进的DCGAN生成SAR图像的方法

的方法。为测试和验证多个同类图像识别软件，并进行择优，需要自行设计不同于训练用的图像来对测软件进行测试。此方法可以为择优测试提供一个公平的基准测试集。实验分别使用原 DCGAN模型和改

发表于 04-23 11:01 •21次下载

基于生成式对抗网络的图像补全方法

图像补全是数字图像处理领域的重要研究方向，具有广阔的应用前景。提出了一种基于生成式对抗网络（GAN）的图

发表于 05-19 14:38 •14次下载

基于卷积神经网络的图像描述生成方法

图像描述，即利用电脑自动描述图像的语义内容一直是计算机视觉领域的一项重要研究任务。尽管使用卷积神经网络（connal neural netw

发表于 06-03 14:45 •41次下载

KOALA人工智能图像生成模型问世

近日，韩国科学团队宣布研发出名为 KOALA 的新型人工智能图像生成模型，该模型在速度和质量上均实现了显著突破。KOALA 能够在短短 2 秒内生成高质量图片，同时大幅降低了对硬件的需求，为图

发表于 03-05 10:46 •915次阅读

生成式AI的基本原理和应用领域

复杂性和创新性的内容的技术。这种技术不仅限于文本生成，还广泛应用于图像、音频、视频等多个领域。本文将详细探讨生成式AI的原理、关键技术、应用领域

发表于 07-04 11:50 •2272次阅读

Freepik携手Magnific AI推出AI图像生成器

近日，设计资源巨头Freepik携手Magnific AI，共同推出了革命性的AI图像生成器——Freepik Mystic，这一里程碑式的发布标志着AI图像创作

发表于 08-30 16:23 •1283次阅读

AI图像生成公司Midjourney宣布进军硬件领域

AI图像生成领域的佼佼者Midjourney近日宣布了一项重大战略调整，正式进军硬件领域，标志着这家以创新闻名的公司在技术探索上迈出了新的步

发表于 08-30 16:24 •1099次阅读

AI大模型的最新研究进展

AI大模型的最新研究进展体现在多个方面，以下是对其最新进展的介绍：一、技术创新与突破生成式AI技术的爆发：生成式AI技术正在迅速发展

发表于 10-23 15:19 •883次阅读

AIGC生成内容的优势与挑战

处理和计算机视觉等领域的快速发展，AIGC技术已经成为内容创作和分发领域的一个重要趋势。 AIGC生成内容的优势 1. 提高内容生产的效率

发表于 10-25 15:36 •981次阅读

借助谷歌Gemini和Imagen模型生成高质量图像

以获得卓越的视觉效果。这个过程并不止于此；一旦图像生成，Imagen 2 可以进一步优化以满足特定需求，从而创建一

发表于 01-03 10:38 •538次阅读

搜索历史

图像生成领域的一个巨大进展：SAGAN

评论

基于扩散模型的图像生成过程

低质量图像的生成与增强的区别图像生成领域中存在的难点

总结可微图像参数表示的最新进展

图像生成领域的一个巨大进展,BigGAN的效果真的有那么好吗？

一种全新的遥感图像描述生成方法

一种基于改进的DCGAN生成SAR图像的方法

基于生成式对抗网络的图像补全方法

基于卷积神经网络的图像描述生成方法

KOALA人工智能图像生成模型问世

生成式AI的基本原理和应用领域

Freepik携手Magnific AI推出AI图像生成器

AI图像生成公司Midjourney宣布进军硬件领域

AI大模型的最新研究进展

AIGC生成内容的优势与挑战

借助谷歌Gemini和Imagen模型生成高质量图像