当前生成图像最逼真的BigGAN被谷歌超越!造假效果更为逼真-电子发烧友网

当前生成图像最逼真的BigGAN被超越了!

出手的，是谷歌大脑和苏黎世联邦理工学院。他们提出了新一代GAN：S³GAN。

它们生成的照片，都是真假难辨。

下面这两只蝴蝶，哪只更生动?

两张风景照片，哪张更真实?

难以抉择也正常，反正都是假的。上面的照骗，都是左边出自S³GAN，右边的出自BigGAN之手。

它们还有更多作品：

至于哪些是S³GAN，答案文末揭晓。

肉眼难分高下，就用数据说话。跑个FID(Frechet Inception Distance)得分，分值越低，就表示这些照骗，越接近人类认识里的真实照片——

S³GAN是8.0分，而BigGAN是8.4分。新选手略微胜出。

你可还记得BigGAN问世之初，直接将图像生成的逼真度提高了一个Level，引来Twitter上花样赞赏?

如今它不止被超越，而且是被轻松超越。

“轻松”在哪呢?

S³GAN达到这么好的效果，只用了10%的人工标注数据。而老前辈BigGAN，训练所用的数据100%是人工标注过的。

如果用上20%的标注数据，S³GAN的效果又会更上一层楼。

标注数据的缺乏，已经是帮GAN提高生成能力，拓展使用场景的一大瓶颈。如今，这个瓶颈已经几乎被打破。

现在的S³GAN，只经过了ImageNet的实验，是实现用更少标注数据训练生成高保真图像的第一步。

接下来，作者们想要把这种技术应用到“更大”和“更多样化”的数据集中。

不用标注那么多

为什么训练GAN生成图像，需要大量数据标注呢?

GAN有生成器、判别器两大组件。

其中判别器要不停地识破假图像，激励生成器拿出更逼真的图像。

而图像的标注，就是给判别器做判断依据的。比如，这是真的猫，这是真的狗，这是真的汉堡……这是假图。

可是，没有那么多标注数据怎么办?

谷歌和ETH苏黎世的研究人员，决定训练AI自己标注图像，给判别器食用。

自监督 vs 半监督

要让判别器自己标注图像，有两种方法。

一是自监督方法，就是给判别器加一个特征提取器 (Feature Extractor) ，从没有标注的真实训练数据里面，学到它们的表征 (Feature Representation) 。

对这个表征做聚类 (Clustering) ，然后把聚类的分配结果，当成标注来用。

这里的训练，用的是自监督损失函数。

二是半监督方法，也要做特征提取器，但比上一种方法复杂一点点。

在训练集的一个子集已经标注过的情况下，根据这些已知信息来学习表征，同时训练一个线性分类器 (Linear Classifier) 。

这样，损失函数会在自监督的基础上，再加一项半监督的交叉熵损失 (Cross-Entropy Loss) 。

预训练了特征提取器，就可以拿去训练GAN了。这个用一小部分已知标注养成的GAN，叫做S²GAN。

不过，预训练也不是唯一的方法。

想要双管齐下，可以用协同训练 (Co-Training) ：

直接在判别器的表征上面，训练一个半监督的线性分类器，用来预测没有标注的图像。这个过程，和GAN的训练一同进行。

这样就有了S²GAN的协同版，叫S²GAN-CO。

升级一波

然后，团队还想让S²GAN变得更强大，就在GAN训练的稳定性上面花了心思。

研究人员说，判别器自己就是一个分类器嘛，如果把这个分类器扩增 (Augmentation) 一下，可能疗效上佳。

于是，他们给了分类器一个额外的自监督任务，就是为旋转扩增过的训练集 (包括真图和假图) ，做个预测。

再把这个步骤，和前面的半监督模型结合起来，GAN的训练变得更加稳定，就有了升级版S³GAN：

架构脱胎于BigGAN

不管是S²GAN还是S³GAN，都借用了前辈BigGAN的网络架构，用的优化超参数也和前辈一样。

不同的是，这个研究中，没有使用正交正则化 (Orthogonal Regularization) ，也没有使用截断 (Truncation) 技巧。

△BigGAN的生成器和鉴别器架构图

训练的数据集，来自ImageNet，其中有130万训练图像和5万测试图像，图像中共有1000个类别。

图像尺寸被调整成了128×128×3，在每个类别中随机选择k%的样本，来获取半监督方法中的使用的部分标注数据集。

最后，在128核的Google TPU v3 Pod进行训练。

超越BigGAN

研究对比的基线，是DeepMind的BigGAN，当前记录的保持者，FID得分为7.4。

不过，他们在ImageNet上自己实现的BigGAN，FID为8.4，IS为75，并以此作为了标准。

在这个图表中，S²GAN是半监督的预训练方法。S²GAN-CO是半监督的协同训练方法。

S³GAN，是S²GAN加上一个自监督的线性分类器 (把数据集旋转扩增之后再拿给它分类) 。

其中，效果最好的是S³GAN，只使用10%由人工标注的数据，FID得分达到8.0，IS得分为78.7，表现均优于BigGAN。

如果你对这项研究感兴趣，请收好传送门：

论文：

High-Fidelity Image Generation With Fewer Labels

https://arxiv.org/abs/1903.02271

文章开头的这些照骗展示，就出自论文之中：

第一行是BigGAN作品，第二行是S³GAN新品，你猜对了吗?

另外，他们还在GitHub上开源了论文中实验所用全部代码：

https://github.com/google/compare_gan

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6139

浏览量
105059
图像

图像

+关注

关注
2

文章
1083

浏览量
40410

原文标题：史上最强GAN被谷歌超越！标注数据少用90%，造假效果却更逼真

文章出处：【微信号：WW_CGQJS，微信公众号：传感器技术】欢迎添加关注！文章转载请注明出处。

深入理解渲染引擎：打造逼真图像的关键

在数字世界中，图像渲染是创造逼真视觉效果的核心技术。渲染引擎，作为这一过程中的关键组件，负责将二维或三维的模型、纹理、光照等数据转化为人们肉眼可见的二维图像。本文将深入探讨渲染引擎的工

发表于 06-29 08:28 •285次阅读

深入理解渲染引擎：打造<b class='flag-5'>逼真</b><b class='flag-5'>图像</b>的关键

谷歌和Meta希望与好莱坞合作获得授权内容

据知情人士透露，谷歌母公司Alphabet和Meta正与好莱坞主要电影公司洽谈，旨在获得电影IP的授权，用于其人工智能视频生成软件。这两家科技巨头正积极开发新技术，能够根据文本提示创建逼真的场景。

发表于 05-27 09:52 •352次阅读

谷歌发布AI文生图大模型Imagen

近日，谷歌在人工智能领域取得新突破，正式推出了Imagen文生图模型。这款模型以其卓越的细节调整功能、逼真的光线效果以及从草图快速生成高分辨率图像

发表于 05-16 09:30 •473次阅读

深度学习生成对抗网络（GAN）全解析

GANs真正的能力来源于它们遵循的对抗训练模式。生成器的权重是基于判别器的损失所学习到的。因此，生成器被它生成的图像所推动着进行训练，很难知

发表于 03-29 14:42 •4340次阅读

麻省理工与Adobe新技术DMD提升图像生成速度

2023年3月27日，据传，新型文生图算法虽然使得图像生成无比逼真，但奈何运行速度较慢。近期，美国麻省理工学院联合Adobe推出新型DMD方法，仅略微牺牲图像质量就大幅度提高

发表于 03-27 14:17 •477次阅读

谷歌计划重新推出改进后的Gemini AI模型人像生成功能

谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露，公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前，由于在某些历史图像生成描述中出现

发表于 02-28 10:17 •540次阅读

谷歌Gemini AI模型因人物图像生成问题暂停运行

据报道，部分用户发现Gemini生成的图片存在明显错误，如特斯拉创始人和其他名人变成了黑人模样。谷歌已决定暂停该模型的人物图像生成功能以待改善。

发表于 02-25 09:59 •544次阅读

鸿蒙开发图形图像——@ohos.effectKit (图像效果)

图像效果提供处理图像的一些基础能力，包括对当前图像的亮度调节、模糊化、灰度调节、智能取色等。该模块提供以下

发表于 02-22 16:08 •353次阅读

OpenAI发布文生视频模型Sora，引领AI视频生成新纪元

在人工智能(AI)领域掀起新一轮革命浪潮的，正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型，以其“逼真”和“富有想象力”的视频生成能力，彻底颠覆了传统视频生成

发表于 02-19 11:03 •880次阅读

谷歌地图引入生成式AI功能

谷歌近日宣布，在其广受欢迎的谷歌地图应用中引入了全新的生成式AI功能。这一创新功能利用大型模型，深入分析了地图上超过2.5亿个地点的详细信息，并结合了超过3亿贡献者的社区意见，为用户提供更为

发表于 02-06 16:42 •5020次阅读

谷歌推出图像生成新工具ImageFX，提升图像质量

作为实验室的新兴工具，ImageFX 允许用户借助简洁的文字指令来创作图像。经过前期试验，该团队认为对生成型人工智能工具来说最关键的是如何启发并鼓励用户挖掘和实践创意想法。

发表于 02-02 14:18 •610次阅读

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！

因此，本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此，他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型，能直接根据模型文字或单张图片的输入，生成 3D NeRF。在单个 A100 GPU 上，仅

发表于 01-30 16:20 •798次阅读

何恺明新作RCG：无自条件图像生成新SOTA！与MIT首次合作！

它有望超越条件图像生成，并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展（这也是为什么条件生成图像发展得这么好，我们还要重视无

发表于 12-10 10:24 •895次阅读

阿迪达斯与 Covision Media 使用 AI 和 NVIDIA RTX 创建逼真的 3D 内容

Covision 的基于 AI 的 3D 技术可帮助企业扫描数千种产品，为网站和移动应用创建逼真的 3D 图像、视频和 AR 体验。将实体产品扫描成 3D 模型是一项十分耗时的工作。企业通常

发表于 11-28 18:45 •620次阅读

香港大学最新提出！实现超现实的人类图像生成：HyperHuman

最后，为了进一步提高视觉质量，我们提出了一种结构引导细化器来组合预测条件，以更详细地生成更高分辨率。大量的实验表明，我们的框架具有最先进的性能，可以在不同的场景下生成超逼真的人类图像。

发表于 11-27 16:03 •718次阅读