谷歌大脑打造“以一当十”的GAN：仅用10%标记数据，生成图像却更逼真-电子发烧友网

近日，谷歌大脑研究人员提出了一种基于自监督和半监督学习的“条件GAN”，使用的标记数据量大降90%，生成图像的质量比现有全监督最优模型BigGAN高出20%（以FID得分计），有望缓解图像生成和识别领域标记数据量严重不足的问题。

生成对抗网络（GAN）是一类强大的深度生成模型。GAN背后的主要思想是训练两个神经网络：生成器负责学习如何合成数据，而判别器负责学习如何区分真实数据与生成器合成的虚假数据。目前，GAN已成功用于高保真自然图像合成，改善学习图像压缩质量，以及数据增强等任务。

对于自然图像合成任务来说，现有的最优结果是通过条件GAN实现的。与无条件GAN不同，条件GAN在训练期间要使用标签（比如汽车，狗等）。虽然数据标记让图像合成任务变得更容易实现，在性能上获得了显著提升，但是这种方法需要大量标记数据，而在实际任务中很少有大量标记数据可用。

随着ImageNet上训练过程的持续，生成的图像逼真度进步明显

谷歌大脑的研究人员在最近的《用更少的数据标签生成高保真图像》中，提出了一种新方法来减少训练最先进条件GAN所需的标记数据量。文章提出结合大规模GAN的最新进展，将高保真自然图像合成技术与最先进技术相结合，使数据标记数量减少到原来的10%。

在此基础上，研究人员还发布了Compare GAN库的重大更新，其中包含了训练和评估现代GAN所需的所有组件。

利用半监督和自监督方式提升预测性能

条件GAN与基线BigGAN的FID分数对比，图中黑色竖线为BigGAN基线模型（使用全部标记数据）得分。S3GAN在仅使用10%标记数据的情况下，得分比基线模型最优得分高20%

在条件GAN中，生成器和判别器通常都以分类标签为应用条件。现在，研究人员建议使用推断得出的数据标签，来替换手工标记的真实标签。

上行：BigGAN全监督式学习生成的128×128像素最优图像样本。下行为S3GAN生成的图像样本，标记数据量降低了90%，FID得分与BigGAN表现相当

为了推断大型数据集中多数未标记数据的高质量标签，可以采取两步方法：首先，仅使用数据集的未标记部分来学习特征表示。

为了学习特征表示，需要利用新方法，以不同的方法利用自我监督机制：将未标记的图像进行随机旋转，由深度卷积神经网络负责预测旋转角度。这背后的思路是，模型需要能够识别主要对象及其形状，才能在此类任务中获得成功。

对一幅未标记的图像进行随机旋转，网络的任务是预测旋转角度。成功的模型需要捕捉有意义的语义图像特征，这些特征可用于完成其他视觉任务

研究人员将训练网络的一个中间层的激活模式视为输入的新特征表示，并训练分类器，以使用原始数据集的标记部分识别该输入的标签。由于网络经过预训练，可以从数据中提取具有语义意义的特征，因此，训练此分类器比从头开始训练整个网络更具样本效率。最后使用分类器对未标记的数据进行标记。

为了进一步提高模型质量和训练的稳定性，最好让判别器网络学习有意义的特征表示。通过这些改进手段，在加上大规模的训练，使得新的条件GAN在ImageNet图像合成任务上达到了最优性能。

给定潜在向量，由生成器网络生成图像。在每行中，最左侧和最右侧图像的潜在代码之间的线性插值导致图像空间中的语义插值

CompareGAN：用于训练和评估GAN的库

对GAN的前沿研究在很大程度上依赖于经过精心设计和测试的代码库，即使只是复制或再现先前的结果和技术，也需要付出巨大努力。

为了促进开放科学并让研究界从最近的进步中获益，研究人员发布了Compare GAN库的重大更新。该库包括现代GAN中常用的损失函数，正则化和归一化方案，神经架构和量化指标，现已支持：

GPU和TPU训练

通过Gin进行轻量级配置（含实例）

通过TensorFlow数据集库提供大量数据集

未来方向：自监督学习会让GAN更强大

由于标记数据源和未标记数据源之间的差距越来越大，让模型具备从部分标记的数据中学习的能力变得越来越重要。

目前来看，自监督学习和半监督学习的简单而有力的结合，有助于缩小GAN的这一现实差距。自监督是一个值得研究的领域，值得在该领域开展面向其他生成建模任务的研究。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6178

浏览量
105713
GaN

GaN

+关注

关注
19

文章
1952

浏览量
73829

原文标题：谷歌大脑打造“以一当十”的GAN：仅用10%标记数据，生成图像却更逼真

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

借助谷歌Gemini和Imagen模型生成高质量图像

在快速发展的生成式 AI 领域，结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示，然后使用 Imagen 3 模型根据这些提示生成高质量的图像

发表于 01-03 10:38 •375次阅读

沃达丰与谷歌深化十年战略合作

沃达丰近日宣布，其与全球科技巨头谷歌的战略合作伙伴关系得到了进一步深化。这一为期十年的协议，总价值超过10亿美元，旨在将

发表于 10-09 16:22 •281次阅读

Freepik携手Magnific AI推出AI图像生成器

近日，设计资源巨头Freepik携手Magnific AI，共同推出了革命性的AI图像生成器——Freepik Mystic，这一里程碑式的发布标志着AI图像创作领域迈入了

发表于 08-30 16:23 •1167次阅读

深入理解渲染引擎：打造逼真图像的关键

在数字世界中，图像渲染是创造逼真视觉效果的核心技术。渲染引擎，作为这一过程中的关键组件，负责将二维或三维的模型、纹理、光照等数据转化为人们肉眼可见的二维

发表于 06-29 08:28 •355次阅读

谷歌发布AI文生图大模型Imagen

近日，谷歌在人工智能领域取得新突破，正式推出了Imagen文生图模型。这款模型以其卓越的细节调整功能、逼真的光线效果以及从草图快速生成高分辨率图像的能力，引起了业界的广泛关注。

发表于 05-16 09:30 •559次阅读

谷歌发布Imagen 3，提升图像文本生成技术

已为谷歌人工智能研究所DeepMind掌门人的德米斯·哈萨比斯指出，相比于前款Imagen 2，Image 3能够更加精准地解码文字提示信息，并据此创建出更有创造力、细节丰富且出错率较低的图像。

发表于 05-15 11:24 •712次阅读

OpenAI发布图像检测分类器，可区分AI生成图像与实拍照片

据OpenAI介绍，初步测试结果表明，该分类器在辨别非AI生成图像与DALL·E 3生成图像时，成功率高达近98%，仅有不到0.5%的非AI图像

发表于 05-09 09:57 •491次阅读

深度学习生成对抗网络（GAN）全解析

GANs真正的能力来源于它们遵循的对抗训练模式。生成器的权重是基于判别器的损失所学习到的。因此，生成器被它生成的图像所推动着进行训练，很难知道生成

发表于 03-29 14:42 •4679次阅读

麻省理工与Adobe新技术DMD提升图像生成速度

2023年3月27日，据传，新型文生图算法虽然使得图像生成无比逼真，但奈何运行速度较慢。近期，美国麻省理工学院联合Adobe推出新型DMD方法，仅略微牺牲图像质量就大幅度提高

发表于 03-27 14:17 •541次阅读

谷歌模型怎么PS打开文件格式不变

要将谷歌模型与Photoshop结合使用，并保持文件格式不变，这通常涉及将谷歌模型生成的图像或图形导入到Photoshop中进行进一步编辑或

发表于 02-29 18:09 •912次阅读

谷歌计划重新推出改进后的Gemini AI模型人像生成功能

谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露，公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前，由于在某些历史图像生成描述中出现

发表于 02-28 10:17 •629次阅读

谷歌暂停Gemini人像生成服务

尽管谷歌团队于今年初就推介了这个GPU加速的人脸生成项目，但仍有部分用户反映出生成的历史名人形象存在着错误，因此决定实行技术停摆，并谋划对这一功能进行调整和优化。

发表于 02-27 14:16 •530次阅读

谷歌Gemini AI模型因人物图像生成问题暂停运行

据报道，部分用户发现Gemini生成的图片存在明显错误，如特斯拉创始人和其他名人变成了黑人模样。谷歌已决定暂停该模型的人物图像生成功能以待改善。

发表于 02-25 09:59 •615次阅读

谷歌地图引入生成式AI功能

谷歌近日宣布，在其广受欢迎的谷歌地图应用中引入了全新的生成式AI功能。这一创新功能利用大型模型，深入分析了地图上超过2.5亿个地点的详细信息，并结合了超过3亿贡献者的社区意见，为用户提

发表于 02-06 16:42 •5109次阅读

谷歌推出图像生成新工具ImageFX，提升图像质量

作为实验室的新兴工具，ImageFX 允许用户借助简洁的文字指令来创作图像。经过前期试验，该团队认为对生成型人工智能工具来说最关键的是如何启发并鼓励用户挖掘和实践创意想法。

发表于 02-02 14:18 •712次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

谷歌大脑打造“以一当十”的GAN：仅用10%标记数据，生成图像却更逼真

评论

借助谷歌Gemini和Imagen模型生成高质量图像

沃达丰与谷歌深化十年战略合作

Freepik携手Magnific AI推出AI图像生成器

深入理解渲染引擎：打造逼真图像的关键

谷歌发布AI文生图大模型Imagen

谷歌发布Imagen 3，提升图像文本生成技术

OpenAI发布图像检测分类器，可区分AI生成图像与实拍照片

深度学习生成对抗网络（GAN）全解析

麻省理工与Adobe新技术DMD提升图像生成速度

谷歌模型怎么PS打开文件格式不变

谷歌计划重新推出改进后的Gemini AI模型人像生成功能

谷歌暂停Gemini人像生成服务

谷歌Gemini AI模型因人物图像生成问题暂停运行

谷歌地图引入生成式AI功能

谷歌推出图像生成新工具ImageFX，提升图像质量