0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌大脑打造“以一当十”的GAN:仅用10%标记数据,生成图像却更逼真

DPVg_AI_era 来源:YXQ 2019-03-22 08:53 次阅读

近日,谷歌大脑研究人员提出了一种基于自监督和半监督学习的“条件GAN”,使用的标记数据量大降90%,生成图像的质量比现有全监督最优模型BigGAN高出20%(以FID得分计),有望缓解图像生成和识别领域标记数据量严重不足的问题。

生成对抗网络(GAN)是一类强大的深度生成模型。GAN背后的主要思想是训练两个神经网络:生成器负责学习如何合成数据,而判别器负责学习如何区分真实数据与生成器合成的虚假数据。目前,GAN已成功用于高保真自然图像合成,改善学习图像压缩质量,以及数据增强等任务。

对于自然图像合成任务来说,现有的最优结果是通过条件GAN实现的。与无条件GAN不同,条件GAN在训练期间要使用标签(比如汽车,狗等)。虽然数据标记让图像合成任务变得更容易实现,在性能上获得了显著提升,但是这种方法需要大量标记数据,而在实际任务中很少有大量标记数据可用。

随着ImageNet上训练过程的持续,生成的图像逼真度进步明显

谷歌大脑的研究人员在最近的《用更少的数据标签生成高保真图像》中,提出了一种新方法来减少训练最先进条件GAN所需的标记数据量。文章提出结合大规模GAN的最新进展,将高保真自然图像合成技术与最先进技术相结合,使数据标记数量减少到原来的10%。

在此基础上,研究人员还发布了Compare GAN库的重大更新,其中包含了训练和评估现代GAN所需的所有组件。

利用半监督和自监督方式提升预测性能

条件GAN与基线BigGAN的FID分数对比,图中黑色竖线为BigGAN基线模型(使用全部标记数据)得分。S3GAN在仅使用10%标记数据的情况下,得分比基线模型最优得分高20%

在条件GAN中,生成器和判别器通常都以分类标签为应用条件。现在,研究人员建议使用推断得出的数据标签,来替换手工标记的真实标签。

上行:BigGAN全监督式学习生成的128×128像素最优图像样本。下行为S3GAN生成的图像样本,标记数据量降低了90%,FID得分与BigGAN表现相当

为了推断大型数据集中多数未标记数据的高质量标签,可以采取两步方法:首先,仅使用数据集的未标记部分来学习特征表示。

为了学习特征表示,需要利用新方法,以不同的方法利用自我监督机制:将未标记的图像进行随机旋转,由深度卷积神经网络负责预测旋转角度。这背后的思路是,模型需要能够识别主要对象及其形状,才能在此类任务中获得成功。

对一幅未标记的图像进行随机旋转,网络的任务是预测旋转角度。成功的模型需要捕捉有意义的语义图像特征,这些特征可用于完成其他视觉任务

研究人员将训练网络的一个中间层的激活模式视为输入的新特征表示,并训练分类器,以使用原始数据集的标记部分识别该输入的标签。由于网络经过预训练,可以从数据中提取具有语义意义的特征,因此,训练此分类器比从头开始训练整个网络更具样本效率。最后使用分类器对未标记的数据进行标记。

为了进一步提高模型质量和训练的稳定性,最好让判别器网络学习有意义的特征表示。通过这些改进手段,在加上大规模的训练,使得新的条件GAN在ImageNet图像合成任务上达到了最优性能。

给定潜在向量,由生成器网络生成图像。在每行中,最左侧和最右侧图像的潜在代码之间的线性插值导致图像空间中的语义插值

CompareGAN:用于训练和评估GAN的库

对GAN的前沿研究在很大程度上依赖于经过精心设计和测试的代码库,即使只是复制或再现先前的结果和技术,也需要付出巨大努力。

为了促进开放科学并让研究界从最近的进步中获益,研究人员发布了Compare GAN库的重大更新。该库包括现代GAN中常用的损失函数,正则化和归一化方案,神经架构和量化指标,现已支持:

GPU和TPU训练

通过Gin进行轻量级配置(含实例)

通过TensorFlow数据集库提供大量数据集

未来方向:自监督学习会让GAN更强大

由于标记数据源和未标记数据源之间的差距越来越大,让模型具备从部分标记的数据中学习的能力变得越来越重要。

目前来看,自监督学习和半监督学习的简单而有力的结合,有助于缩小GAN的这一现实差距。自监督是一个值得研究的领域,值得在该领域开展面向其他生成建模任务的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6126

    浏览量

    104900
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1906

    浏览量

    72591

原文标题:谷歌大脑打造“以一当十”的GAN:仅用10%标记数据,生成图像却更逼真

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    沃达丰与谷歌深化年战略合作

    沃达丰近日宣布,其与全球科技巨头谷歌的战略合作伙伴关系得到了进步深化。这为期年的协议,总价值超过10亿美元,旨在将
    的头像 发表于 10-09 16:22 201次阅读

    Freepik携手Magnific AI推出AI图像生成

    近日,设计资源巨头Freepik携手Magnific AI,共同推出了革命性的AI图像生成器——Freepik Mystic,这里程碑式的发布标志着AI图像创作领域迈入了
    的头像 发表于 08-30 16:23 1040次阅读

    深入理解渲染引擎:打造逼真图像的关键

    在数字世界中,图像渲染是创造逼真视觉效果的核心技术。渲染引擎,作为这过程中的关键组件,负责将二维或三维的模型、纹理、光照等数据转化为人们肉眼可见的二维
    的头像 发表于 06-29 08:28 254次阅读
    深入理解渲染引擎:<b class='flag-5'>打造</b><b class='flag-5'>逼真</b><b class='flag-5'>图像</b>的关键

    谷歌发布AI文生图大模型Imagen

    近日,谷歌在人工智能领域取得新突破,正式推出了Imagen文生图模型。这款模型以其卓越的细节调整功能、逼真的光线效果以及从草图快速生成高分辨率图像的能力,引起了业界的广泛关注。
    的头像 发表于 05-16 09:30 457次阅读

    谷歌发布Imagen 3,提升图像文本生成技术

    已为谷歌人工智能研究所DeepMind掌门人的德米斯·哈萨比斯指出,相比于前款Imagen 2,Image 3能够更加精准地解码文字提示信息,并据此创建出更有创造力、细节丰富且出错率较低的图像
    的头像 发表于 05-15 11:24 585次阅读

    深度学习生成对抗网络(GAN)全解析

    GANs真正的能力来源于它们遵循的对抗训练模式。生成器的权重是基于判别器的损失所学习到的。因此,生成器被它生成图像所推动着进行训练,很难知道生成
    发表于 03-29 14:42 4266次阅读
    深度学习<b class='flag-5'>生成</b>对抗网络(<b class='flag-5'>GAN</b>)全解析

    麻省理工与Adobe新技术DMD提升图像生成速度

    2023年3月27日,据传,新型文生图算法虽然使得图像生成无比逼真,但奈何运行速度较慢。近期,美国麻省理工学院联合Adobe推出新型DMD方法,仅略微牺牲图像质量就大幅度提高
    的头像 发表于 03-27 14:17 462次阅读

    谷歌计划重新推出改进后的Gemini AI模型人像生成功能

    谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露,公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前,由于在某些历史图像生成描述中出现
    的头像 发表于 02-28 10:17 516次阅读

    谷歌暂停Gemini人像生成服务

    尽管谷歌团队于今年初就推介了这个GPU加速的人脸生成项目,但仍有部分用户反映出生成的历史名人形象存在着错误,因此决定实行技术停摆,并谋划对这功能进行调整和优化。
    的头像 发表于 02-27 14:16 433次阅读

    谷歌Gemini AI模型因人物图像生成问题暂停运行

    据报道,部分用户发现Gemini生成的图片存在明显错误,如特斯拉创始人和其他名人变成了黑人模样。谷歌已决定暂停该模型的人物图像生成功能以待改善。
    的头像 发表于 02-25 09:59 512次阅读

    谷歌推出图像生成新工具ImageFX,提升图像质量

    作为实验室的新兴工具,ImageFX 允许用户借助简洁的文字指令来创作图像。经过前期试验,该团队认为对生成型人工智能工具来说最关键的是如何启发并鼓励用户挖掘和实践创意想法。
    的头像 发表于 02-02 14:18 592次阅读

    二值图像连通区域的标记原理

    二值图像种由黑白两色组成的图像,其像素值只有两种可能,分别对应黑色和白色。在二值图像中,连通区域是指块相邻的、像素值相同的区域。为了对
    的头像 发表于 01-05 14:28 740次阅读

    图像标注如何提升效率?

    图像标注是通过定方式对图像进行标记分类,是对数据集的图像进行
    的头像 发表于 12-19 08:29 425次阅读
    <b class='flag-5'>图像</b>标注如何提升效率?

    香港大学最新提出!实现超现实的人类图像生成:HyperHuman

    最后,为了进步提高视觉质量,我们提出了种结构引导细化器来组合预测条件,以更详细地生成更高分辨率。大量的实验表明,我们的框架具有最先进的性能,可以在不同的场景下生成
    的头像 发表于 11-27 16:03 706次阅读
    香港大学最新提出!实现超现实的人类<b class='flag-5'>图像</b><b class='flag-5'>生成</b>:HyperHuman

    谷歌新作UFOGen:通过扩散GAN实现大规模文本到图像生成

    扩散模型和 GAN 的混合模型最早是英伟达的研究团队在 ICLR 2022 上提出的 DDGAN(《Tackling the Generative Learning Trilemma with Denoising Diffusion GANs》)。其灵感来自于普通扩散模型对降噪分布进行高斯假设的根本缺陷。
    的头像 发表于 11-21 16:02 575次阅读
    <b class='flag-5'>谷歌</b>新作UFOGen:通过扩散<b class='flag-5'>GAN</b>实现大规模文本到<b class='flag-5'>图像</b><b class='flag-5'>生成</b>