0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GAN又开辟了新疆界,MirrorGAN有多强?

DPVg_AI_era 来源:lp 2019-03-18 10:03 次阅读

浙大、悉尼大学等高校研究员提出MirrorGAN,作为全局-局部注意和语义保持的文本-图像-文本框架,解决文本描述和视觉内容之间的语义一致性问题,并在COCO数据集上刷新了记录。

GAN又开辟了新疆界。

去年英伟达的StyleGAN在生成高质量和视觉逼真的图像,骗过了无数双眼睛,随后一大批假脸、假猫、假房源随之兴起,可见GAN的威力。

StyleGAN生成假脸

虽然GAN在图像方面已经取得了重大进展,但是保证文本描述和视觉内容之间的语义一致性上仍然是非常具有挑战性的。

最近,来自浙江大学、悉尼大学等高校的研究人员,提出一种新颖的全局-局部注意和语义保持的文本-图像-文本(text-to-image-to-text)框架来解决这个问题,这种框架称为MirrorGAN。

MirrorGAN有多强?

在目前较为主流的数据集COCO数据集和CUB鸟类数据集上,MirrorGAN都取得了最好成绩。

目前,论文已被CVPR2019接收。

MirrorGAN:解决文本和视觉之间语义一致性

文本生成图像(T2I)在许多应用领域具有巨大的潜力,已经成为自然语言处理和计算机视觉领域的一个活跃的研究领域。

与基本图像生成问题相反,T2I生成以文本描述为条件,而不是仅从噪声开始。利用GAN的强大功能,业界已经提出了不同的T2I方法来生成视觉上逼真的和文本相关的图像。这些方法都利用鉴别器来区分生成的图像和相应的文本对以及ground-truth图像和相应的文本对。

然而,由于文本和图像之间的区域差异,当仅依赖于这样的鉴别器时,对每对内的基础语义一致性进行建模是困难且低效的。

近年来,针对这一问题,人们利用注意机制来引导生成器在生成不同的图像区域时关注不同的单词。然而,由于文本和图像模式的多样性,仅使用单词级的注意并不能确保全局语义的一致性。如图1(b)所示:

图1 (a)镜像结构的说明,体现了通过重新描述学习文本到图像生成的思想;(b)-(c)前人的研究成果与本文提出的MirrorGAN分别生成的语义不一致和一致的图像/重新描述。

T2I生成可以看作是图像标题(或图像到文本生成,I2T)的逆问题,它生成给定图像的文本描述。考虑到处理每个任务都需要对这两个领域的底层语义进行建模和对齐,因此在统一的框架中对这两个任务进行建模以利用底层的双重规则是自然和合理的。

如图1 (a)和(c)所示,如果T2I生成的图像在语义上与给定的文本描述一致,则I2T对其重新描述应该与给定的文本描述具有完全相同的语义。换句话说,生成的图像应该像一面镜子,准确地反映底层文本语义。

基于这一观察结果,论文提出了一个新的文本-图像-文本的框架——MirrorGAN来改进T2I生成,它利用了通过重新描述学习T2I生成的思想。

解剖MirrorGAN三大核心模块

对于T2I这一任务来说,主要的目标有两个:

视觉真实性;

语义

且二者需要保持一致性。

MirrorGAN利用了“文本到图像的重新描述学习生成”的思想,主要由三个模块组成:

语义文本嵌入模块(STEM);

级联图像生成的全局-局部协同关注模块(GLAM);

语义文本再生与对齐模块(STREAM)。

STEM生成单词级和句子级的嵌入;GLAM有一个级联的架构,用于从粗尺度到细尺度生成目标图像,利用局部词注意和全局句子注意,逐步增强生成图像的多样性和语义一致性;STREAM试图从生成的图像中重新生成文本描述,该图像在语义上与给定的文本描述保持一致。

图2 MirrorGAN原理图

如图2所示,MirrorGAN通过集成T2I和I2T来体现镜像结构。

它利用了通过重新描述来学习T2I生成的想法。 生成图像后,MirrorGAN会重新生成其描述,该描述将其基础语义与给定的文本描述对齐。

以下是MirrorGAN三个模块组成:STEM,GLAM和STREAM。

STEM:语义文本嵌入模块

首先,引入语义文本嵌入模块,将给定的文本描述嵌入到局部词级特征和全局句级特征中。

如图2最左边所示(即上图),使用一个递归神经网络(RNN)从给定的文本描述中提取语义嵌入T,包括一个嵌入w的单词和一个嵌入s的句子。

GLAM:级联图像生成的全局-局部协同关注模块

接下来,通过连续叠加三个图像生成网络,构造了一个多级级联发生器。

本文采用了《Attngan: Fine-grained text to image generation with attentional generative adversarial networks》中描述的基本结构,因为它在生成逼真的图像方面有很好的性能。

使用{F0,F1,…,Fm-1}来表示m个视觉特征变换器,并使用{G0,G1,…,Gm-1}来表示m个图像生成器。 每个阶段中的视觉特征Fi和生成的图像Ii可以表示为:

STREAM:语义文本再生与对齐模块

如上所述,MirrorGAN包括语义文本再生和对齐模块(STREAM),以从生成的图像重新生成文本描述,其在语义上与给定的文本描述对齐。

具体来说,采用了广泛使用的基于编码器解码器的图像标题框架作为基本的STREAM架构。

图像编码器是在ImageNet上预先训练的卷积神经网络(CNN),解码器是RNN。由末级生成器生成的图像Im-1输入CNN编码器和RNN解码器如下:

实验结果:COCO数据集上成绩最佳

那么,MirrorGAN的性能有多强呢?

首先来看一下MirrorGAN与其它最先进的T2I方法的比较,包括GAN-INT-CLS、GAWWN、StackGAN、StackGAN ++ 、PPGN和AttnGAN。

所采用的数据集是目前较为主流的数据集,分别是COCO数据集和CUB鸟类数据集:

CUB鸟类数据集包含8,855个训练图像和2,933个属于200个类别的测试图像,每个鸟类图像有10个文本描述;

OCO数据集包含82,783个训练图像和40,504个验证图像,每个图像有5个文本描述。

结果如表1所示:

表1 在CUB和COCO数据集上,MirrorGAN和其它先进方法的结果比较

表2展示了AttnGAN和MirrorGAN在CUB和COCO数据集上的R精度得分。

表2 在CUB和COCO数据集上,MirrorGAN和AttnGAN的R精度得分。

在所有实验比较中,MirrorGAN都表现出了更大的优势,这表明了本文提出的文本到图像到文本的框架和全局到本地的协作关注模块的优越性,因为MirrorGAN生成的高质量图像具有与输入文本描述一致的语义。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1913

    浏览量

    72847
  • 鉴别器
    +关注

    关注

    0

    文章

    8

    浏览量

    8752
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24628

原文标题:MirrorGAN出世!浙大等提出文本-图像新框架,刷新COCO纪录

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    下班

    下班,刚毕业的很苦逼,对不起你,USC///
    发表于 01-08 20:43

    小刘老师,我是新疆的学生,但是看你好多资料都是网盘下载新疆无法用网盘下载啊

    小刘老师,我是新疆的学生,但是看你好多资料都是网盘下载新疆无法用网盘下载啊?还有其他的办法么?
    发表于 12-11 11:55

    小刘老师,我是新疆的学生,但是看你好多资料都是网盘下载新疆无法用网盘下载啊?还有其他的办法么?

    小刘老师,我是新疆的学生,但是看你好多资料都是网盘下载新疆无法用网盘下载啊?还有其他的办法么?
    发表于 12-11 12:38

    TI助力GaN技术的推广应用

    全新的电源应用在同等的电压下以更高的转换频率运行。这意味着,在同样的条件下,GaN可实现比基于硅材料的解决方案更高的效率。TI日前发布LMG5200,随着这款全集成式原型机的推出,工程师们能够轻松地将
    发表于 09-10 15:02

    51单片机如何开辟栈空间?

    新唐N76E003可以开辟256byte的局部数组,但是我想知道51单片机和STM32的区别,STM32的栈空间是自己设置的,局部变量存放在栈中,如果局部变量定义的变量大于开辟的栈的大小,就会覆盖
    发表于 12-07 09:33

    基于GaN的开关器件

    和电机控制中。他们的接受度和可信度正在逐渐提高。(请注意,基于GaN的射频功放或功放也取得了很大的成功,但与GaN器件具有不同的应用场合,超出了本文的范围。)本文探讨了GaN器件的潜力,GaN
    发表于 06-21 08:27

    2020年河北gan部网络学院开始

    2020年河北gan部网络学院开始,预约学习可联系我
    发表于 02-21 20:43

    新疆红枣质量认证+区块链溯源解决方案

    最近新疆棉花事件引发众人高度的关注,据新闻报告显示新疆某商场要求H&M撤离,成都大悦城将H&M的商标摘下。然而,新疆不止有棉花,还有肉制品、馕、水果主要有:库尔勒香梨、哈密瓜
    发表于 04-03 15:19

    DMA开辟缓存怎么使用动态内存?

    开辟20kb左右的缓存空间,如果直接用全局变量数组,在不需要用到DMA时,那这20k的内存就一直不能释放,好浪费。若使用malloc来开辟动态内存,应该是放在堆区吧?堆区不是默认只有512字节?还要修改启动文件的堆大小?
    发表于 10-23 06:53

    rt1052性能有多强

    rt1052性能有多强
    发表于 10-27 06:17

    新疆为什么禁飞无人机_新疆无人机禁飞区域

    本文开始对无人机进行了简单介绍,其次阐述新疆为什么禁飞无人机及新疆无人机禁飞的区域,最后介绍了无人机大陆禁飞区的查询方法。
    发表于 03-06 13:36 5.7w次阅读

    新疆联通携手国网新疆电力成功在电力铁塔上部署5G基站

    为快速部署5G网络,新疆联通联合国网新疆电力在±1100千伏昌吉换流站开展5G基站建设。此次在昌吉换流站及其外送输电铁塔率先开展的基于NSA方式的5G基站建设,实现5G信号扇区覆盖。
    发表于 09-03 10:22 2476次阅读

    GaN 为电源应用开辟新领域

    氮化镓 (GaN) 是一种宽带隙 (WBG) 半导体,在长期以来由传统硅 (Si) 基组件主导的多种电源应用中正在获得动力。高效率、在比硅更高的开关频率和温度下工作的能力以及占用空间小是使这种
    发表于 08-04 15:11 608次阅读
    <b class='flag-5'>GaN</b> 为电源应用<b class='flag-5'>开辟</b><b class='flag-5'>了</b>新领域

    内窥镜成像探头为更广泛的成像应用开辟道路

    研究人员表示,内窥镜成像探头,特别是用于侧视的探头,结合梯度折射率(GRIN)光纤和球面透镜,“在一定范围内,不同孔径的探头均表现出优异的性能,为更广泛的成像应用开辟道路”。内窥镜成像探头的性能可与常用的单聚焦元件探头相媲美
    的头像 发表于 11-07 10:07 810次阅读

    Molex莫仕连接器的功能究竟有多强大?看他们的行业应用你就知道

    KOYUELEC光与电子:Molex莫仕连接器的功能究竟有多强大?看他们的行业应用你就知道
    的头像 发表于 12-31 12:30 1w次阅读