不会PS还想做图?微软、京东出黑科技:说一句话就能生成图片!-电子发烧友网

微软和京东最近出了一个黑科技：说一句话就能生成图片！在这项研究中，研究人员提出了一种新的机器学习框架——ObjGAN，可以通过关注文本描述中最相关的单词和预先生成的语义布局（semantic layout）来合成显著对象。

不会PS还想做图？可以的！

近期，由纽约州立大学奥尔巴尼分校、微软研究院和京东AI研究院合作的一篇文章就可以实现这个需求：只需要输入一句话，就可以生成图片！

输入：

输出：

在这项研究中，研究人员提出了一种新的机器学习框架——ObjGAN，可以通过关注文本描述中最相关的单词和预先生成的语义布局（semantic layout）来合成显著对象。

此外，他们还提出了一种新的基于Fast R-CNN的关于对象（object-wise）鉴别器，用来提供关于合成对象是否与文本描述和预先生成的布局匹配的对象识别信号。

论文地址：

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

这项工作已经发表在计算机视觉和模式识别领域顶会CVPR 2019。

这篇论文的合著作者表示，与之前最先进的技术相比，他们的方法大大提高了图像质量：

我们的生成器能够利用细粒度的单词和对象级（object-level）信息逐步细化合成图像。

大量的实验证明了ObjGAN在复杂场景的文本到图像生成方面的有效性和泛化能力。

一句话秒生成图片！

根据文本的描述来生成图像，可以说是机器学习中一项非常重要的任务。

这项任务需要处理自然语言描述中模糊和不完整的信息，并且还需要跨视觉和语言模式来进行学习。

自从GAN提出后，这项任务在结果上取得了较好的成绩，但是目前这些基于GAN的方法有一个缺点：

大多数图像合成方法都是基于全局句子向量来合成图像，而全局句子向量可能会丢失单词级别（word-level）的重要细粒度信息，从而阻碍高质量图像的生成。

大多数方法都没有在图像中明确地建模对象及其关系，因此难以生成复杂的场景。

图1 顶部：AttnGAN及其网格注意力可视化；中部：修改前人工作的结果；底部：ObjGAN及其对象驱动的注意力可视化

举个例子，如果要根据“几个人穿滑雪服的人在雪地里”这句话生成一张图片，那么需要对不同的对象（人、滑雪服）及其交互（穿滑雪服的人）进行建模，还需要填充缺失的信息（例如背景中的岩石）。

图1的第一行是由AttnGAN生成的图像，虽然图像中包含了人和雪的纹理，但是人的形状是扭曲的，图像布局在语义上是没有意义的。

为了解决这个问题，首先从文本构造语义布局，然后通过反卷积图像生成器合成图像。

从图1的中间一行可知，虽然细粒度的word/objectlevel信息仍然没有很好的用于生成。因此，合成的图像没有包含足够的细节让它们看起来更加真实。

本研究的目标就是生成具有语义意义（semantically meaningful）的布局和现实对象的高质量复杂图像。

为此，研究人员提出了一种新颖的对象驱动的注意力生成对抗网络（Object-driven Attentive Generative Adversarial Networks，Obj-GAN），该网络能够有效地捕获和利用细粒度的word/objectlevel信息进行文本到图像的合成。

ObjGAN由一对儿对象驱动的注意力图像生成器和object-wise判别器组成，并采用了一种新的对象驱动注意机制。

图2 对象驱动的注意力图像生成器

图3 Object-wise判别器

该图像生成器以文本描述和预先生成的语义布局为输入，通过多阶段由粗到精的过程合成高分辨率图像。

在每个阶段，生成器通过关注与该边界框中的对象最相关的单词来合成边界框内的图像区域，如图1的底部行所示。

更具体地说，它使用一个新的对象驱动的注意层，使用类标签查询句子中的单词，形成一个单词上下文向量，如图4所示，然后根据类标签和单词上下文向量条件合成图像区域。

图4 对象驱动的注意力

Object-wise判别器会对每个边界框进行检查，确保生成的对象确实与预先生成的语义布局是匹配的。

同时，为了有效地计算所有边界框的识别损失，object-wise判别器基于一个Fast-RNN，并且每个边界框都有一个二院交叉熵损失。

实验结果

研究人员在实验过程中采用的数据集是COCO数据集。它包含80个对象类，其中每个图像与对象注释（即，边界框和形状）和5个文本描述相关联。

在评价指标方面，研究人员采用 Inception score（IS）和Frechet Inception distance（FID） score作为定量评价指标。结果如下表所示：

表1

接下来，是采用不同方法生成图像的结果与实际图像的对比结果：

图5 整体定性比较。所有图像都是在不使用任何ground-truth的情况下生成的。

图6 与P-AttnGAN w/ Lyt进行定性比较

图7 与P-AttnGAN的定性比较。每个方法的注意力图显示在生成的图像旁边。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6600

浏览量
104137
京东方

京东方

+关注

关注
25

文章
1470

浏览量
60053

原文标题：CVPR 2019：微软最新提出ObjGAN，输入一句话秒生成图片

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

OpenAI又打出王炸！一句话生成60秒视频，马斯克：人类认输吧

电子发烧友网报道（文/梁浩斌）在大年初七，春节假期的尾声，OpenAI突然发布的AI文字生成视频模型Sora被全网刷屏，马斯克甚至感叹“gg Humans”（gg是good game的缩写，在竞技

发表于 02-19 09:02 •3845次阅读

OpenAI又打出王炸！<b class='flag-5'>一句话</b><b class='flag-5'>生成</b>60秒视频，马斯克：人类认输吧

晶科能源N型TOPCon技术为什么能领跑行业

晶科能源在N型TOPCon的领导者地位，用一句话形容就是：领先行业6个月！

发表于 11-21 11:08 •339次阅读

开关电源布线一句话：要运行最稳定、波形最漂亮、电磁兼容性最好

开关电源在布线上最大的特点是拓扑引起的高频（高压）强电流与控制级的弱电信号交织在一起，首先要保证强电流的存在不干扰电源内部的控制信号，其次要尽量减少对外部的干扰（EMC）。一句话：要运行最稳定、波形

发表于 10-28 14:06 •1378次阅读

开关电源布线 <b class='flag-5'>一句话</b>：要运行最稳定、波形最漂亮、电磁兼容性最好

求助，关于TLE2141的供电问题求解

在TLE2141的DATASHEET中，在供电方面有一句话，Single or Split Supply . . . 4 V to 44 V，此句话不甚明确，虽然DATASHEET中有例子，可证明此运放可5V单电源供电，我本人仍有疑问，40V单电源供电可否，请各位大拿

发表于 09-09 06:46

想把差分信号转为单端信号，不是音频信号，OPA365是否还可以使用呢？

我想请教下，想把差分信号转为单端信号（频段在100-600KHz），不是音频信号，这款芯片是否还可以使用呢？另：用TINA想仿真OPA365对于所需频段差分信号得的放大效果是否满足实用性，但是搭建不通。可能刚上手，玩不转这款软件。所以想取捷径，问问诸位，我的第一句话可否回答一

发表于 08-27 06:33

如何设计RC去耦的R和C的值？

如何设计RC去耦的R和C的值，最后一句话的意思是负载电流的变化决定R和C的值，能举个例子怎么计算这个值吗？

发表于 08-14 07:47

深入浅出系列之代码可读性

”，这是对我最大的鼓励。一、老生常谈，到底啥是可读性 一句话：见名知其义。有人说好的代码必然有清晰完整的注释，我不否认；也有人说代码即注释，是代码简洁之道的最高境界，我也不否认。但我

发表于 08-09 16:00 •270次阅读

esp32c3 vdd_spi如何作为gpio11使用？

看到C3的手册里有这样一句话 当 VDD_SPI 无需为外部供电时，VDD_SPI 亦可作为 GPIO11 使用请问怎么设置呢？在 arduino 中设定 pinMode(11

发表于 06-17 06:27

一句话让你理解线程和进程

今天给大家分享一下线程与进程，主要包含以下几部分内容：一句话说明线程和进程操作系统为什么需要进程为什么要引入线程一图说明线程和进程的关系一句话让你理解进程和线程进程：是指⼀个内存中运⾏

发表于 06-04 08:04 •1228次阅读

一句话概括DDR、LPDDR、GDDR的区别

以DDR开头的内存适用于计算机、服务器和其他高性能计算设备等领域，目前应用广泛的是DDR3和DDR4；

发表于 05-10 14:21 •6934次阅读

三层交换机的工作原理三层交换机不能完全取代路由器的原因

三层交换机的工作原理可以用一句话概括为：”一次路由，多次交换“。

发表于 03-29 09:29 •838次阅读

NPN型三极管发射结电势和基极电流有关问题

教材有一句话:发射结电势减小,导致基极电流减小这句话如果单看三极管的输入特性曲线确实没问题,但是三极管实际工作的静态工作点Q是输入特性曲线和输入回路负载线的交点,这个时候减小,负载线

发表于 03-23 09:36

请问AD2428 TX crossbar是个什么功能？

AD2428 TRM中，描述升采样功能的最后一句话时，提到了一个TX crossbar功能，全文搜索crossbar只有这一处，这是个什么功能？

发表于 03-07 07:00

RS触发器逻辑门组成和逻辑功能表

RS是由两个或非门组成，而或非门的输出又作为另一个或非门的输入。下面说一句对RS触发器理解最重要的一句话：或非门如果有一个输入端为1，那么不

发表于 03-05 17:35 •1.2w次阅读

Sora助推OpenAI估值飙升275%

近日，人工智能领域的领军企业OpenAI发布了其首个文生视频模型——Sora。这款模型具备令人惊叹的能力：用户只需通过一句话，便能生成长达1分钟的高清视频。Sora的发布不仅为视频制作领域带来了革命性的变革，同时也推动了OpenAI的估值大幅飙升。

发表于 02-20 14:12 •591次阅读

搜索历史

不会PS还想做图?微软、京东出黑科技:说一句话就能生成图片!

评论

OpenAI又打出王炸！一句话生成60秒视频，马斯克：人类认输吧

晶科能源N型TOPCon技术为什么能领跑行业

开关电源布线一句话：要运行最稳定、波形最漂亮、电磁兼容性最好

求助，关于TLE2141的供电问题求解

想把差分信号转为单端信号，不是音频信号，OPA365是否还可以使用呢？

如何设计RC去耦的R和C的值？

深入浅出系列之代码可读性

esp32c3 vdd_spi如何作为gpio11使用？

一句话让你理解线程和进程

一句话概括DDR、LPDDR、GDDR的区别

三层交换机的工作原理三层交换机不能完全取代路由器的原因

NPN型三极管发射结电势和基极电流有关问题

请问AD2428 TX crossbar是个什么功能？

RS触发器逻辑门组成和逻辑功能表

Sora助推OpenAI估值飙升275%