0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软AI可以根据详细的文本描述来绘制对象

IEEE电气电子工程师 来源:未知 作者:邓佳佳 2018-03-01 16:00 次阅读

谷歌可能教过人工智能如何涂鸦,但绘制一些更复杂的东西对于电脑来说很难。想象一下,让一台电脑画一只“黑色的翅膀和一个短喙的黄色的鸟”;这听起来有点棘手。不过,微软的研究人员已经开发了一种基于人工智能的技术来做到这一点。根据团队发布的最新文章,它以惊人的准确性从文本描述生成图像。

系统根据您的输入找不到现有的图像,但会创建真实的图形。首席研究员何晓东在一份声明中表示:“如果你去了Bing并且寻找一只鸟,你就会得到一张鸟的照片,但是这里的照片是由计算机逐个像素地从头开始制作的。 “这些鸟可能不存在于现实世界中 - 它们只是我们计算机对鸟类想像力的一个方面。”

虽然这种绘画技术的当前形式并不完美,但不难想象,未来它可以作为画家和室内设计师的素描助手,或者是基于语音输入来精炼照片的工具。更远的是,研究人员他想象从书面脚本生成的动画电影。

该团队开始研究计算机视觉和自然语言处理与CaptionBot,一个人工智能系统,自动为照片写字幕,然后创建一个系统回答人们问的图像称为SeeingAI的问题,如果你是盲人。目前的技术由两部分组成:一个是产生被称为生成对抗网络(GAN)的图像,另一个是判断所产生的图像的质量,称为鉴别器。绘图机器人接受了一系列图像和标题的训练,教导人工智能学习使用哪些图像处理哪些单词。团队还创建了一个人类关注的数学表示,当我们从复杂的描述中绘制图片时,我们都使用这个表示:一个红色的翅膀,一个尖锐的喙,一个黄色的翅膀。他说:“注意力是一个人的概念,我们用数学来计算注意力。”

这个绘图机器人完成了围绕计算机视觉和自然语言处理交叉部分的研究循环,何晓东和他的同事在过去五年中一直在这个领域内摸索。他们一开始研究的是一项能够自动为照片编写标题的技术——CaptionBot,然后转向能够回答人类关于图像问题(例如语音对象的位置和属性)的技术,这种技术对于盲人来说特别有用。

这些研究工作需要训练机器学习模型来识别对象、解释行为并用自然语言进行交谈。

微软研究院研究员Pengchuan Zhang补充表示,图像生成是一项比图像字幕更具挑战性的任务, 因为这个过程需要绘图机器人想象出标题中没有包含的细节。“这意味着,你需要让运行人工智能的机器学习算法想象出这个图像中缺失的部分。”

会集中注意力的图像生成

微软绘画机器人的核心是生成式对抗网络(Generative Adversarial Network,或者称为GAN)技术。该网络包含了两个机器学习模型,一个根据文字描述生成图形;另一个则作为鉴别器(discriminator),使用文本描述来判断所生成的图像的真实性。这两个模型组合既矛盾又融合,生成器试图让假的图片通过鉴别器的鉴定,鉴定器决定了自己不被愚弄,两者一起工作,鉴定器会推动生成器变得完美。

传统生成式对抗网络(GAN)在根据简单文字(例如蓝色的鸟或者常青树)描述生成图像方面做得非常好,但是当文字描述变得更复杂的时候,例如绿色的头、黄色的翅膀、红色的肚皮的鸟,质量就会停滞不前。这是因为整个句子对于生成器来说是一个单一输入,这些描述中的详细信息丢失了,结果生成的图像是一只模模糊糊的、有点绿、有点黄也有点红的鸟,而不是严格按照句子中的描述进行着色的鸟。但是,微软的该项技术尤其擅长根据复杂的句子绘制图像,而且,在标题的描述中没有提到的具体细节方面,机器人也可以填补这些空白。

这是因为,它有一点自己的常识和想象力,这要感谢它的训练数据。在鸟的例子中,机器人画的鸟通常是站在枝头上的,即使是文本内容中并没有提到这一细节也是如此,这是因为最初提供给它的图像经常出现类似的内容。

微软的绘图机器人使用了标题和图像匹配好了的数据集进行训练,这让这些模型能够学会如何将文字内容和这些内容的可视化表达相匹配。例如,这个生成式对抗网络(GAN)学会了在标题是鸟的时候生成一个鸟的图像,而且也学到了鸟的图像应该是什么样子。何晓东表示:“这是我们相信机器可以学习的根本原因。”

在人类画画的过程中,会反复查看下一步画什么,并且十分专注于正在描绘的这一部分内容当中。为了捕捉这一人类特质,微软研究人员创建了他们称之为注意力生成式对抗网络或AttnGAN的技术,它从数学上代表了人类的注意的概念。它是通过将输入的文本内容分解为单个的词语,并将其同图像中特定的区域进行匹配来完成这一任务的。

何晓东解释说:“注意力是一个人类的概念;我们把注意力的问题变成了一个计算的问题。”

该模型还会从训练数据中学习人类称之为常识的东西,并且利用这些学到的概念来填补图像中可供想象的空白部分。例如,由于训练数据中的很多图像里的鸟都是站在枝头之上的,所以除非文本内容另有详细说明,AttnGAN通常画出的鸟也都是站在枝头之上的。

Pengchuan Zhang表示:“从数据来看,机器学习算法学到了鸟应该在哪里这一常识。”作为难度测试,该团队给这个绘图机器人一些荒谬的题目,例如“漂浮在湖面上的红色双层巴士。”结果它生成了一个模糊的、湿漉漉的图像,既有点像一艘有双层甲板的船,又有点像一辆双层巴士,漂浮在群山环绕的湖面上。这个图像表明,该机器人内部产生了斗争,它知道船是漂浮在湖面上的,而文本内容却详细指定了对象是一辆巴士车。

何晓东解释说:“我们的描述可以天花乱坠,看看机器会如何反应。这台机器有一些背景知识的常识,但它仍然服从你的要求,尽管有时这些要求听起来有点荒谬。”

当然,这不是第一项将艺术和人工智能结合在一起的技术案例。

这两者的交叉有时会产生奇妙的结果。比如谷歌的人工智能绘制的这些梦幻般的图像就有了自己的艺术展,谷歌还有一个神经网络可以猜测你正在画的是什么,还有一个自动绘图机器人等等。

Facebook也一直在教导神经网络绘制一些小图形,例如飞机、汽车和动物等,甚至从照片中创建自己的Bitmoji风格的化身形象。

英伟达的研究人员使用人工智能(A.I)创建了计算机生成的名人。

实际应用

从文本到图像的生成技术可以找到很多实际应用,可以作为画家和室内设计师的草图助理,或者作为语音激活照片的细化工具。何晓东认为,如果有更多的计算能力,这项技术能够根据电影剧本生成动画电影,通过消除一些手工劳动来改善动画电影制片人的工作。

然而目前来看,微软的这项技术还不完善。如果你仔细检查图像就能找到瑕疵,例如鸟的喙是蓝色的而不是黑色的,以及水果摊位上有突变的香蕉。这些缺陷清楚地表明,创造这幅画的是电脑而不是人类。尽管如此,何晓东认为,这个AttnGAN生成的图像的质量比之前最好的GAN生成的图像质量提高了接近三倍,已经成为了通往类人类智能道路上的一个里程碑,这些类人类智能能够增强人类的能力。
何晓东进一步解释说,“对于生活在同一个世界里的人工智能和人类来说,他们必须有一种彼此交流的方式。而语言和视觉是人类和机器互相交流的两种最重要的方式。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

原文标题:微软AI可以根据详细的文本描述来绘制对象

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    RNN在图片描述生成中的应用

    随着深度学习技术的飞速发展,图像描述生成(Image Captioning)作为计算机视觉和自然语言处理的交叉领域,受到了越来越多的关注。图像描述生成任务旨在自动生成准确、自然和详细文本
    的头像 发表于 11-15 09:58 220次阅读

    图纸模板中的文本变量

    “  文本变量和系统自带的内置变量,可以帮助工程师灵活、高效地配置标题栏中的信息,而不用担心模板中的文字对象被意外修改。   ” 文本变量的语法
    的头像 发表于 11-13 18:21 137次阅读
    图纸模板中的<b class='flag-5'>文本</b>变量

    如何在文本字段中使用上标、下标及变量

    在KiCad的任何文本字段中,都可以通过以下的方式实现上标、下标、上划线以及显示变量及字段值的描述文本变量“文本变量”
    的头像 发表于 11-12 12:23 74次阅读
    如何在<b class='flag-5'>文本</b>字段中使用上标、下标及变量

    根据云服务器的部署方式和服务对象分为几种类型

    云服务器已经成为现代企业和组织IT基础设施的核心组成部分。根据云服务器的部署方式和服务对象的不同,主要可以分为三种类型:公有云服务器、私有云服务器和混合云服务器。下面我们将详细介绍这三
    的头像 发表于 11-04 10:04 141次阅读

    微软Azure AI语音服务革新:引入虚拟人形象,文本一键转生动视频

    微软于8月23日宣布,在其领先的Azure AI语音服务中融入了一项革命性创新——虚拟人形象功能,此功能彻底颠覆了传统交互方式,让文本转视频的过程变得前所未有的直观与生动。
    的头像 发表于 08-23 16:25 678次阅读

    微软CEO纳德拉:全力押注AI未来

    微软首席执行官纳德拉在AI领域的布局引人注目。在与ChatGPT背后的OpenAI建立合作关系后,他更是将微软的未来与AI的潜在发展紧密相连。然而,这位执掌
    的头像 发表于 06-17 17:11 590次阅读

    微软将推5000亿AI大模型!AI大航海时代开启,微软专家发声

    近日,微软全球资深副总裁张祺博士在2024年中关村论坛年会上,就未来AI如何发展?带来最新的前瞻和思考。
    的头像 发表于 05-07 18:17 2324次阅读
    <b class='flag-5'>微软</b>将推5000亿<b class='flag-5'>AI</b>大模型!<b class='flag-5'>AI</b>大航海时代开启,<b class='flag-5'>微软</b>专家发声

    微软计划在年底前囤积180万个AI芯片

    根据海外一份文件显示,微软内部设立目标,在2024年底前囤积180万个人工智能(AI)芯片。
    的头像 发表于 04-22 11:34 616次阅读

    OpenAI劲敌Inflection AI官宣“加盟”微软

    OpenAI的强劲对手Inflection AI近期宣布,将与科技巨头微软展开深度技术合作。这次合作意味着Inflection AI将其尖端技术授权给微软,标志着这家初创公司正式转向与
    的头像 发表于 03-21 11:33 642次阅读

    微软宣布组织架构调整,组建Microsoft AI

    微软,这家全球市值最高的科技巨头,近日宣布了一项重大的组织架构调整。公司决定组建全新的Microsoft AI部门,旨在统一管理和推进所有消费者AI产品和研究工作。为此,微软特地挖角了
    的头像 发表于 03-21 10:52 823次阅读

    微软21亿美元投资法国AI公司Mistral AI

    微软近日宣布向法国人工智能公司Mistral AI注资20亿欧元(约合21亿美元),以推动生成式人工智能领域的发展。此举不仅加强了微软在全球AI领域的布局,也为Mistral
    的头像 发表于 02-28 10:08 446次阅读

    探索OpenAI Sora视频AI生成技术及其应用如何使用指南

    的应用范围从娱乐和教育到营销和内容创作等各个领域都有巨大潜力。 Sora视频AI的介绍 Sora视频AI是一种先进的人工智能工具,它利用深度学习算法根据用户提供的文本
    的头像 发表于 02-20 12:01 1408次阅读

    微软为新闻编辑行业推出AI工具

    近日,微软宣布与全球多家知名新闻机构展开紧密合作,共同探索并推动生成式AI在新闻编辑室中的创新应用。微软表示,将全力支持新闻机构优化AI技术在新闻采编和日常业务实践中的运用,并致力于培
    的头像 发表于 02-18 11:08 680次阅读

    微软将在电脑键盘上新增AI

    近日,微软宣布了一项前所未有的举措:为Windows 11电脑添加一个新的AI助手Copilot键。这是近30年微软首次在电脑键盘上做出如此重大变革。
    的头像 发表于 01-16 18:16 1215次阅读

    Native Drawing开发指导,实现HarmonyOS基本图形和字体的绘制

    场景介绍 Native Drawing 模块提供了一系列的接口用于基本图形和字体的绘制。常见的应用场景举例: ● 2D 图形绘制。 ● 文本绘制。 接口说明
    发表于 12-07 09:30