0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MIT的研究人员研发了一种新型神经网络,称为Transparency by Design

zhKF_jqr_AI 来源:未知 作者:李倩 2018-03-21 17:07 次阅读

编者按:论智曾系统地介绍过视觉问答技术,而在本文中,MIT的研究人员研发了一种新型神经网络,称为Transparency by Design,既有出色的性能,还易于解释。以下是论智对论文的大致编译。

视觉问题回答(VQA)需要对图像进行高阶推理,这是机器系统执行复杂指令的基本能力。最近,模块化网络已被证明是执行视觉推理任务的有效框架。虽然模块化网络最初设计时具备一定的模型透明度,但当用于复杂的视觉推理任务时,表现却不那么完美。即使是目前最先进的方法也没有理解推理过程的有效机制。在本文,我们消除了可解释模型和最先进的视觉推理方法之间的性能差距,提出了一套视觉推理原型,它可以作为一个模型,以明确可解释的方式执行复杂的推理任务。而原型输出的准确性和可解释性能让人轻易地判断模型的优点和缺点。重要的是,我们证明原型的性能出色,在CLEVR数据集上的最高精确度达99.1%。另外,当面对含有新数据的少量样本时,模型仍然能有效地学习。利用CoGenT泛化任务,我们证明该模型比现有技术水平提高了20个百分点。

一个VQA模型必须具备推理图片中复杂场景的能力,例如,要回答“大金属球右边的正方体是什么颜色?”这个问题,模型必须先判断哪个球体是最大的,而且还是金属的,然后理解“右边”是什么意思,最后把这一概念应用到图片中。在这一新兴领域中,模型必须找到正方体,然后辨别它的颜色。这种行为需要综合能力才能应对任意推理过程。

Transparency by Design

将一个复杂的推理过程分解成一连串小问题,每个问题都能被独立解决再组合,这种推理方法非常强大且有效。这种类型的模块化结构同样允许在推理的每个步骤对网络输出进行检查。受此启发,我们开发了一种神经模块网络,能够在图像空间中建立一个注意力机制模型,我们称之为Transparency by Design network(TbD-net),重点突出透明度是此次设计的亮点。

下表是TbD-net中用到的模块汇总。“Attention”和“Encoding”分别表示从上一模块中输出的单一维度和高维度。“Stem”表示训练过的神经网络生成的图像特征。变量x和y表示场景中的目标物体,[property]表示物体的颜色、形状、大小或是材料的其中一个特点。

Attention模块负责能体现目标物体特征的图像区域,例如如果图像中有红色目标,模块就会被使用。在Attention模块中输入图像特征,然后进行微调。之后输出一张关于维度的热图1×H×W。

And或Or逻辑模块分别在交集和并集中组合两个注意力掩码,这些操作不需要学习,因为它们已经经过微调并且可以用手工实现。

Relate模块表示一个区域与另一个区域有某种空间关系;Same模块负责从区域中提取某种相关特征,然后与图像中的其他模块分享这种特征。例如,当回答“哪个物体的颜色和小正方体一样?”这种问题时,网络需要利用Attention模块锁定小正方体,然后利用Same模块判断它的颜色,然后输出一个注意力掩码,定位出所有与其有相同特征的物体。

Query模块需要从图片中某个位置提取出特征。例如,这些模块要判断某个对象的颜色是什么。每个Query模块就会输入特征和注意力掩码,然后产生带有相关特点的特征映射。

Compare模块可以比较两个Query模块输出的属性,并生成一个特征映射,该映射对特征是否相同进行了编码。

下图是TbD网络在解决复杂VQA问题时,在推理过程中注意力变化的过程:

注意,模块在使用注意力时并不用学习,而是利用经过它们的注意力,生成精确的注意力映射。所有的注意力掩码都是由感官上一致的颜色映射生成的。

实验过程

为了评估模型性能,研究人员使用了两个数据集:CLEVR和CLEVR-CoGenT。CLEVR是一个含有7万张训练图像和70万个训练问题的VQA数据集,同时还有15000张图像和150000个问题作为测试和对照集。

CLEVR

最初在CLEVR数据集上测试时,模型的精确度为98.7%,远远优于其他神经模块化网络。在这之后研究人员检查了模型产生的注意力掩码,发现背景有噪音。虽然不影响模型的性能,但这些杂乱的区域可能会误导用户。于是,研究人员对其进行了泛化处理,对比结果如下图所示:

没有经过泛化,模块在背景区域产生了少量的注意力,目标物体处的注意力较多,而其他物体上的注意力为零。当加上泛化后,背景中杂乱的注意力消失,注意力精准地落在目标物体上。

除此之外,最初的模型将14×14的特征映射作为每个模块的输入,但是这对于解决密集物体图片却很困难。于是将特征映射的分辨率调整为28×28之后,这个问题就解决了。如下图所示:

当要求观察蓝色橡胶物体后面和青色大圆柱前面的空间时,左边是输入的图像,中间是分辨率为14×14的映射,右边是28×28的映射。

经过上述两方面的改进,模型在CLEVR上的性能由原先的98.7%升至99.1%,模型与其他方法的对比可以在下表中看到,其中TbD-net是最初的模型,“+reg”表示增加了泛化,“+reg+hres”表示在泛化的基础上提高了特征映射的分辨率:

透明度

下面研究人员还对透明度就行了量化分析,接着还检查了几个模块的输出,证明了在没有任何光滑处理的前提下,模型的每一步都可以直接解读出来。

如果模块能明显的标记出正确的目标物体,那么他的注意力就是可解释的。下图展示了一个Attention模块的输出,它将注意力放在所有金属物体上。

然而,在更复杂的操作中,例如Same和Relate模块仍然能产生直接的注意力掩码。在下图中这些模块仍然容易理解。

左图是输入的图像,右图是Relate模块生成的注意力掩码,它接收到要注意紫色的圆柱体。中间的图表示注意力掩码与输入的图相重叠。很明显,注意力落在了紫色圆柱体右边的所有区域。

左图是输入的图像,右图是Same模块输出的掩码,它被要求注意蓝色的球体。中间的图表示输入图像与掩码重叠。最终说明它成功地完成了任务:首先确定球体的颜色,然后确定这一颜色的所有对象,最后找到有该颜色的目标物体。

CLEVR-CoGenT

CLEVR-CoGenT对于泛化测试是一个好选择,它在形式上与CLEVR相同,但只有两个特殊条件。A,所有的立方体必须是灰色、蓝色、棕色或黄色其中的一种,所有的圆柱体必须是红色、绿色、紫色或青色的一种;B,颜色被互换。

结果表明,当只用A情况的数据进行训练时,模型的性能在A下的表现优于B。下图说明了模型在两种情况下的性能:

接着,研究人员用B中的数据对模型进行微调,模型的准确率由75.4%升至96.3%。

结语

本文中,研究人员提出了Transparency by Design网络,这些网络组成可视基元,利用外部注意力机制执行复杂的推理操作。与此前的方法不同,由此产生的神经模块网络既具有高性能,有方便解释。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4775

    浏览量

    100912
  • MIT
    MIT
    +关注

    关注

    3

    文章

    253

    浏览量

    23418

原文标题:MIT提出TbD网络,让视觉问答模型更易于解释同时保持高性能

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    隐藏技术: 一种基于前沿神经网络理论的新型人工智能处理器

    隐藏技术: 一种基于前沿神经网络理论的新型人工智能处理器 Copy东京理工大学的研究人员发了一种
    发表于 03-17 19:15

    卷积神经网络模型发展及应用

    十余年来快速发展的崭新领域,越来越受到研究者的关注。卷积神经网络(CNN)模型是深度学习模型中最重要的一种经典结构,其性能在近年来深度学习任务上逐步提高。由于可以自动学习样本数据的特征表示,卷积
    发表于 08-02 10:39

    麻省理工研发神经网络芯片,速度提升6倍,功耗减少94%!

    MIT News报道,麻省理工学院(MIT)的研究人员开发出了一种可用于神经网络计算的高性能芯片,该芯片的处理速度可达其他处理器的7倍之多
    的头像 发表于 03-15 16:47 3476次阅读

    日本东京大学的研究人员发了一种称为DRAGON(龙)的飞行机器人

    据外媒SlashGear报道,日本东京大学的研究人员发了一种称为DRAGON(龙)的飞行机器人,旨在用于室内。DRAGON由涵道风扇提供动力,可以在飞行中变换成不同的形状。
    的头像 发表于 06-25 09:44 5759次阅读
    日本东京大学的<b class='flag-5'>研究人员</b>开<b class='flag-5'>发了</b><b class='flag-5'>一种</b><b class='flag-5'>称为</b>DRAGON(龙)的飞行机器人

    研究人员开发解释多义词的神经网络

    艾伦人工智能研究所和华盛顿大学的研究人员正在使用可以根据上下文来确定英文单词含义的神经网络
    的头像 发表于 09-12 15:52 2217次阅读

    一种新型神经网络结构:胶囊网络

    胶囊网络是 Geoffrey Hinton 提出的一种新型神经网络结构,为了解决卷积神经网络(ConvNets)的
    的头像 发表于 02-02 09:25 5893次阅读

    MIT研究人员开发出新型“光子”芯片

    MIT研究人员开发出一种新型 “光子” 芯片,它使用光而不是电,并且在此过程中消耗相对较少的功率。
    的头像 发表于 06-12 09:23 3904次阅读

    研究人员发了一种新颖的机器学习管道

    研究人员通过一种特殊的神经网络模型,它以“基本块”(计算指令的基本摘要)形式训练标记的数据,以自动预测其持续时间使用给定的芯片执行以前看不见的基本块。结果表明,这种神经网络模型的性能要
    的头像 发表于 04-15 16:42 1862次阅读

    研究人员研制出人工树突器件,构建新型神经网络

    受生物神经网络启发,研制出一种具有丰富动态特性的人工树突器件,构建了包含突触、树突、胞体三基本计算单元的新型神经网络,树突功能显著提升了
    的头像 发表于 07-05 11:39 2044次阅读

    研究人员发了一种新型的磁力驱动高速软件机器人

    《通讯-材料》最近发表了篇关于技术研究和开发的论文,研究人员成功地开发了一种新型的磁力驱动高速
    的头像 发表于 10-10 10:57 2852次阅读

    研究人员研发一种让自动驾驶汽车免受网络攻击的系统

    据外媒报道,研究人员研发了一种新颖的控制架构,能够保护复杂且网络互连的系统,而此类系统此前容易受到网络攻击。
    的头像 发表于 11-24 09:57 1907次阅读

    研究人员开发“液态”神经网络 可适应快速变化的训练环境

    设计出了一种具有重大改进的“液态”神经网络。其特点是能够在投入训练阶段之后,极大地扩展 AI 技术的灵活性。 通常情况下,研究人员会在训练阶段向神经网络算法提供大量相关的目标数据,来磨
    的头像 发表于 01-29 10:46 1572次阅读

    MIT成功研发液态神经网络

    设计出了一种具有重大改进的“液态”神经网络。其特点是能够在投入训练阶段之后,极大地扩展 AI 技术的灵活性。
    的头像 发表于 01-29 11:32 2368次阅读

    研究人员发了一种灵感源自螳螂虾眼睛的新型光学传感器

    这种新型光学传感器从螳螂虾的眼睛中获得灵感,它们的眼睛非常善于精确捕捉色彩的细微层次。有基于此,研究人员发了一种模拟螳螂虾眼睛的有机电子传感器,被
    的头像 发表于 03-17 14:34 2344次阅读

    研究人员设计了一种称为Neuropixels 2.0的新型微型化探针

    为此,在项新的科学研究中,来自英国、美国、挪威、比利时和葡萄牙的研究人员设计了一种称为Neuropixels 2.0的
    的头像 发表于 04-25 10:24 2026次阅读