0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读

zhKF_jqr_AI 2018-01-10 12:41 次阅读

循环神经网络(RNN)是用于自然语言建模的主流架构,通常,RNN按顺序读取输入的token,再输出每个token的分布式表示。通过利用相同的函数来循环更新隐藏状态,RNN的计算成本将保持不变。虽然这一特点对于某些应用来说很常见,但在语言处理过程中,并不是所有token都同等重要,关键要学会取舍。例如,在问答题中,只对重要部分进行大量计算,不相关部分分配较少的计算才是有效的方法。

虽然有注意力模型和LSTM等方法提高计算效率或挑选重要任务,但它们的表现都不够好。在本篇论文中,研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读,不影响读者的主要目标。

Skim-RNN的构成

研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读

受人类快速阅读原理的启发,Skim-RNN的结构由两个RNN模型构成:较大的默认RNN模型d和较小的RNN模型d’。d和d’是用户定义的超参数,并且d’<< d。

如果当前token比较重要,Skim-RNN就会使用大的RNN;如果不重要,它就会转向使用小的RNN。由于小RNN比大RNN需要的浮点运算次数更少,所以该模型比单独使用大RNN所得结果更快,甚至更好。

推理过程

在每一步骤t中,Skim-RNN将输入的Xt∈Rd和之前的隐藏状态ht-1∈Rd作为其参数,输出新的状态ht。k代表每一步做出harddecision的次数。在Skim-RNN中,不论是完全阅读或跳过,k=2。

研究人员使用多项随机变量Qt对选择概率分布Pt的决策过程进行建模。Pt表示为:

这里,W∈Rk×2d,b∈Rk。

接下来我们定义随机变量Qt,通过从概率分布Pt对Qt进行采样:

如果Qt=1,那么该模型与标准RNN模型一样。如果Qt=2,那么模型选用了较小RNN模型以获取较小的隐藏状态。即:

其中f是带有d输出的完全RNN,而f'是带有d'输出的小RNN,d'<< d。

实验结果

研究人员在七组数据集上对Skim-RNN进行测试,包括分类测试和问答题两种形式,目的是为了检验模型的准确度和浮点运算减少率(Flop-R)。

研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读

文本分类

在这项任务中,输入的是单词序列,输出的是分类概率的向量。最终,下表显示出Skim-RNN模型与LSTM、LSTM-Jump的精确度和计算成本对比。

研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读

以SST、烂番茄、IMDB和AGnews四个网站为例进行本文分类,在标准LSTM、Skim-RNN、LSTM-Jump和最先进的模型(SOTA)上进行对比

研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读

改变较小隐藏状态的尺寸的影响,以及参数γ对精确度和计算成本的影响(默认d=100,d'=10,γ=0.02)

下图是IMDB数据集中的一个例子,其中Skim-RNN的参数为:d=200,d'=10,γ=0.01,最终将本段文字正确分类的概率为92%。

研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读

其中黑色的字被略过(用小LSTM模型,d'=10),蓝色的字表示被阅读(用较大的LSTM模型,d=200)

和预期的一样,模型忽略了类似介词等不重要的词语,而注意到了非常重要的单词,例如“喜欢”、“可怕”、“讨厌的”。

回答问题

这项任务的目的是在给定段落中找到答案的位置。为了检测Skim-RNN的准确度,研究人员建立了两个不同的模型:LSTM+注意力和BiDAF。结果如下所示:

F1和EM值可表明Skim-RNN的准确度。最终发现,速读(skimming)模型的F1分数比默认没有速读(non-skimming)的模型相同甚至更高,并且计算成本消耗得更少(大于1.4倍)。

LSTM+注意力模型中,不同层的LSTM速度率(skimming rate)随γ的变化而变化的情况

LSTM+注意力模型的F1分数。计算成本越大,模型表现得越好。在同样的计算成本下,Skim LSTM(红色)比标准LSTM(蓝色)的表现要好。另外,Skim-LSTM的F1分数在不同参数和计算成本下都更稳定

F1分数与Flop-R之间的关系

下图是模型回答问题的一个例子,问题为:最大的建筑项目(construction project)也称作什么?(正确答案:megaprojects)

模型给出的答案:megaprojects。

研究人员提出了“Skim-RNN”的概念,用很少的时间进行快速阅读

红色代表阅读,白色代表略过

运行时间

上图显示了与标准LSTM相比,Skim-LSTM的相对速度增益的隐藏状态有不同大小和速度速率。在这一过程中,研究人员使用的是NumPy,并在CPU的单个线程上进行推论。

可以看到,实际增益(实线)和理论增益(虚线)之间的差距无法避免。随着隐藏状态增大,这一差距会减小。所以对于更大的隐藏状态,Skim-RNN的表现会更好。

结语

本次研究表明,新型循环神经网络Skim-RNN可以根据输入的重要性决定使用大的RNN还是小的RNN,同时计算成本比RNN更低,准确度与标准LSTM和LSTM-Jump相比类似甚至更好。由于Skim-RNN与RNN具有相同的输入输出接口,因此可以轻松替换现有应用中的RNN。

所以,这样工作适用于需要更高隐藏状态的应用,比如理解视频,同时还可以利用小RNN做不同程度的略读。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

原文标题:用Skim-RNN显著降低计算成本,实现“速读”

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    美国普渡大学和哈佛大学的研究人员出了一项新发明 新...

    据物理学家组织网报道,美国普渡大学和哈佛大学的研究人员出了一项极为应景的新发明:一种外形如同一颗圣诞树一样的新型晶体管,其重要组件“门”(栅极)的长度缩减到了突破性的20纳米。这个被称为“4维
    发表于 02-03 20:30

    研究人员提出了一种柔性可拉伸扩展的多功能集成传感器阵列

    研究人员提出了一种柔性可拉伸扩展的多功能集成传感器阵列,成功将电子皮肤的探测能力扩展到7种,实现温度、湿度、紫外光、磁、应变、压力和接近等多种外界刺激的实时同步监测。
    的头像 发表于 01-24 15:15 7238次阅读
    <b class='flag-5'>研究人员</b><b class='flag-5'>提出了</b>一种柔性可拉伸扩展的多功能集成传感器阵列

    日本研究人员利用单晶硅对可见光进行精确的颜色控制

    研究人员最近展示了使用单晶硅对可见光进行精确的颜色控制,该研究成果发表在纳米快报上。
    的头像 发表于 02-09 14:20 5480次阅读

    研究人员提出了一系列新的点云处理模块

    为了探索这些问题的解决办法、来自伦敦大学学院的研究人员提出了一系列新的点云处理模块,从效率、信息共享和点云卷积操作等方面进行研究,得到了更宽、更深、更快效率更高的点云处理网络,让更
    的头像 发表于 08-02 14:44 3059次阅读
    <b class='flag-5'>研究人员</b>们<b class='flag-5'>提出了</b>一系列新的点云处理模块

    Facebook的研究人员提出了Mesh R-CNN模型

    这一研究的目标是通过单张图像输入,对图像中的物体进行检测、获取不同物体的类别、掩膜和对应的三维网格,并对真实世界中的复杂模型进行有效处理。在2D深度网络的基础上,研究人员改进并
    的头像 发表于 08-02 15:51 3885次阅读
    Facebook的<b class='flag-5'>研究人员</b><b class='flag-5'>提出了</b>Mesh R-CNN模型

    研究人员使用声音技术来进行药物的传递

    从电信技术改造而来的技术有望实现更有效的癌症治疗。墨尔本研究人员发现,药物可以通过声波传递到各个细胞中。
    发表于 03-11 09:38 480次阅读

    研究人员提出了一个名为CommPlan的框架

    使用CommPlan,开发人员首先使用数据,领域专业知识和学习算法指定五个模块-任务模型,通信功能,通信成本模型,人员响应模型和人员可选动作模型。通过对所有模块的分析组合,得出决策模型,并且在任务执行期间,机器人使用硬件传感器
    的头像 发表于 04-09 14:30 2170次阅读

    研究人员最新开发出了快速、微米级的电光调制器

    乔治华盛顿大学的研究人员首次开发并演示了一种硅基电光调制器,该调制器比最新技术更小,更快,更高效。
    的头像 发表于 04-15 20:07 2197次阅读

    研究人员使用AI教机器人如何将物体交给人类

    英伟达(Nvidia)研究人员在本周发表的预印研究论文中提出了一种人类到机器人交接的方法,其中机器人会在半途中遇到人类,对人类的抓握进行分类,并计划一条从人类手中拿走物体的轨迹。
    发表于 04-28 17:16 1729次阅读

    研究人员利用3D打印技术设计出了微米大小的镜片

    波兰华沙大学的研究人员利用激光直接书写(DLW)3D打印技术设计出了微米大小的镜片。这种3D打印的透镜可以在各种材料上制作,包括易碎的石墨烯类材料。
    的头像 发表于 05-18 23:36 4030次阅读

    佐治亚理工研究人员通过仿生树懒推出了自己的巡检机器人

    生活的快节奏让很多人喘不过气,这种影响似乎也蔓延到了机器人领域。但是来自佐治亚理工学院的研究人员更看重慢速、高效和节能,最近他们通过仿生树懒推出了自己的巡检机器人,也许这是研究人员第一次将目光放到树懒这种慵懒的动物身上。
    发表于 07-08 16:06 1199次阅读

    AI研究人员如何应对透明AI

    许多现代的AI系统都在神经网络上运行,而我们仅了解其基础知识,因为算法本身很少提供解释方式。缺乏解释性通常被称为AI系统的“黑匣子”。研究人员将注意力集中在神经网络如何工作的细节上
    的头像 发表于 07-14 16:31 1892次阅读

    研究人员发现自动驾驶车辆可将交通流量速度大幅提高40%

    研究人员提出了实现有效监管的指导方针,发现即使道路上的自动驾驶车辆不到5%,自动驾驶汽车还是能够互相配合,以显著改善交通流量。据研究人员所说,如果在拥堵道路上出发,自动驾驶汽车能够在不到2分钟的
    的头像 发表于 09-09 15:20 2788次阅读

    研究人员为锂硫电池提出一种新阴极设计概念

    研究团队,为锂硫电池(Li–S)提出了一种新颖的阴极设计概念,将可大幅提升此类具有发展前景的下一代电池的性能。
    发表于 12-29 10:48 532次阅读

    如何使用RNN进行时间序列预测

    一种强大的替代方案,能够学习数据中的复杂模式,并进行准确的预测。 RNN的基本原理 RNN是一种具有循环结构的神经网络,它能够处理序列数据。在RNN中,每个输入序列的元素都会通过一个或
    的头像 发表于 11-15 09:45 291次阅读