0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

zhKF_jqr_AI 来源:未知 作者:工程师曾玲 2018-08-18 11:43 次阅读

编者按:今天,卡内基梅隆大学助理教授Zachary C. Lipton推荐了自己的一个有趣研究:让模型学会阅读理解究竟需要多少文本。在之前的ICML 2018研讨会上,他和斯坦福大学研究生Jacob Steinhardt曾撰文痛批学界“歪风”,在学界引起巨大反响。其中提到的一个弊端就是有些学者会对“进步”错误归因,把调参获得的性能改善强加到架构调整上。结合这篇论文,也许他的研究能让我们获得一些见解。

摘要

近期,学界发表了不少有关阅读理解的论文,它们使用的样本都是(问题、段落、答案)这样的三元组。对此,一种常规的想法是,如果模型的目标是预测相应答案,它们就必须结合来自问题和段落的信息。这是个很有趣的点,但考虑到现在有数百篇已发表的论文正在争夺排行榜第一的宝座,围绕这些流行基线的基础问题还是迟迟没能得到解决。

在本文中,我们为bAbI、SQuAD、CBT、CNN和Whodid-What数据集构建了合理的基线,发现如果样本中只包含纯问题或纯段落,模型的表现通常会很好。用纯段落样本进行训练后,模型在14个bAbI问题上取得了高于50%的准确率(一共20个),其中部分结果甚至可以媲美正常模型。

另外,我们也发现了一个奇怪的点:在CBT任务中,研究人员通常会用一个问题和一个包含前20个句子的段落预测第21个句子中的缺失词,但实验证实,模型可能只需第21句话就能完成预测。相比之下,CNN和SQuAD这两个数据集似乎构造得很好。

数据集&基线

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

实验结果

bAbI任务

下表是基线KV-MemNet在bAbI数据集上的具体表现,第一行使用的是常规样本,包含问题和段落;第二行只使用问题;第三行只使用段落。可以发现,在第2,7,13,20个问题中,用段落训练的模型性能惊人,准确率在80%以上。在第3,13,16和20个问题中,它的准确率甚至超过了使用常规样本的模型。而在第18个问题中,用问题训练的模型的准确率也达到了91%,和正常的93%非常接近。

这个发现给我们的启示是,bAbI的某些问题可能并没有我们想象中那么复杂。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

CBT任务

CBT任务的“答案”根据词性可分为命名实体(NE)、公共名词(CN)、动词(V)、介词(P)四类,由于后两种根据上下文就能预测,通常我们在阅读理解问题里会更重视前两种词性。

同样是基线KV-MemNet,如下表所示,这次使用的三类样本成了三列:如果是预测NE和CN,使用完整样本训练的模型准确率更高,但用了问题的模型和它也很接近;如果是预测V和P,只用问题训练效果更佳。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

那么如果把“段落”从前20个句子改成第21句呢?下表是只用“段落”的实验结果,可以发现,用最后一句效果更好,也就是说,它和正常模型的性能更接近。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

CNN任务

在这里,Gated Attention Reader在CNN任务上的准确率就差距较大了。这种下降可能是因为实体匿名化导致模型无法构建特定于实体的信息。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

SQuAD任务

这个结果表明,SQuAD这个数据集针对阅读理解任务做了精心设计,它最具挑战性。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

讨论

从实验数据可知,虽然同属阅读理解任务,但这些数据集存在不同的缺陷,也有各种漏洞可以钻。下面是我们为评估新的基线和算法设想的一些指导原则。这不是在指责以前的数据集制作者,相反地,这些纰漏能为未来的研究提供不小的价值。

提供严格的RC基线:已发布的RC数据集应包含表明任务难度的合理基线,尤其是它们所需的“问题”“段落”信息量,如果没有这些标准,我们就无法知道模型进步究竟取决于什么。

测试完整信息的必要性:在需要“问题”信息和“段落”信息的问题中,有时候真正起作用的只是部分信息。就像CBT任务,虽然只有二十几句话,但是我们用最后一句话就能训练媲美正常性能的模型。每个模型究竟需要多少信息量,这是研究人员应该标明的。

使用完型填空式的RC数据集时,保持谨慎:这类数据集通常是由程序批量制造的,很少有人参与。如果用它们训练模型,我们会找不到目前技术的局限,也排查不了。

此外,各类会议在推荐收录论文的数据集时,也应更注重严谨性,而不是只看创新性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3140

    浏览量

    48672
  • 基线
    +关注

    关注

    0

    文章

    12

    浏览量

    7955

原文标题:基线调研:让模型学会阅读理解需要多少信息?

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    STemwin究竟需要多大的内存?

    大家有没有对STemwin特别了解的,STemwin究竟需要多大的内存?就拿例程
    发表于 05-13 06:37

    【《大语言模型应用指南》阅读体验】+ 俯瞰全书

    上周收到《大语言模型应用指南》一书,非常高兴,但工作项目繁忙,今天才品鉴体验,感谢作者编写了一部内容丰富、理论应用相结合、印刷精美的著作,也感谢电子发烧友论坛提供了一个我了解大语言模型和机器学习
    发表于 07-21 13:35

    【《大语言模型应用指南》阅读体验】+ 基础篇

    今天开始学习《大语言模型应用指南》第一篇——基础篇,对于人工智能相关专业技术人员应该可以轻松加愉快的完成此篇阅读,但对于我还是有许多的知识点、专业术语比较陌生,需要网上搜索学习更多的资料才能
    发表于 07-25 14:33

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    信息有助于模型更深入地理解文本的含义和意图。 3. 推理与判断 在问答任务中,大语言模型不仅需要理解
    发表于 08-02 11:03

    基于LabVIEW的文本(txt)阅读

    本帖最后由 zhihuizhou 于 2011-11-25 14:57 编辑 基于LabVIEW的文本(txt)阅读器,虽然用处不是很大 ,但是还是可以作为labview练习提高自己对labview的认识和理解。。。。基于
    发表于 11-25 14:38

    如何阅读文本文件?

    嗨团队,谢谢你总是支持我,但我对阅读文本文件有一些问题?附件是我需要阅读文本文件。 BR;希博伊 以上来自于谷歌翻译 以下为原文Hi T
    发表于 01-29 06:39

    基于文本摘要和引用关系的可视辅助文献阅读系统

    近年来,科技论文发表数量与日俱增,科研人员需要阅读文献的数量也随之迅速增长.如何快速而有效地阅读一篇科技论文,逐渐成为一个重要的研究课题.另一方面,在阅读科技论文时,
    发表于 01-14 15:19 0次下载

    机器阅读理解的含义以及如何工作

    机器阅读理解,虽然看起来只是AI上阵来一场考试。但是却是自然语言处理技术中,继语音判断、语义理解之后最大的挑战:智能体
    的头像 发表于 01-16 13:47 6823次阅读
    机器<b class='flag-5'>阅读</b><b class='flag-5'>理解</b>的含义以及如何工作

    剥开机器阅读理解的神秘外衣

    所谓的机器阅读理解,基本概念跟咱们上学时做的阅读理解题很相似,同样都是给出一段材料和问题,“考生”给出正确答案。所不同的,仅仅是机器
    发表于 03-19 18:47 747次阅读
    剥开机器<b class='flag-5'>阅读</b><b class='flag-5'>理解</b>的神秘外衣

    如果把中学生的英语阅读理解选择题AI来做,会做出什么水平?

    与仅就问题感知或选择性文章表示进行计算的现有方法不同,DCMN能够计算文章感知问题表示和文章感知答案表示。为了证明DCMN模型的有效性,我们在大型阅读理解数据集(即RACE)上评估了模型
    的头像 发表于 04-19 10:49 3388次阅读

    会话式机器阅读理解概述

    理解的类型: 第一种是标准的阅读理解,该模式是指,给定一篇描述型的文章和一个基于事实型的问题,通过匹配文章和问题,从文章中抽取一个span来回答这个问题; 第二种是会话式的问答,与标准的单轮问答不同,
    的头像 发表于 11-25 16:07 2257次阅读

    一种基于多任务联合训练的阅读理解模型

    机器阅读理解是一项针对给定文本和特定问题自动生成或抽取相应答案的问答任务,该任务是评估计机系统对自然语言理解程度的重要任务之一。相比于传统的阅读
    发表于 03-16 11:41 10次下载
    一种基于多任务联合训练的<b class='flag-5'>阅读</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    基于LSTM的表示学习-文本分类模型

    文本表示和分类是自然语言理解领域的研究热点。目前已有很多文本分类方法,包括卷积网络、递归网络、自注意力机制以及它们的结合。但是,复杂的网络并不能从根本上提高文本分类的性能,好的
    发表于 06-15 16:17 18次下载

    面向文本多片段答案的抽取式阅读理解模式

    面向文本多片段答案的抽取式阅读理解模式
    发表于 06-24 16:35 6次下载

    深度揭秘工字电感究竟需要测量哪些参数的好坏

    展开剖析一些究竟工字电感要测量哪些参数。工字电感怎么测量好坏,关于测量的方法倒不是这个问题的重点,毕竟测量只需要借助专业的仪器设备就可以了。这个问题的重点是要弄明白究竟需要测量工字电感的哪些信息。根据我
    的头像 发表于 03-04 20:14 819次阅读
    深度揭秘工字电感<b class='flag-5'>究竟需要</b>测量哪些参数的好坏