阿里达摩院刷新纪录，开放域问答成绩比肩人类水平-电子发烧友网

近日，由阿里巴巴达摩院语言技术实验室研发的 Multi-Doc Enriched BERT 模型在微软的 MS MARCO 数据评测任务，Passage Retrieval Task（文档检索排序）和 Q&A Task（开放域自动问答）中双双刷新记录，均取得榜首（截止 2019 年 6 月 26 日）。

MS MARCO 挑战赛是 AI 阅读理解领域的权威比赛，包含 100 多万问题和近千万篇文档，参赛机构提供的 AI 模型需要从这些文档中找出 100 万个问题的正确答案。参与此次评比的还有微软、Facebook 等公司。

与斯坦福大学发起的 SQuAD 挑战赛不同，MS MARCO 数据集模拟了搜索引擎中的真实应用场景，其难度更大，是机器阅读理解领域最有应用价值的数据集之一。MS MARCO 挑战赛需要参赛者提交的模型具备理解长文档多段落，并回答复杂问题的能力。对于每一个问题，MS MARCO 提供多篇来自搜索结果的网页文档，AI 需要通过阅读这些文档来回答用户提出的问题。但是，文档中是否含有答案，以及答案具体在哪一篇文档或段落中，都需 AI 自己来判断解决。

更难的是，有一部分问题无法在文档中直接找到答案，需要 AI 自由发挥做出判断。这对机器阅读理解提出了更高要求，需要 AI 具备综合理解多文档信息、聚合生成问题答案的能力。

阿里的突破在于提出了基于“融合结构化信息 BERT 模型”的“深度级联机器阅读模型”，可以模仿人类阅读理解的过程，先对文档进行快速浏览，判断，然后针对相应段落进行精读，并根据“自己的理解”回答问题。其中，阿里巴巴自研的算法成果——“深度级联机器阅读模型”已被 AAAI 2019 收录。

这是继 2018 年《Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering》（ACL 2018）在单文档阅读理解（斯坦福 SQuAD 挑战赛）取得的成果后，阿里巴巴研究团队在机器阅读理解领域的又一次突破。

机器阅读理解模型需要的输入是，业务应用中，枚举所有Document，计算并排序答案后给出最终答案显然不实际；另一方面，设计完全的 IR+MRC 的端到端（End2End）模型，并辅以 Joint Trainning 在线上部署和实际使用时也会遭遇模型过大导致的性能瓶颈。因此，采用 Question 相关文档选择及文档中段落裁剪，并将有限且相关的备选段落交给 MRC 模型的方案是兼顾 Effectiveness 和 Efficiency 的核心策略。

阿里巴巴研究团队在 MS MARCO 上提交的 Multi-Doc Enriched BERT 模型，正是为了解决上述问题。团队先于2019年初提出了级联学习框架《A Deep Cascade Model for Multi-Document Reading Comprehension》（AAAI 2019），设计出深度级联机器阅读框架，该方案可有效降低召回阶段延时，并最大化答案准确率，算法在召回和排序上逐步从文档级别，段落级别演化，并在最后有限的备选段落中进行答案提取工作。

随后，研究团队提出了 Enriched BERT 模型，配合 Deep Cascade Model 框架，在多文阅读理解上超过了之前广泛使用的 IR Based MRC 模型。其中，负责提供语义表征的 Enriched BERT 模型除了在 MS MARCO 上作为语言模型帮助取得双料冠军外，在国际公认的自然语言理解标准数据集 GLUE Benchmark 上也取得了 Top3 的成绩（相关技术近期公开）。

特别在 MS MARCO Q&A Task 上，阿里方面称，较之前最先进的模型有 1.5% 的 Rouge-L 绝对提升。此外，在 MS MARCO Passage Retrieval Task 上，他们自研的 Enriched BERT Base 模型领先于其他模型。

阿里方面介绍，阿里 AI 可以像人类一样在阅读并理解后快速应对天马行空的问题。比如阿里 AI 可以在毫秒内读完 2 亿字的巨著，相当于 5 本《大英百科全书》，并根据自己的理解快速回答 100 多万个不同领域的不同问题。例如 2014 年足球世界杯的冠军是谁？哈利波特在哪里上学的？什么是宇宙中最强的磁场？阿里 AI 可以分别迅速给出答案，这一研究水平可以应对高中英语阅读理解试题。

（这一AI能力已应用在阿里电子商务平台中）

对人类而言，阅读是获取知识、不断进步的重要途径；对机器而言，同样如此。阿里 AI 这一成果揭示了机器在理解大量复杂材料以及回答现实生活中复杂问题方面的潜力。

据阿里方面介绍，这一技术已经开始大规模应用，例如去年在 Lazada 一次线上促销活动前，阿里 AI 仅仅花了 30 毫秒就学会 25 个在印尼促销品销售中的所有规则，并成功应用到聊天机器人中，在活动中回答问题方面的准确率达到了 96%。

围绕电商服务、导购及任务助理为核心的智能人机交互产品，在活动，规则，指南等场景中替代人工构建知识，降低人工成本，提升认知智能能力，为海量的活动规则咨询提供解答服务。在近年来的双 11，双 12 场景及最近的 618 大促中维护效率提升 50%，相比通用方案解决率提升 10%。同时，这一技术也活跃在政务场景如市⺠办事咨询中，基于浙江省百万级办事指南库，”身份证到哪里换“这类咨询从等待人工回复时⻓ 2.5 天提升到了秒级响应。

以多文档开放问答场景的机器阅读为代表的语言理解技术是自然语言处理的基础能力之一，在这些基础能力之上，阿里巴巴可围绕该技术构建一系列问答类应用。在产业落地方面，问答平台及聊天机器人产品等会伴随这项技术丰富其自身能力，降低人力成本提高效率；对于消费者来说，智能客服以后可以帮助消费者在购物时有更好的体验。

当前，无论是在工业界还是学术界，各方研究团队都在机器阅读理解上投入大量精力。未来，除了对话和问答场景，在搜索场景中，搜索引擎将不仅仅是返回用户相关的链接和网⻚，而是通过对互联网上的海量资源进行阅读理解，直接得出答案返回给用户。

附：级联机器阅读理解模型详解

阿里方面提供的资料显示，级联学习可以通过在不同阶段采用不同的特性选择和样本筛选策略达到效果和性能的平衡，阿里巴巴提出的多文档机器阅读模型首先利用简单特征和排序模型过滤掉与问题无关的样本和段落，并得到一组候选文本，供后续从中提取答案。然后将生成的段落传递给基于注意力的深层 MRC 模型（不同于传统多层 MRC，阿里巴巴研究团队在近期公布的 Google BERT 进行了进一步的创新优化，并设计了基于 Enriched BERT 的新 MRC 模型），该模型用于提取单词级别的实际答案跨度。

为了进一步提升模型效果，该模型使用文档提取和段落提取作为辅助任务，以快速减少搜索空间的范围。重要的是，这三个任务在统一的深层 MRC 模型中共享同一个底层语言模型（Enriched BERT），这不仅可以实现粗到细的演绎过程，还可以通过迭代有效地学习更好的模型。

如上图所示，系统架构由三个核心模块组成，分别负责文档检索、段落检索和答案提取。对于前两个功能中的每一个功能，都定义了一个排序函数和一个提取函数。排序函数用于无关内容的过滤（Efficiency）。提取函数将文档提取和段落提取作为辅助任务并与最终答案提取模块（机器阅读理解）联合优化，以提高性能（Effectiveness）。所采用的方案与以前的方法相比，关键的改进是每个模块的本地排序功能在成本和复杂性上逐步增加，在整个计算过程中保持效率和有效性竞争因素之间的平衡。

在实验中（备注：AAAI 2019 的实验中不包含 Enriched BERT 结果，后续公布），模型开发人员首先用 TriviaQA Web 和 DuReader 基准数据集验证了在离线测试中的有效性，这两套数据集通常被用作多文档 MRC 评测的标准数据集。该基准数据的结果表明，研究人员所提出的模型明显超过了以前最先进的模型，在每个包含两个段落四个文档集的场景中性能最佳；此外，通过额外的辅助任务在初期排序中消除不相关的文档和段落，时间成本被证明是可以降低的，可以在不显著影响最终答案提取效果的情况下完成。

经过验证，团队使用阿里小蜜客服机器人系统进行了在线环境测试，该系统旨在帮助阿里巴巴集团电子商务平台解决每日约 200 万名访问者提出的问题。这些测试表明，该模型能够以低于 50 微秒的速度满足请求，同时也提高了有效性标准。

上述结果表明，通过减少无关内容的“噪声”，该模型可以大大改善现有的最先进在线答疑系统标准，同时更好地平衡提取过程各个阶段效率和有效性。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30726

浏览量
268870
阿里巴巴

阿里巴巴

+关注

关注
7

文章
1613

浏览量
47163
模型

模型

+关注

关注
1

文章
3226

浏览量
48804

原文标题：阿里达摩院刷新纪录，开放域问答成绩比肩人类水平，超微软、Facebook

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

认识一下阿里的AI殿堂-达摩院精选资料分享

国内三大科技领头羊BAT，BT我们已经介绍过，今天随我一起揭开阿里巴巴技术背后的神秘面纱。1达摩院的诞生1.1 冠名与成立2017年10月11日，第八届云栖大会在杭州拉开了帷幕，这次大会上，马云重磅

发表于 07-28 08:10

阿里要建“达摩院”,马云、胡晓明、张建峰他们这样说

马云对达摩院下了三个原则：“达摩院要活得比阿里巴巴长，有一天即使阿里巴巴不在了，

发表于 10-12 10:15 •2595次阅读

今年黑五海信再次刷新纪录 65万台4K高清电视被美国消费者抢购一空

继去年海信“黑色星期五”购物狂欢节大卖52万台4K电视创下纪录之后，今年“黑五”海信再次刷新纪录，65万台4K高清电视被美国消费者抢购一空，甚至不少卖场的消费者为抢购海信电视都差点打起来了。在这两天的网络上，一些抢购海信电视的视频被不断热传，让不少国内消费者

发表于 11-26 17:35 •1537次阅读

随着激光电视价格不断刷新纪录，替代大尺寸液晶电视的时机终于来了吗？

近日，激光电视价格不断刷新纪录，继极米科技发布万元级1080p激光电视（不含幕布）之后，海信也发布了两万元以内的4K激光电视（含幕布），激光电视价格下滑的趋势不可阻挡。

发表于 08-22 16:15 •3293次阅读

海信“黑五”刷新纪录 65万台4K高清电视被美国消费者抢购一空

发表于 11-26 17:21 •1465次阅读

阿里达摩院发布2019十大科技趋势

1月2日，阿里达摩院发布《2019十大科技趋势》，在未来的一年，科技领域究竟会再次迎来春天，还是继续在寒冬中前行，达摩院给出了自己的判断。

发表于 01-03 10:56 •3093次阅读

阿里达摩院首份科技趋势报告出炉：2019年十大科技趋势预测

阿里达摩院发布了《2019十大科技趋势》，据悉这是达摩院自2017年10月成立以来发布的首份科技趋势报告。

发表于 02-07 04:36 •2914次阅读

阿里达摩院2020十大科技趋势发布芯片设计将像搭积木一样快速

1月2日，阿里巴巴达摩院发布“达摩院2020十大科技趋势”。这是达摩

发表于 01-02 13:53 •2908次阅读

阿里达摩院自然语言理解技术夺冠 AI技术将进一步落地发展

3月3日消息，在全球自然语言处理领域顶级赛事GLUE Benchmark中，阿里巴巴达摩院以平均分90.3分的成绩夺冠，刷新自然语言理解技术

发表于 03-03 11:46 •589次阅读

<b class='flag-5'>阿里</b><b class='flag-5'>达摩</b><b class='flag-5'>院</b>自然语言理解技术夺冠 AI技术将进一步落地发展

阿里巴巴达摩院刷新自然语言理解技术世界纪录将推进AI技术在各领域的落地

3月3日消息，在全球自然语言处理领域顶级赛事GLUE Benchmark中，阿里巴巴达摩院以平均分90.3分的成绩夺冠，刷新自然语言理解技术

发表于 03-03 13:56 •2710次阅读

《Beat Saber》卖出200万份在虚拟现实社区中不断的刷新纪录

3月18日消息，Facebook宣布《Beat Saber》在所有VR平台卖出了超过200万份。这款游戏在虚拟现实社区中不断的刷新纪录，同时它成功的为艺人和粉丝之间搭建了彼此之间联系的平台：下载内容卖出来超过1000万份单曲。

发表于 03-18 10:24 •655次阅读

阿里达摩院斩获AI相关6大权威冠军，部分能力已超越人类

8月26日，阿里达摩院语言技术实验室取得一系列突破，斩获自然语言处理（NLP）领域6大权威技术榜单冠军。据介绍，参与竞赛的6项自研AI技术均采用模仿人类的学习模式，全方位提升了机器的语

发表于 08-27 10:04 •1695次阅读

<b class='flag-5'>阿里</b><b class='flag-5'>达摩</b><b class='flag-5'>院</b>斩获AI相关6大权威冠军，部分能力已超越<b class='flag-5'>人类</b>

阿里达摩院到底取得了哪些技术突破?

系统等等，而就在2月初，阿里旗下的达摩院也正式对外官宣了一项数据成绩，马云携手阿里在2017年成立了达摩

发表于 02-05 16:28 •3689次阅读

阿里达摩院都在研究什么

自从阿里四年前花费1000亿成立达摩院以来，外界对达摩院的质疑不断，那么到底在研究什么？

发表于 03-30 17:12 •2873次阅读

中国协作机器人销售量曝光!一路狂飙刷新纪录！

中国协作机器人销售量曝光!一路狂飙刷新纪录！

发表于 05-23 10:55 •931次阅读

搜索历史

阿里达摩院刷新纪录，开放域问答成绩比肩人类水平

评论