讯飞人工智能研究院联合团队再次在SQuAD 2.0挑战赛中有了新突破-电子发烧友网

由斯坦福大学发起的国际权威机器阅读理解评测SQuAD（Stanford Question Answering Dataset），相信很多小伙伴已经并不陌生，从1.0、1.1再到2.0，比赛难度持续升级。在谷歌、微软亚洲研究院、IBM研究院、阿里巴巴达摩院、平安科技、上海交通大学、复旦大学等众多参赛的国内外知名研究机构和高校中，科大讯飞从2017年成为首次取得赛事榜首的中国本土研究机构起，已四次刷新比赛榜单第一。

就在最近，哈工大讯飞联合实验室（HFL）与河北省讯飞人工智能研究院联合团队再次在SQuAD 2.0挑战赛中有了新突破：不仅再再再再再次登上榜单第一，还全球首次在全部两项指标上都超过了人类平均水平，一举创下比赛的全新纪录。

科大讯飞在机器阅读理解领域的实力已不言而喻，这次突破背后又有怎样的故事，“秘籍”何在？当机器学会做阅读理解，甚至比人类的答题水平还胜出一筹时，TA们能为我们带来怎样的改变和影响？

SQuAD 2.0好难一比赛！

要会答题，还要会拒绝答题

虽然之前已对SQuAD比赛有过几次介绍，还是让我们先复习一下这项比赛的关键信息：

TA是认知智能行业内公认的机器阅读理解领域顶级水平测试，通过吸收来自维基百科的大量数据，构建了一个包含十多万问题的大规模机器阅读理解数据集。

参赛者提交的系统模型在阅读完数据集中的一个篇章内容之后，回答若干个基于文章内容的问题，然后与人工标注的答案进行比对，得出精确匹配（Exact Match）和模糊匹配（F1-score）的结果。

精确匹配EM：机器给出的答案和人给出的一样才算正确；模糊匹配F1：机器答案短语切成词后与人给出的答案共同计算回归率与准确性，就算没有完全匹配也可以得分。

对于机器而言，存储、运算，甚至图像、语音的识别都已不在话下，但是想要读懂文章内容并做出回答，没有人类思维大脑的机器还是非常困难的。

SQuAD 2.0的比赛则在上面任务的基础上，把难度再次提升：加入“不可回答的问题”。也就是说，参赛系统阅读完篇章内容后再读题，如果这个问题不能通过之前读完的内容回答，要拒绝回答；如果判断可以回答，那么再给出篇章中的某个连续片段作为答案。

双指标超过人类水平！

讯飞答题有妙招

如此高难度的阅读理解比赛，如果让人类来答题，水平几何呢？

人类的成绩是：EM：86.831；F1：89.452

讯飞此次参赛系统的成绩是：EM：87.147；F1：89.474

虽然差距不算太大，但已是全球首次在这两项指标上都超过人类水平了！就在去年11月，哈工大讯飞联合实验室刷新SQuAD 2.0比赛榜单时的成绩，还与人类认知水平在该数据集上的效果有一定差距。短短不到半年的时间，科大讯飞已经取得了弥足珍贵的进步。

首次超越人类水平的背后，得益于提交的“BERT + DAE + AoA”参赛模型，模型融合了业界领先自然语言语义表示模型BERT和团队持续积累改进的层叠式注意力机制（Attention-over-Attention，AoA），在吸收业界最新前沿技术的同时又加入了已有的原创核心技术，将该评测的相关技术指标推向新的高度。

哈工大讯飞联合实验室参赛提交系统一览

超越人类不是目的

汽车、司法都已助力

也许你会疑惑，机器在阅读理解上的水平获得这样的突破与成绩，难道是为了超越人类、成为做题机器？

核心技术评测中的积累，最终是为了将技术更好应用到实际产品中，让人们亲身体会到技术带来的改变。阅读理解技术其实已经在汽车、司法领域有所应用，例如一些车型中的车载电子说明书产品，通过机器阅读汽车领域相关的材料，使机器深度理解并掌握对该车型的相关知识。用户提出相关问题之后，产品不仅可以快速反馈相关的章节，还能利用阅读理解技术进一步挖掘并反馈更精准的答案；这样就能够减少用户的阅读量，提高信息获取的速度。

在司法领域，哈工大讯飞联合实验室出品的“法小飞”智能法律咨询助手也应用了对话型阅读理解技术，带来优质快速的法律咨询和相关服务，为用户提供精准的答案，还提升了用户的对话交互体验。

技术探索的脚步还在涉足更广的领域，目前科大讯飞还在积极探索其他类型的阅读理解，例如基于知识、常识的阅读理解，对话型阅读理解以及基于综合线索的阅读理解等。

在比赛指标上超越人类水平并不是结束，对于机器阅读理解的“能理解会思考”的终极目标来说，也许这仍是一个全新的开始。对自然语言的更深层次的归纳、总结、推理，一定是未来机器阅读理解不可缺少的部分；落地应用，机器阅读理解技术在产品的精准问答、开放域的问答都能起到有力的支撑作用，未来还会有怎样的产品让我们收获更多惊喜，科大讯飞将全力以赴给出答案。

哈工大讯飞联合实验室

哈工大讯飞联合实验室（HFL）是科大讯飞针对“讯飞超脑”项目计划，重点引进和布局的核心研发团队之一，由科大讯飞AI研究院与哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）共同创办。根据联合实验室建设规划，双方将在语言认知计算领域进行长期、深入合作，具体开展阅读理解、自动阅卷、类人答题、人机对话、语音识别后处理、社会舆情计算等前瞻课题的研究。重点突破深层语义理解、逻辑推理决策、自主学习进化等认知智能关键技术，支撑科大讯飞实现从“能听会说”到“能理解会思考”的技术跨越，并围绕教育、司法、人机交互等领域实现科研成果的规模化应用。

哈工大讯飞联合实验室不仅在核心技术上持续深耕，同时也积极关注和推动中文信息处理的研究发展。在2017年和2018年，哈工大讯飞联合实验室先后承办了两届“讯飞杯”中文机器阅读理解评测（CMRC）受到了业界广泛关注和各界研究人员的积极参加，并且发布了相关中文数据集，进一步促进了中文机器阅读理解研究。今年将继续携手中国中文信息学会计算语言学专业委员会（CIPS-CL）承办相关中文机器阅读理解评测活动，持续推动中文机器阅读理解技术的研究发展。

所获荣誉：

1. 多次荣登国际权威机器阅读理解评测SQuAD 1.1榜首

2. 多次荣登国际权威机器阅读理解评测SQuAD 2.0榜首

3. 2018年2月，荣获国际语义评测SemEval 2018阅读理解任务冠军

4. 2018年12月，荣获对话型阅读理解评测CoQA冠军

河北省讯飞人工智能研究院

科大讯飞河北省讯飞人工智能研究院，成立于2019年1月，是科大讯飞推动人工智能战略落地，助力京津冀区域人工智能规模化应用和产业发展重要核心研发团队之一。研究院重点聚焦人工智能中认知智能技术，实现认知基础前沿技术、教育认知技术、司法认知技术等技术在政务、各公共服务等领域的应用。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1797

文章
47876

浏览量
240895
数据集

数据集

+关注

关注
4

文章
1210

浏览量
24865
科大讯飞

科大讯飞

+关注

关注
19

文章
819

浏览量
61564

原文标题：全球首次！科大讯飞SQuAD 2.0比赛全部指标超越人类平均水平

文章出处：【微信号：iFLYTEK1999，微信公众号：科大讯飞】欢迎添加关注！文章转载请注明出处。

主线科技荣获全国人工智能应用场景创新挑战赛一等奖

此前，1月17-19日，“场景驱动·数智强国”2024第二届全国人工智能应用场景创新挑战赛全国总决赛在深圳圆满举办，作为全国人工智能应用场景创新领域的高规格赛事，共有110个

发表于 01-21 10:56 •224次阅读

航天宏图荣获全国人工智能应用场景创新挑战赛一等奖

近日，第二届全国人工智能应用场景创新挑战赛总决赛暨全国人工智能应用场景创新峰会在深圳落幕。航天宏图智慧林草团队联合卫星运营、天权大模型、国土

发表于 01-21 10:14 •172次阅读

汉王在上地UPSIDE人工智能创新创业挑战赛中荣获三等奖

近日，备受瞩目的上地UPSIDE人工智能创新创业挑战赛颁奖盛典暨AI未来发展论坛在北京隆重举行。本次盛会汇聚了众多行业精英、专家学者、政府部门代表以及企业代表，共同探讨人工智能技术的创

发表于 01-20 10:41 •198次阅读

EDA精英挑战赛赛果公布！思尔芯“战队”薪火相承斩获“麒麟杯”

2024中国研究生创芯大赛·EDA精英挑战赛12月7-8日，2024中国研究生创芯大赛·EDA精英挑战赛（原“集成电路EDA设计精英挑战赛”

发表于 12-11 01:03 •468次阅读

EDA精英<b class='flag-5'>挑战赛</b><b class='flag-5'>赛</b>果公布！思尔芯“战队”薪火相承斩获“麒麟杯”

e络盟社区携手恩智浦发起智能空间楼宇自动化挑战赛

安富利旗下全球电子元器件产品与解决方案分销商e络盟社区与恩智浦联合发起围绕智能空间楼宇自动化设计的全新挑战赛。本次挑战赛邀请工程师和技术爱好者利用恩智浦FRDM MCX A 系列（A1

发表于 11-14 10:44 •317次阅读

e络盟社区携手恩智浦发起<b class='flag-5'>智能</b>空间楼宇自动化<b class='flag-5'>挑战赛</b>

科大讯飞拟在绵阳建设人工智能协同创新中心

近日，科大讯飞与四川省绵阳市游仙区正式签署投资协议，计划在该市建设科大讯飞人工智能协同创新中心及机器人超脑平台应用分中心项目。

发表于 11-11 14:53 •553次阅读

陈天桥雒芊芊脑科学研究院在人工智能领域取得重大突破

陈天桥雒芊芊脑科学研究院（TCCI）的人工智能团队，凭借其在大脑与记忆领域的深厚造诣，于人工智能界取得了

发表于 11-01 11:11 •591次阅读

2024年ICPC与华为挑战赛冠军杯圆满落幕

近日，2024年ICPC&华为挑战赛冠军杯在深圳圆满落幕。该活动由华为和ICPC联合举办，汇聚全球顶尖的编程人才，共同探讨和解决具有挑战性的工业界真实问题，并对未来技术发展趋势及关键

发表于 10-27 16:00 •918次阅读

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

了电力的实时平衡和优化，有效降低了电网的运行成本和故障率。此外，书中还讨论了人工智能在能源科学研究中的挑战和机遇。这些

发表于 10-14 09:27

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

很幸运社区给我一个阅读此书的机会，感谢平台。《AI for Science：人工智能驱动科学创新》第4章关于AI与生命科学的部分，为我们揭示了人工智能技术在生命科学领域中的广泛应用和深远影响。

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

人工智能：科学研究的加速器第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进技术，AI能够处理和分析海量

发表于 10-14 09:12

中国电信人工智能研究院完成首个全国产化万卡万参大模型训练

近日，中国电信人工智能研究院宣布了一项重大技术突破：成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型。

发表于 09-30 16:41 •1786次阅读

risc-v在人工智能图像处理应用前景分析

定制性。这些特点使得RISC-V在多个领域，包括人工智能图像处理领域，具有显著的优势。二、RISC-V在人工智能图像处理中的优势开源性和灵活性： RISC-V的开源性意味着任何人

发表于 09-28 11:00

燧原科技与中国电子信息产业发展研究院签署战略合作协议

协议，燧原科技首席公共事务官蒋燕、赛迪研究院相关部门负责人陪同调研。座谈会上，双方针对人工智能和人工智能芯片产业发展等主题进行了深入交流。赵立东详细介绍

发表于 07-09 16:30 •1290次阅读

香港城市大学与富士康鸿海研究院成立联合研究中心

来源：富士康香港城市大学（城大）与鸿海科技集团（富士康）旗下的鸿海研究院共同成立了 "富士康-城大联合研究中心"。该中心旨在结合产学界的科研力量，推动人工智能、半导体、下一代通讯、信

发表于 06-21 14:37 •518次阅读

搜索历史

讯飞人工智能研究院联合团队再次在SQuAD 2.0挑战赛中有了新突破

评论

主线科技荣获全国人工智能应用场景创新挑战赛一等奖

航天宏图荣获全国人工智能应用场景创新挑战赛一等奖

汉王在上地UPSIDE人工智能创新创业挑战赛中荣获三等奖

EDA精英挑战赛赛果公布！思尔芯“战队”薪火相承斩获“麒麟杯”

e络盟社区携手恩智浦发起智能空间楼宇自动化挑战赛

科大讯飞拟在绵阳建设人工智能协同创新中心

陈天桥雒芊芊脑科学研究院在人工智能领域取得重大突破

2024年ICPC与华为挑战赛冠军杯圆满落幕

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

中国电信人工智能研究院完成首个全国产化万卡万参大模型训练

risc-v在人工智能图像处理应用前景分析

燧原科技与中国电子信息产业发展研究院签署战略合作协议

香港城市大学与富士康鸿海研究院成立联合研究中心