机器的理解能力已经强大到可以超过人类？-电子发烧友网

想想这样一个画面：在剧院的舞台上，一名女子坐在一架钢琴前。

那么她将要：

A）坐在长凳上，同时，她的妹妹在玩洋娃娃；

B）当音乐响起时朝某人微笑；

C）在人群中，看舞者起舞；

D）紧张地把手指放置在琴键上；

事实上，作为人类，我们很容易地就能推断出可能的情况：一个女人在演奏钢琴，一群人在看着她。我们甚至还能推断她即将进行的下一步行动：她将自己的手放在钢琴键上，并开始演奏。

这是2018年8月，一家总部位于美国西雅图的艾伦人工智能研究所（Allen Institute for Artificial Intelligence），在一篇文献中提到的一道给机器的英语测试题。当时，机器的正确率只有大约60%。

但是现在看来，机器的理解能力正在，或许已经超越人类。

机器理解能力究竟如何？

所谓的机器阅读理解，其概念和大家学生时代所做的阅读理解基本相似，同样是给出一段材料和问题，给出正确答案，不过主角从人类换成AI模型。

虽然机器阅读理解看起来只是让AI上阵来一场考试，但是却是自然语言处理技术中，继语音判断、语义理解之后最大的挑战：让智能体理解全文语境。

简单的来看，语音识别帮助机器“听”，图像识别帮助机器“看”，但机器如何做到听懂和看懂，是语义理解解决的问题。

相比于拼写检查和自动翻译，语义理解不只是运算和记录，而是主动分析和理解，所以阅读理解问题一直被认为是自然语言处理（NLP）的标志性临界点。

自然语言处理的其中一个关键就是语义理解，因为机器无法做到人类对自然语言的理解，就比如文章开头的问题。所以，语义理解也一直被认为是“人工智能皇冠上的明珠”，它融合了语言学、计算机科学、人工智能，其目的就是“让机器可以理解自然语言”。

语义理解也一直是科研和资本关注的重要方向。据2018年年底腾讯研究院统计，在中国人工智能企业中，融资占比排名前三的领域分别是计算机视觉与图像，自然语言处理，以及自动驾驶/辅助驾驶，而排在第二名的自然语言处理，融资122亿元，占比19%。

“就像人去看电视一样，人是同时看着画面、听着声音、看着字幕来综合理解，人脑所作的工作就是多模态语义理解。”深思考人工智能CEO兼AI算法科学家杨志明在此前的“2019WISE超级进化者”中提到。

事实上，机器阅读理解的一些重要赛事和指标也正在被不断刷新和突破。

2018年，斯坦福大学著名的机器阅读理解赛事SQuAD，阿里巴巴曾凭借82.440的精准率打破了世界纪录，超越了人类82.304的平均得分。2018年11月，谷歌发布的BERT模型，在机器阅读理解顶级水平测试SQuAD1.1中，全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩。

而最近由中国计算机学会（中国计算机领域最权威学会）、中国中文信息学会（人工智能自然语义理解最权威学会）和百度公司联合举办的“2019机器阅读理解竞赛”中，经过全球2502个团队长达2个月的激烈角逐，深思考人工智能在两项评测指标中均登顶全球榜首，成功夺取全球冠军。

目前在很多公开的数据集上，如在英文最具权威的SQuAD2.0数据集中：EM和F1两个指标上，人类的表现分类为86.831和89.452，而目前PINGAN团队所研发的模型已取得了EM值88.592，F1值90.859的表现。

换句话说，某种程度上，机器的阅读理解水平已超越人类。

而在中文最具权威的DuReader数据集中，ROUGE-L和BLEU-4两个指标上，人类的表现为57.4和56.1，深思考所研发的BMAnet模型在这两项指标上取得了63.13和59.34的表现。

机器阅读理解是机器理解的重要任务，也是语义理解的重要组成部分。机器阅读理解中数据指标的突破，往往也就代表着机器理解或是语义理解的突破。

而深思考所取得的技术性突破，会在现实生活的应用场景中如何落地？

多模态，语义理解的不可或缺

“机器翻译准确度90%以上，万字翻译只需5秒钟”，或是“语音识别准确度超过98%”，这样的描述，代表着人工智能正在快速发展，图像和语音识别的准确率正在飞速提升。

但这距离真正的人工智能，仍然有不小的距离。尤其是在人工智能落地的场景之中，光靠图像识别的“看到”，和语音识别的“听到”是不足够的。

以日常生活中，大家接触的智能音箱和智能家居为例。

2017年Mingke Luo的《为什么现在的人工智能都像人工智障》曾刷屏朋友圈，而在今年年初，作者又写了一篇名为《所有智能音箱都是智障，包括Siri ！深度学习对此无能为力》的文章。其中提到一个有趣的实现，2016年底，作者对几个智能助理提一个看似简单的需求，“推荐餐厅，不要日本菜”，结果所有智能助理都给出一堆日本菜餐厅的推荐，而2年后，再做这个实验，问题依然没有解决，“不要”两个字仍然被一致忽略。

“人类说话的时候，往往是口语化的、不连续的、支离破碎的，甚至语序颠倒的。语音识别只停留在语音指令，不能理解用户语言及背后的逻辑，实际无法解决用户在很多场景中的刚需。”杨志明在采访中告诉36氪。

他以智能家居的对话场景举例。

比如用户对着家里的空调说，“请把空调调到28度”，这时几乎所有的空调都能够完成这样的指令。

但是如果用户对空调说，“我有点热了，把空调调低一点，调到我习惯的温度”，这时候语音识别就不能解决问题。这背后就有两层逻辑，第一，用户觉得热了，应该把空调打开，第二，就是调到用户平时习惯的温度，即存在个性化设置，机器需要理解用户语言背后的意义。

无论车载智能设备，还是智能音响、智能家居，用户使用这些产品的目的，都是为了更方便的生活，而目前来看，使用这些设备更多是用户通过“背”指令表完成。

杨志明提到一个形象的比喻，现实生活中，不少企业家和高管，都配备秘书，他们想要的秘书，绝不是一个只能遵从命令办事的执行员，更多是听懂他们，只需要一句“你去帮我办这个事情吧”，就能帮助他们解决问题的角色。有时，甚至是他们不用开口就知道该做什么的可以信任的人。

通过上下文的指代消解、意图理解、对话管理等技术，深思考推出的产品提升了机器阅读理解的能力，并为更多行业解决方案的落地，提供有效的产品支持。

以车联网场景为例，传统智能车载系统，通常通过驾驶室的智能语音交互屏幕实现人机互动。但随着座舱的发展，如今的驾驶室不再是一个简单的驾驶室，而是汽车行驶过程中的中央多模态信息的汇聚地。比如智能车联网场景下，汽车跟道路基础设施之间、汽车跟汽车之间、汽车跟互联网之间都能够做信息的连接和交互。车辆本身也通过视觉对车外的环境做感知与理解，再加上温度传感器、语音信息输入传感器等。

在智能车联网有很多模态的信息，有手势的模态、语音的模态、图像的模态。数字化场景下，深思考提供的技术，就能为对上述多模态信息进行综合理解，为人车交互提供智能大脑。同时，还可以在座舱环境下，实现人、车和家庭的连接。

再加上RPA自动软件机器人，不光可以实现人车对话，车辆还可以自动帮助驾驶员完成任务，比如预定会议室、与其他智能设备的联动、执行等。

“比如看一个电视剧，眼睛看画面、耳朵听声音、眼睛看字幕，对不同事物不同状态，人脑可以同时做理解。但AI还停留在识别与感知阶段，人脑更多是语义理解，而且是多模态理解。”杨志明在去年的一次分享中提到，模拟的人脑举一反三，在目前AI小的计算资源下快速和低功耗的运行，是深思考致力解决的类脑AI技术。

作为人工智能研究中最难的部分，语义理解技术的发展，让机器有了更强的阅读理解能力，这也让未来人机交互有了更多可能性。

未来的可能性

“最新语义理解的技术，可以像人一样，看完一本书以后，问你这本书里面的问题。它对这本书里面的非结构化的信息进行多模态理解以后，可以像人脑理解以后再回答问题。”杨志明在采访中提到，人在看完一本书回答问题时，不会先整理出问答对或者知识图谱，而是凭借大脑的理解，直接回答别人的问题。

目前，深思考所研发的技术已经具备了上述能力。通过非结构化、长文本的机器阅读理解，避免了传统语义理解或者智能客服，用大量的人力物力去构建知识图谱或者问答对。而借此，深思考能让语义理解，像语音识别和图像识别一样，进行大规模的商业化场景的落地。

杨志明解释，深度学习的快速发展，也为语义理解带来更多的提升。比如意图分类等统计学记忆方法的准确不高，深度学习进一步发展，进一步提高了这类语义识别的技术。其次，深度学习之下的新型语义理解模型，让语义理解准确度变得更高了，实现了突破。

今年6月，工信部正式对国内运营商发放5G牌照，国内的第四大运营商也正式诞生，让人们看到，无人驾驶和远程手术的近在咫尺。虽然离大规模商业化应用还有一定时间，但是5G对人工智能带来的改变也是值得期待的。

《2019年中国人工智能行业市场分析》中提到，国际会计师事务所毕马威近日发布研究认为，当前，5G技术在主要垂直行业的全球市场潜在价值预计可达4.3万亿美元，而这4.3万美元的市场，显然离不开AI的作用。

“更重要的是解决及提升物联网和AIoT设备语义理解的能力。”杨志明告诉36氪，5G的三大技术特点“高速率、低延迟、超大数量终端”让物联网设备大有可为，但离线端语义识别的技术突破，也不可小觑，未来在端的部分，也可能会有语义理解芯片的成功研发。

杨志明举例，比如在无人驾驶场景中，时常会面对信号弱的情况，例如过山洞、隧道等，同时，虽然5G能够连接超大数量的终端，但是终端连接的越多，传输的速度就越慢，这就需要终端同样具备部分的语义理解的能力。

未来的场景之中，更多的情况是，终端设备首先具备各项传感器，能够多维度的收集信息和数据，同时芯片的植入，又能让这类设备具有如图像识别、语音识别、语义理解等人工智能能力，而云端则是更强大和更准确的技术支持。一方面，如果所有终端的处理，都由云完成，云的压力过大，另一方面终端设备必须具备复合的能力，才能让机器更好的理解人类意图。这也印证了，杨志明始终坚持的方向，语义理解一定是多模态的。

同时，产业互联网的发展，也为人工智能应用的落地，提供了良好的环境，产业互联网实现的是，不同行业之中的互联网等技术的落地以及场景闭环，这和人工智能所在做的突破是一样的。

杨志明此前提到，AI语义理解里面的关键点，实现AI的落地场景的四个闭环，包括，业务闭环、数据闭环、模型闭环和产品闭环。目前深思考在智能车联、医疗健康、智能家居、智能手机等方向，均有头部客户实现成功的商业落地。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器

机器

+关注

关注
0

文章
784

浏览量
40757
理解

理解

+关注

关注
0

文章
4

浏览量
8035

【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

的设计不仅提高了机器人对环境的理解能力，还使其能够更精准地执行复杂任务。扩散模型的新思路除了大模型，扩散模型的引入为机器人控制开辟了新的研究方向。在以UniPi为代表的创新工作中，通过用户的自然语言

发表于 12-29 23:04

【「具身智能机器人系统」阅读体验】1.初步理解具身智能

人需要理解环境，适应变化的环境。从国际上来看，已经有不少科技公司发布了自己的机器人产品，大多数应用在安保，物流，制造等场景。中国在具身智能机器人领域的研发速度相对较慢，但经过多年的

发表于 12-28 21:12

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

将自然语言理解与运动规划融为一体。这种端到端的方法使机器人能够直接从人类指令生成动作序列，大幅简化了控制流程。该项目的工作流程包含设计并封装一个人机

发表于 12-24 15:03

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

嵌入式人工智能（EAI）将人工智能集成到机器人等物理实体中，使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效

发表于 12-24 00:33

使用ReMEmbR实现机器人推理与行动能力

视觉语言模型（VLM）通过将文本和图像投射到同一个嵌入空间，将基础大语言模型（LLM）强大的语言理解能力与视觉 transformer（ViT）的视觉能力相结合。VLM 可以处理非结构

发表于 11-19 15:37 •283次阅读

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

学习并优化自己的行为，以更好地服务家庭成员。具身智能的发展如何？近年来，具身智能机器人的发展呈现出强劲势头，尤其是在智能化和自主决策能力方面。自 2010 年以来，具身智能机器人已经

发表于 11-11 10:20

心智理论测试:人工智能击败人类

测试结果并不一定意味着人工智能可以“理解”人。心智理论是指可以理解他人心理状态的能力，正是它驱使着人类

发表于 11-08 10:54 •313次阅读

使用LLM进行自然语言处理的优缺点

语言任务，如文本分类、情感分析、机器翻译等。以下是使用LLM进行NLP的一些优缺点：优点强大的语言理解能力 ： LLM通过训练学习了大量的语言模式和结构，能够理解和生成自然语言文本

发表于 11-08 09:27 •519次阅读

机器人技术的发展趋势

。机器人能够通过学习和训练，不断优化自身的行为和性能，实现更高效、更智能的工作。自然语言处理与理解：随着自然语言处理技术的进步，机器人开始具备理解和表达情感的

发表于 10-25 09:27 •1090次阅读

Al大模型机器人

理解能力强大: AI大模型机器人可以理解和生成自然语言，能够进行复杂的对话和语言任务。它们能够识别语言中的语义、语境和情感，并据此作出适当的回应。广泛的知识储备: 这些模型基于大规模的

发表于 07-05 08:52

请问ESP32-C3蓝牙如何获取RSSI的值？

各位大佬，小弟刚接触ESP-IDF不久，摸索了一段时间，物联网的基本流程已经摸索的差不多了。现在想知道ESP32-C3通过蓝牙与手机建立连接后，怎么才能获取当前手机端到开发板的RSSI值，我应该去参考哪些例程？本人英语实在是太差，理

发表于 06-13 07:47

开发者申请Gemini 1.5 Pro API Key：轻松获取Gemini 1.5 Pro模型API Key并开发部署AI应用

Google Gemini Pro 1.5重大更新：新增音频理解、单次处理任何格式数据、更强大的函数调用和JSON模式，DataLeanrerAI实测音频理解能力优秀，且同时Gemini 1.5

发表于 06-10 18:21 •1589次阅读

AI具备特定任务中接近甚至超越人类的心理状态能力

心理状态感知能力，又称心智理论，对于人类社交至关重要。来自德国汉堡-埃彭多夫大学医学中心的James W. A. Strachan及其团队设计了一系列测试，以评估AI模型在发现错误观念、理解间接言辞以及辨识不敬等多个维度的表现。

发表于 05-27 16:08 •433次阅读

【大语言模型：原理与工程实践】揭开大语言模型的面纱

了如BERT和GPT等划时代的模型。BERT通过双向训练增强了文本理解能力，而GPT则展示了强大的文本生成能力。大语言模型，拥有数百亿甚至更多参数，已成为自然语言处理领域的佼佼者，展现出强

发表于 05-04 23:55

机器视觉网卡：连接摄像头和计算设备之间的桥梁

机器视觉是一门涉及计算机科学和人工智能的领域，它致力于让计算机系统具备类似于人类视觉的能力。通过使用摄像头和图像处理算法，机器视觉系统可以感

发表于 03-25 17:59 •914次阅读

搜索历史

机器的理解能力已经强大到可以超过人类？

未来的可能性

评论

【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

【「具身智能机器人系统」阅读体验】1.初步理解具身智能

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

使用ReMEmbR实现机器人推理与行动能力

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

心智理论测试:人工智能击败人类

使用LLM进行自然语言处理的优缺点

机器人技术的发展趋势

Al大模型机器人

请问ESP32-C3蓝牙如何获取RSSI的值？

开发者申请Gemini 1.5 Pro API Key：轻松获取Gemini 1.5 Pro模型API Key并开发部署AI应用

AI具备特定任务中接近甚至超越人类的心理状态能力

【大语言模型：原理与工程实践】揭开大语言模型的面纱

机器视觉网卡：连接摄像头和计算设备之间的桥梁