未来机器智能时代：如何让机器听懂世界-电子发烧友网

语言承载了人类文化，人类需要通过语言学习知识和传递信息，这是人类区别于动物界最重要的特性之一。

因此，未来的机器智能时代，机器也必然需要通过语言实现与人类之间的交互，似乎最近的科幻片都已经暗示了这个问题。

现在的科幻就是未来的现实，因此，让机器听懂世界，这是未来机器智能时代的关键问题，也是人类一个更大的梦想，但是，我们距离人类的这个梦想还有多远呢？

01让机器听懂世界承载了人类千年梦想

首先明确一个概念，让机器听懂世界，这里面其实蕴含了多个历程，包括听懂人类语言，进而听懂动物叫声，甚至听懂自然声音，亦或类似地球的耳朵LIGO那样聆听宇宙的“声音”。

所有这些都是极其复杂的过程，因为我们人类实际上也没有达到这种能力，但是我们期望机器能够延伸人类的能力，从而实现人类的梦想。所以语音智能事实上承载的是几千年来人类的伟大梦想。

那么，如何才能让机器听懂人类语言呢？这需要解决三个核心关键问题：听见、听准和听懂，从技术角度来看，就是拾音、识别和理解三个关键技术环节。

拾音是最为基础的环节，必须保证让机器听得见声音，这部分主要是声学问题；

识别是将符合要求的声音转化成文字，这部分主要是语音识别的问题；

理解则是根据识别出来的文字，准确理解人类的指令甚或情感。

鉴于语音智能设备已经大量出现在我们生活场景之中，当前技术的核心关键就是声学问题和语义理解。

02近场语音是机器听懂人类的率先尝试

近场语音交互主要是指人类距离机器不超过30厘米范围的语音识别技术，这项技术利用距离巧妙回避了真实场景下复杂的声学问题，可以理解为一种实验室理想环境下的语音交互技术。

近场语音识别从上世纪五十年代就开始研究，但是长期没有实质性进展，直到苹果在2010年推出Siri的应用，这才引起了全球的关注。到现在为止，近场语音交互技术已经比较成熟，平均识别率可以达到95%以上。

但是近场语音交互受到了真实场景的巨大制约，并没有展现出来语音交互可以解放双手的先进性，因此在很多场景中，事实上近场语音交互都是鸡肋一般的存在，并没有发挥出真正的威力。

直到远场语音交互技术的出现，成功解决了真实场景下的复杂声学问题以后，至少技术达到了用户认可的门槛，语音交互才真正出现了替代键盘鼠标和触摸屏的可能性。

03远场语音将语音智能落地到真实场景

远场语音交互主要解决30厘米到5米范围内的语音交互问题，这个范围事实上就是人类之间沟通交流的最佳距离，距离太近容易触发自我保护意识，而距离太远则会增大交流难度。

注意语音交互并非只是语音问题，人类的交互其实是一个综合的过程，包括了表情、眼神、肢体动作等等一系列影响因素。

远场语音交互的历史是比较短暂的，这项技术以前长期没有实质性突破，直到2016年末，全球才真正开始重视这项技术，并且短短一年时间，引领全球市场都进入了激烈博弈的阶段。

远场语音交互的代表产品自然就是智能音箱，盘点一下全球巨头在智能音箱的布局就可窥得一二。亚马逊的Echo发布四年已然影响深远，谷歌的Home剑走偏锋以技术做博弈，微软的Invoke则仍然坚持工程师定义产品的文化......

注意，这里还是特别强调智能音箱只是远场语音交互的突破口，并非什么语音的唯一入口，因为未来的机器智能时代，比如电视、冰箱、汽车都有可能成为重要入口。但是智能音箱又是非常重要的，因为不管产品形态怎样变化，其本质的核心其实还是智能音箱的技术架构。

04听懂世界还有哪些必须解决的问题？

若让机器听懂世界，远场语音交互技术也仅是个尝试而已，事实上远场语音技术本身也只是刚刚起步，即便5米以内，其噪声抑制、回声抵消、混响去除、远场唤醒和远场识别等核心技术还存在诸多缺陷。

但是技术一直在迭代发展，特别是当技术落地场景以后，源源不断的真实数据和客户需求将带动技术更加快速的发展。

从技术层面来看，让机器听懂世界涉及了数学、物理学、语言学、医学、计算机学等各学科的知识，很难一一枚举出来，但是若从应用场景来看，则相对比较简单，让机器听懂世界包括了人类语言、人类情感、动物声音和自然声音。

让机器听懂世界的技术正在全球快速的演化，相信不久的将来，我们肯定能看到更加智能的机器。

因此，既不要抨击当前的人工智能技术，也不要盛赞现在的基础科技技术，保持一颗平静的心，正确给予科技界和产业界的支持才是对于未来最大的投资。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28445

浏览量
207202
人工智能

人工智能

+关注

关注
1791

文章
47314

浏览量
238612
智能语音

智能语音

+关注

关注
10

文章
785

浏览量
48779

原文标题：让机器听懂世界，触及人类梦想还有多远？

文章出处：【微信号：haierhope，微信公众号：HOPE开放创新平台】欢迎添加关注！文章转载请注明出处。

【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

中取得了令人瞩目的效果。阅读感悟从传统的手动编程到借助大模型实现智能化、自主化，从单一模态的交互到多模态信息的深度融合，再到扩散模型的应用，机器人控制技术正在以惊人的速度进化。这不仅让机器

发表于 12-29 23:04

【「具身智能机器人系统」阅读体验】1.初步理解具身智能

对人工智能、机器人技术和计算系统交叉领域感兴趣的读者来说不可或缺的书。这本书深入探讨了具身智能这一结合物理机器人和智能算法的领域，该领域正在

发表于 12-28 21:12

【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习

非常感谢电子发烧友提供的这次书籍测评活动！最近，我一直在学习大模型和人工智能的相关知识，深刻体会到机器人技术是一个极具潜力的未来方向，甚至可以说是推动时代变革的重要力量。能参与这次活动

发表于 12-27 14:50

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

研读《具身智能机器人系统》第7-9章，我被书中对大模型与机器人技术融合的深入分析所吸引。第7章详细阐述了ChatGPT for Robotics的核心技术创新：它摒弃了传统的分层控制架构，创造性地

发表于 12-24 15:03

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

嵌入式人工智能（EAI）将人工智能集成到机器人等物理实体中，使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效地提供商品及服务。数据是一种货币化工具数

发表于 12-24 00:33

【「具身智能机器人系统」阅读体验】+初品的体验

的快速发展，相关人才的需求也在不断增加，通过阅读该书可以帮助大家系统性地了解和分析当前具身智能机器人系统的发展现状和前沿研究，为未来的研究和开发工作提供指导。此外，本书还可以为研究人员和工程师提供具体

发表于 12-20 19:17

《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

意味着在“具身智能”领域，还没有哪一个玩家能像O社那样能站在AGI的制高点。具身智能从字面上拆解为“具身+智能”，指的是一种将机器学习算法适配至物理实体，从而与物理

发表于 12-19 22:26

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

早就听大佬们说，具身智能是人工智能的下一波浪潮，也是AI未来的趋势！最近，具身智能的概念更是炙手可热，备受瞩目！不论是这几天稚晖君开源人形机器

发表于 11-11 10:20

软通动力与智元机器人携手亮相世界机器人大会

北京2024年8月22日 /美通社/ -- 8月21日，以"共育新质生产力共享智能新未来"为主题的2024世界机器人大会在北京开幕。作为数字技术产品和服务创新领导企业以及人形

发表于 08-22 13:12 •397次阅读

ROS让机器人开发更便捷，基于RK3568J+Debian系统发布！

化的快速发展，智能机器人设备已成为工业自动化体系的佼佼者，而智能机器人设备核心—ROS系统，是机器人领域的集大成者，主要应用于

发表于 07-09 11:38

特斯拉Optimus人形机器人再进化,上海世界人工智能大会首秀引领未来

在科技日新月异的今天，人工智能与机器人技术的每一次飞跃都牵动着全球的目光。近日，特斯拉官方宣布了一个振奋人心的消息：其精心研发的第二代Optimus人形机器人将于7月4日至7日在中国上海的世界

发表于 07-04 15:48 •507次阅读

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

的提升和数据可获取性的增加，大模型已经成为人工智能研究和应用的一个重要趋势。这些模型在处理复杂任务时，尤其是在自然语言处理（NLP）、计算机视觉、语音识别等领域，展现出非凡的能力。大数据时代为训练复杂

发表于 06-25 15:00

其利天下技术·搭载无刷电机的扫地机器人的前景如何？

于部分消费者来说，扫地机器人仍然是一笔不小的开支。 4.扫地机器人的未来发展前景展望未来，搭载无刷电机的扫地机器人有望在多个方面实现突破

发表于 05-05 15:03

富唯智能：打造未来机器人教育新标杆

随着科技的飞速发展，机器人教育正逐渐成为培养未来人才的重要领域。富唯智能，作为业内领先的机器人技术提供商，近日推出了一款全新的机器人教育实践

发表于 04-23 16:45 •375次阅读

AI算法的本质是模拟人类智能，让机器实现智能化

视觉等领域。 AI 算法的核心是实现智能化的决策和行为 AI算法的本质在于模拟人类智能的能力，让计算机能够对现实世界进行模拟和模仿，从而达到

发表于 02-07 00:07 •5811次阅读

搜索历史

未来机器智能时代：如何让机器听懂世界

01让机器听懂世界承载了人类千年梦想

02近场语音是机器听懂人类的率先尝试

03远场语音将语音智能落地到真实场景

04听懂世界还有哪些必须解决的问题？

评论

【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

【「具身智能机器人系统」阅读体验】1.初步理解具身智能

【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

【「具身智能机器人系统」阅读体验】+初品的体验

《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

软通动力与智元机器人携手亮相世界机器人大会

ROS让机器人开发更便捷，基于RK3568J+Debian系统发布！

特斯拉Optimus人形机器人再进化,上海世界人工智能大会首秀引领未来

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

其利天下技术·搭载无刷电机的扫地机器人的前景如何？

富唯智能：打造未来机器人教育新标杆

AI算法的本质是模拟人类智能，让机器实现智能化