亚马逊Echo大获成功，远场语音交互技术在其中究竟扮演了什么-电子发烧友网

关于远场语音交互，声智科技 CEO 陈孝良告诉雷锋网：“语音是最简单、最自然的人机交互方式，同时也是技术难度最大的交互方式，特别是语音交互从近场走向远场落地到真实场景，必须考虑噪声、混响、回声等声学问题，以及数据差异引入的机器学习模型问题，这些都是保证自由人机交互的核心技术。”

但是网络上横跨声学和计算机学科的教育资源太少，李智勇老师的这篇文章不仅揭示了远场语音交互的核心技术，还对商业化落地的路径进行了深入的解读，无论是语音交互的技术人员，还是产品经理，都值得一读。

手机之后国外各大巨头非常罕见的步调一致的在做同一件事情：智能音箱。而这一切最初的驱动力来自于Amazon Echo，但有意思的事情是Amazon Echo这产品根本没做任何的功能上的创新，听歌、看新闻、设闹钟、说笑话、控制家电等所有东西都可以在手机上找到替代品，它唯一的变化只是把语音交互的方式从近场升级为远场，并把精度和速度打磨到非常优秀的程度。只是这么一点点变化，似乎就要创造一个无比巨大的行业，那远场语音交互为什么有这么大的威力？

语音交互等价于远场语音交互

极端的讲法是世界上并不存在一种方式叫近场语音交互，语音交互基本等价于远场语音交互。事实证明过去很多年里各种近场语音交互的尝试（比如Siri）并没获得很好的进展，甚至简单实用的语音输入法也没能成为主流。从应用场景来看远场和近场的核心差别是拉开和语音设备的距离后，双手再也没用了。这样和触屏就可以彻底的差异化，可以彻底的发挥语音的快捷优势。想象下面的场景：

在微信里给一个人打视频电话，如果用手机那是下面这样的过程

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

如果变成远场语音，那核心步骤会变成两个

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

显然在这两种场景下便利程度是完全不一样的，这种便利理论上讲在近场的情形下同样存在，但核心点在于近场时就需要挑战用户根深蒂固的触屏习惯，这很难。触屏虽然大流行，但显然并没能在笔记本上挑战键盘鼠标的既有地位。这不单是偏好问题，也与各种应用与特定交互方式的绑定有关。触屏虽然好用，但并不能完全在Office上用起来，所以如果Office根深蒂固，那么键盘鼠标就根深蒂固。所以我们说，语音交互基本等价于远场语音交互，一旦它真的成为主流交互方式，培养了用户习惯，那反过来才可能在近场的场景（比如近场的Siri）下占有一席之地。

远场语音交互的核心技术

远场语音交互如果变的无处不在，那Amazon Alexa（以及同类产品）会变成新一代的Android，那个时候整个生态会像下面这样：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

这个时候Alexa这样的系统同时覆盖了传统上Android和应用商店的角色，在其上面则会有新的今日头条、新的O2O等。而如果要把Alexa所依托的技术进行细分的话，那么基本上是三层：

前端的声学部分（算法+阵列）

识别

NLU

这样一来远场语音交互就正好面临一大一小两个瓶颈：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

第一个瓶颈是眼下就要解决的问题，即在语义仍然有限制的条件下，打造偏命令控制的产品，这个时候产品的ID很难拟人化（想想Echo，Airpods这些产品），一旦拟人用户的潜在期望就会无限拔高，你也就不可能做出非常满足用户体验的产品。

第二个瓶颈则具有一定的不确定性，具有探索性质，我们仍然还不知道什么时候自然语言理解中可以体现出真的智能，但确实只有这点做了突破，并且同计算机视觉进行融合才能真的做好拟人的机器人。

而为了解决第一个瓶颈事实上需要做好的事情有两个：

一个是前端声学算法软硬件的持续优化

一个是通过获取的数据重新训练云端的ASR

这个过程可以用下图橙色的部分来概括。

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

上述这个看着并不太长的链条其实复杂度非常高，它即跨越不同的学科（声学部分属于经典物理，识别部分则属于CS），也需要打穿软硬件。

在算法层面只是前端就需要处理大量经典问题，比如降噪、去混响、回声抵消、Beamforming等。加不加这些算法的音频信号差异极大，如：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

（具体效果试听可以参照http://soundai.com/demo.html）

而我们经常说的麦克风阵列即使抛开算法不论，单只在硬件层次上也远不是标准品：

上图是一款强调通用性的麦克风阵列，通过USB连接可以随便连接到笔记本、PAD、手机上进行使用。同样的阵列还可以做成线性、L型、球形，最终的目的都是匹配特定的场景，让最终远场交互的精度最优。

如果进一步下探，那就会出现更为底层的选择，比如是用驻极体麦克风还是用MEMS的，是用数字的还是用模拟的。

再进一步挖掘，麦克风从特性上还可以进一步细分，比如：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

所有上面这些点如果不能一一理顺，那就没法给用户输出一种综合性的体验，单点最优在远场语音交互这里价值很小，相当于必要不充分条件。只有能够综合，并且能够优化单点才真的能够解决当前产品落地中的实际问题。

技术和商业上的正反馈

几乎所有大公司都感受到了远场语音交互背后的价值，所以纷纷试水：继亚马逊、Google之后，微软宣布了自己的智能音箱产品，预计苹果也会宣布自己的相似产品。但是远场语音交互的落地却可能比大家期望的要慢。核心点就在于技术-商业上的正反馈需要一定的启动周期。显然的技术不好用，产品体验就不好；而反过来产品没销量技术就缺乏打磨的场景，内容配套也就不会跟上。这种互锁状态就会形成一个冷启动周期，在这个周期里做技术的公司打磨自己的技术，在没那么大量的产品上落地，产品公司则接受技术现实，打磨自己的产品。这样一来整个远场语音交互很可能会跑下面的曲线：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

这个过程是可以和过去很多商业现实验证的，比如2007年iPhone发布，小米手机则要迟到2011年，这期间的4年可以看成是智能手机的启动期，一旦这个市场启动后则进入一个高速增长期，小米手机的销量迅速从2012的700多万台增加到2014年的6000多万台。

远场语音交互的这个技术-商业正反馈当前还处在非常初期的阶段，亚马逊的Echo（各种型号）如果2017年的销量真的逼近2000万台，那基本上可以认为在美国，技术-商业的正反馈第一回合完成。而在国内，同品类产品销量都还处在几万、十几万量级的水平，这个技术-商业的正反馈远未完成。

当然这并非坏事，在格局已定的市场上，后来者是没有机会的；只有在这种充满未知的领域上，创业者才真的有颠覆性的机会。如果回退到20年前，联想、门户相对于现在的BAT都是巨无霸型公司，要资源有资源，要渠道有渠道，要人有人但很有意思的事情是BAT最终崛起了。

小结

手机的触屏把很多人塑造成了低头族，远场语音交互估计会塑造出许多和机器说话的人。那时候语言不再只是人和人的交互手段。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

ECHO

ECHO

+关注

关注
1

文章
73

浏览量
27212

高通与苹果会给远场语音交互带来什么？

短期来看高通、苹果的入局实质影响不大，更多的是在信心层面。两个显然的后果里：一个是高度确定的，那就是远场语音交互必成；一个则具有高度不确定性，传统的OS一层上到底会发生什么？

发表于 06-07 10:10 •764次阅读

应对亚马逊Echo挑战谷歌密谋语音控制产品

智能硬件在语音控制领域掀起了一场新的竞争。亚马逊语音控制类产品Echo是一款成功的产品，它不仅

发表于 04-05 10:26 •1101次阅读

亚马逊拒绝警方搜查Echo语音数据理由是这样的

据媒体报道，亚马逊拒绝向警方移交一名杀人嫌犯的Echo数据，尽管警方出示了搜查证。The Information网站报道称，案件所涉及的Echo语音

发表于 12-29 10:52 •798次阅读

亚马逊Echo接入教程

即可。Echo是亚马逊推出的智能家居的控制装置，还是一款便携式扬声器同时还包含了一位名叫Alexa的语音助理，连上机智云后用户可以通过语音和音箱进行

发表于 12-15 10:48

轻松搞定亚马逊Echo控制智能设备

2017年在CES上亚马逊Alexa大放光彩，而Echo日前也已爆出货1000多万台，引爆了智能硬件市场。据说，智能语音助理将成为下一代计算平台！身为潮牌IoT工程师的你，是准备继续观望？还是想马上

发表于 02-24 16:08

亚马逊Echo控制智能家居的原理

2017年在CES上亚马逊Alexa大放光彩，而Echo日前也已爆出货1000多万台，引爆了智能硬件市场。据说，智能语音助理将成为下一代计算平台！身为潮牌IoT工程师的你，是准备继续观望？还是想

发表于 03-08 14:20

智能音箱还能走多远智能交互还未发展成熟

识别准确率方面纷纷秀出97%以上的成绩，卷积神经网络、隐藏马可夫模型、迁移学习、语义分析等新名词充斥网络，亚马逊Echo巧妙的解决了远场语音

发表于 07-11 09:32

智能音箱混战远场语音交互只是开始

　　导读：远场语音交互开始是智能音响，但是将来绝对不仅仅是智能音响，技术还会扩展到很多其他的产品。　　7月5日，阿里推出了自己的首款消费

发表于 07-17 09:37

SAI_MICAK_60_3229_EVK 远场语音交互单板开发方案

、噪声抑制、混响消除、回声抵消、远场语音识别、语义理解等多项技术，支持HDMI 2.0(4K@60Hz)和DLNA、Miracast无线投屏，内嵌Ula智能系统及海量内容服务，支持Al

发表于 07-28 14:24

基于赛普拉斯CYW43438语音交互中麦克风阵列的解决方案

随着语音交互技术在AI时代的出镜率越来越高，以及以亚马逊ECHO为代表的智能音箱等远

发表于 08-30 11:04 •9860次阅读

亚马逊Echo的发展历史及开发出Echo智能音响的软硬件分析

年销售目标更是上了 1000 万台。这也让其他很多智能音箱厂商羡慕不已。对于亚马逊 Echo 来说，其核心技术则是其集成的智能语音助手 Alexa。而早在 2015 年 6 月 25

发表于 09-25 09:13 •13次下载

灵云远场语音识别解决方案

醒、声源定向等关键技术，在引起产业界广泛关注的同时，16日正式宣布推出面向智能终端的完整灵云远场语音交互解决方案，该套方案完美整合了国内最新

发表于 10-13 11:54 •0次下载

Synaptics AudioSmart远场语音技术支持哈曼卡顿 Allure智能音箱

Synaptics AudioSmart远场语音技术将带来性能无与伦比的两麦克风和四麦克风支持亚马逊Alexa

发表于 01-10 14:47 •9283次阅读

语音交互领域亚马逊能否一直占到先机

个全新的概念，「Voice First」。当时亚马逊 Echo 的负责人 Mike George 认为，语音交互具有完全无门槛的易用性和高度直觉化的引导，所以人机

发表于 05-24 14:50 •4074次阅读

百度正式发布远场语音交互技术芯片

在2019年百度AI开发者大会上，百度首席技术官王海峰宣布百度正式发布远场语音交互芯片“鸿鹄”。

发表于 08-30 16:16 •651次阅读

搜索历史

亚马逊Echo大获成功，远场语音交互技术在其中究竟扮演了什么

语音交互等价于远场语音交互

远场语音交互的核心技术

技术和商业上的正反馈

小结

评论

高通与苹果会给远场语音交互带来什么？

应对亚马逊Echo挑战谷歌密谋语音控制产品

亚马逊拒绝警方搜查Echo语音数据理由是这样的

亚马逊Echo接入教程

轻松搞定亚马逊Echo控制智能设备

亚马逊Echo控制智能家居的原理

智能音箱还能走多远智能交互还未发展成熟

智能音箱混战远场语音交互只是开始

SAI_MICAK_60_3229_EVK 远场语音交互单板开发方案

基于赛普拉斯CYW43438语音交互中麦克风阵列的解决方案

亚马逊Echo的发展历史及开发出Echo智能音响的软硬件分析

灵云远场语音识别解决方案

Synaptics AudioSmart远场语音技术支持哈曼卡顿 Allure智能音箱

语音交互领域亚马逊能否一直占到先机

百度正式发布远场语音交互技术芯片