语言承载了人类文化,人类需要通过语言学习知识和传递信息,这是人类区别于动物界最重要的特性之一。
因此,未来的机器智能时代,机器也必然需要通过语言实现与人类之间的交互,似乎最近的科幻片都已经暗示了这个问题。
现在的科幻就是未来的现实,因此,让机器听懂世界,这是未来机器智能时代的关键问题,也是人类一个更大的梦想,但是,我们距离人类的这个梦想还有多远呢?
01让机器听懂世界承载了人类千年梦想
首先明确一个概念,让机器听懂世界,这里面其实蕴含了多个历程,包括听懂人类语言,进而听懂动物叫声,甚至听懂自然声音,亦或类似地球的耳朵LIGO那样聆听宇宙的“声音”。
所有这些都是极其复杂的过程,因为我们人类实际上也没有达到这种能力,但是我们期望机器能够延伸人类的能力,从而实现人类的梦想。所以语音智能事实上承载的是几千年来人类的伟大梦想。
那么,如何才能让机器听懂人类语言呢?这需要解决三个核心关键问题:听见、听准和听懂,从技术角度来看,就是拾音、识别和理解三个关键技术环节。
拾音是最为基础的环节,必须保证让机器听得见声音,这部分主要是声学问题;
识别是将符合要求的声音转化成文字,这部分主要是语音识别的问题;
理解则是根据识别出来的文字,准确理解人类的指令甚或情感。
鉴于语音智能设备已经大量出现在我们生活场景之中,当前技术的核心关键就是声学问题和语义理解。
02近场语音是机器听懂人类的率先尝试
近场语音交互主要是指人类距离机器不超过30厘米范围的语音识别技术,这项技术利用距离巧妙回避了真实场景下复杂的声学问题,可以理解为一种实验室理想环境下的语音交互技术。
近场语音识别从上世纪五十年代就开始研究,但是长期没有实质性进展,直到苹果在2010年推出Siri的应用,这才引起了全球的关注。到现在为止,近场语音交互技术已经比较成熟,平均识别率可以达到95%以上。
但是近场语音交互受到了真实场景的巨大制约,并没有展现出来语音交互可以解放双手的先进性,因此在很多场景中,事实上近场语音交互都是鸡肋一般的存在,并没有发挥出真正的威力。
直到远场语音交互技术的出现,成功解决了真实场景下的复杂声学问题以后,至少技术达到了用户认可的门槛,语音交互才真正出现了替代键盘鼠标和触摸屏的可能性。
03远场语音将语音智能落地到真实场景
远场语音交互主要解决30厘米到5米范围内的语音交互问题,这个范围事实上就是人类之间沟通交流的最佳距离,距离太近容易触发自我保护意识,而距离太远则会增大交流难度。
注意语音交互并非只是语音问题,人类的交互其实是一个综合的过程,包括了表情、眼神、肢体动作等等一系列影响因素。
远场语音交互的历史是比较短暂的,这项技术以前长期没有实质性突破,直到2016年末,全球才真正开始重视这项技术,并且短短一年时间,引领全球市场都进入了激烈博弈的阶段。
远场语音交互的代表产品自然就是智能音箱,盘点一下全球巨头在智能音箱的布局就可窥得一二。亚马逊的Echo发布四年已然影响深远,谷歌的Home剑走偏锋以技术做博弈,微软的Invoke则仍然坚持工程师定义产品的文化......
注意,这里还是特别强调智能音箱只是远场语音交互的突破口,并非什么语音的唯一入口,因为未来的机器智能时代,比如电视、冰箱、汽车都有可能成为重要入口。但是智能音箱又是非常重要的,因为不管产品形态怎样变化,其本质的核心其实还是智能音箱的技术架构。
04听懂世界还有哪些必须解决的问题?
若让机器听懂世界,远场语音交互技术也仅是个尝试而已,事实上远场语音技术本身也只是刚刚起步,即便5米以内,其噪声抑制、回声抵消、混响去除、远场唤醒和远场识别等核心技术还存在诸多缺陷。
但是技术一直在迭代发展,特别是当技术落地场景以后,源源不断的真实数据和客户需求将带动技术更加快速的发展。
从技术层面来看,让机器听懂世界涉及了数学、物理学、语言学、医学、计算机学等各学科的知识,很难一一枚举出来,但是若从应用场景来看,则相对比较简单,让机器听懂世界包括了人类语言、人类情感、动物声音和自然声音。
让机器听懂世界的技术正在全球快速的演化,相信不久的将来,我们肯定能看到更加智能的机器。
因此,既不要抨击当前的人工智能技术,也不要盛赞现在的基础科技技术,保持一颗平静的心,正确给予科技界和产业界的支持才是对于未来最大的投资。
-
机器人
+关注
关注
211文章
28445浏览量
207202 -
人工智能
+关注
关注
1791文章
47314浏览量
238612 -
智能语音
+关注
关注
10文章
785浏览量
48779
原文标题:让机器听懂世界,触及人类梦想还有多远?
文章出处:【微信号:haierhope,微信公众号:HOPE开放创新平台】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论