0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

揭秘小米AI音箱的语音交互的优势

声智科技 来源:djl 作者:声智科技 2019-08-13 10:52 次阅读

2018年是国内智能音箱的火爆元年,市场上短时间涌入了以小米、阿里、百度和腾讯等为首的数十款智能音箱,甚至出现了深圳一条街就有百家智能音箱厂商的盛况。但是迄今为止,市场销量超过百万的智能音箱厂家只有小米和阿里。

去年“双十一”阿里的补贴战略很快就让天猫精灵率先破百万,而小米的小米AI音箱继续沿用小米口碑营销思路,凭借用户体验优势和性价比稳步上扬,在缺货严重且渠道涨价的情况下,也轻松超过百万销量。同时,小米的小爱mini音箱自发布后更是一周之内销量破百万,自此,小米一家就拥有了小米AI音箱和小爱mini音箱两款过百万销量的产品。目前,小米AI音箱依然保持着国内语音交互体验评价更好的优势。

很多人都会好奇这一点,为什么售价只有299元的小米AI音箱会赢得用户口碑?除了小米的产品团队对于用户体验的精准把握,其中智能音箱的灵魂——远场语音交互技术也起到了非常关键的作用。远场语音交互技术涉及到了麦克风阵列、远场语音唤醒、语音端点检测、远场语音识别、语义理解和语音合成等技术。

声智科技独家供应了小米AI产品系列中的麦克风阵列、远场语音唤醒和语音端点检测及识别等技术,并与小米团队密切配合,从用户体验角度重新打造了一整套更适应东方文化场景的新型远场语音交互技术,从技术决定了用户的第一体验以及语音识别的效果。

麦克风阵列技术

麦克风阵列是由一定数目的声学传感器组成,用来对声场的空间特性进行采样并处理的系统。麦克风阵列通常包含2个以上的麦克风,2麦通常不称为麦克风阵列,这有点类似于四个轮子的汽车和两个轮子的摩托车之间的比较。

一般认为麦克风阵列的核心技术是降噪,事实上并非这样,2麦在通信领域就能实现比较好的降噪效果。麦克风阵列的主要作用是帮助机器适应更加复杂的场景,尤其是语音交互的兴起,它事实上改变了人类必须学习适应机器的现状,转而强调机器要学习适应人类的语言和习惯,这是一个产品思维的重大转变,将会影响未来众多AI产品的用户体验设计。

麦克风阵列的关键技术包含了通话降噪、混响抑制、回声抵消、噪声抑制、语音增强、波束形成、增益控制、识别优化等。除此之外,声智科技所提供的麦克风阵列技术,还独具抗强噪唤醒、90度抗强噪识别、空间感知和认知等新技术,其中的90度抗强噪识别技术则是面向东方文化场景的独特技术。

由于中国和日本的家庭主要以公寓为主,这类居家环境下影响语音交互效果的主要是挂在墙上的电视,当智能音箱放置电视旁边或者前方的时候,这时候噪声源、语音源与智能音箱的夹角一般都会超过90度,当电视音量很大的时候,保证智能音箱的识别精准度就非常困难,目前来看,应用到小米AI音箱的技术体验更为出色。

东西方的文化差异造就了不同的技术导向,当然也带来了不同的技术测试验证体系。所以,当前国内对于远场语音交互技术的测试验证的诸多场景是与国外截然不同的。自然,当问到为什么国内要用60度夹角测试噪声源的干扰情况?很多技术人员就回答参考国外的测试标准,事实上这是不对的。

国外的居住环境以别墅为主,智能音箱的主要应用场景在开放式厨房,噪声来源也主要是厨具设备噪声,这相对电视噪声来说更好处理(电视噪声包含大量人声),而且由于房子更大相对空旷,国外噪声环境管理更加严格,室内强噪的情况并不多见,因此对于90度抗强噪识别技术的需求也不强烈。自然,总的来看,国内智能音箱对于远场语音交互技术的要求事实上远高于国外的标准。

远场语音唤醒技术

远场语音唤醒的主要作用距离是30CM-500CM,其主要技术指标是唤醒率和误唤醒率,这两个指标是一对跷跷板。声智科技应用到小米AI音箱的技术,具有三个非常独特的优势,也是保证用户体验的关键因素。

其一就是宽场景高灵敏唤醒技术,这是用户的第一体验,小米AI音箱的唤醒词是小爱同学,国内不管任何地区的发音,甚至国外的英式中文基本上都能第一次唤醒小爱同学,最差情况三次之内也能保证小爱同学响应。

事实上这是很难做到的,因为唤醒率和误唤醒率是一对跷跷板,当唤醒效果很好的时候,误唤醒通常也会很高,智能音箱毫无征兆的突然唤醒也是很麻烦的事情。为解决这个矛盾,通常会有些技巧性方法,比如阿里的天猫精灵,经常第一次很难唤醒,需要第二次才能唤醒,这就是通过工程技巧降低误唤醒率的通常做法。声智科技的技术路线并非这样简单,而是必须优先保证用户的体验,在此基础上再降低误唤醒率,同时还要提升强噪环境下的唤醒率,当前也只有声智科技的技术做到了这点。

其二就是低成本高容错唤醒技术,特别是面向低成本高失真产品的时候,这项技术显得尤其重要。小米的产品一直以性价比为核心占领市场,比如小米AI音箱售价仅为299元,抛去市场的补贴因素,至今还是市面上最便宜的智能音箱。这也意味着小米AI音箱的麦克风、喇叭和结构都会以成本因素为第一考量进行选择,这将带给语音交互技术巨大的压力,特别是自噪声抑制和远场信号处理的难度极具增加。

举个简单例子,比如麦克风器件的选择,信噪比(SNR)70dB以上的麦克风要比信噪比60DB的麦克风的远场和抗噪效果更好,但是选用高信噪比的麦克风,其结果就是成本会高出很多。为了给客户更多产品设计的选择自由度,声智科技的技术必须彻底屏蔽硬件的差异化,并且努力帮助客户降低成本,即便在一致性和失真度非常大的情况下,也要出色的保证用户体验的效果。这是声智科技非常独特的优势,当然在一些特殊场景,也需要一些性能更好的麦克风和芯片才能保证基本效果,所以Google、Amazon等国外的产品通常都会选用更高性能的麦克风。Google、Microsoft等国外公司技术部门为了追求更好的演示效果,尤其不计成本使用高信噪比(SNR>70dB)的麦克风器件和芯片,这也常常会误导国内厂商的判断,声智科技目前的技术几乎做到极致,但是若厂商追求更好的效果,必然也还会增加各个链条的成本。

其三就是低功耗高性能唤醒技术,低功耗唤醒的核心就是算法的复杂度,这包括了麦克风阵列算法和语音唤醒算法,声智科技对于算法的优化一直是非常领先的,目前在智能音箱最复杂的场景,即在立体声回声抵消过程中的打断唤醒,声智科技的算法复杂度也远优于市面上的同类技术。

很多时候大家会对比一家厂商的语音唤醒技术,仅靠评判一个成熟唤醒词(比如Alexa)也是不对的,应该是考验这家厂商定制唤醒词的能力,以及服务的客户数量,这个阶段就极其考验供应商的技术迭代和服务支持能力,AI技术本身就是在不断的演化和迭代。

语音端点检测技术

语音端点检测的目标是要判定语音开始和结束的位置,一般定义在语音识别领域。但是由于语音端点检测决定了语音识别的响应速度,而且并不能向语音识别一样通过增加服务器来解决,必须严重依赖算法来保证,所以当前也成为了远场语音交互领域非常关键的因素。

举个简单例子,我们每个人说话的语速和节奏差异非常大,如何准确判断前端点和后端点以识别成一个句子,并且控制这个时间在几百毫秒以内(人类发一个“啊”音的时间大概是200毫秒),对于整个语音流程的体验来说至关重要,否则判断的失败,也将会严重影响识别结果和语义理解。VAD判停的时间,长了影响交互体验,短了难以适配复杂场景,还是以符合人类交流的习惯为最佳。

这其中还有一个技术难点,就是小爱同学唤醒之后的随机应答词,包括“我在”,“哎”等,而且小米的应答词还可以根据系统音量自动调整,由于这些应答词会严重干扰语音识别的VAD功能,这是对语音端点检测技术挑战很大的应用场景。

市面上的其他产品,比如天猫精灵系列则是取消了应答词,仅靠灯效来显示唤醒状态,而小度视频音箱则是通过恒定低音量的应答词来绕开这项技术难题,显然这类处理手段给用户的体验都不是太好。目前市面上最为成熟的还是声智科技提供的动态应答词匹配检测技术。

远场语音识别技术

由于远场智能产品的场景特殊性,远场语音识别相对更加垂直,比如智能音箱的识别偏重于音乐和百科领域,智能汽车的识别偏重于地图和音乐领域,而对于地域性的覆盖,则是远场语音识别着重考虑的,并不能简单把方言划归为一个技术系列,特别是消费电子领域的高度标准化思维,几乎不可能存在切换ASR的方法。

所以声智科技的ASR就要在垂直领域考虑更多场景难题,比如老人和小孩的识别怎么办?南方和北方的语言差异怎么办?真正的产品落地需要考虑众多应用场景的难题,而并非只是简单的技术叠加。

场景语音合成技术

语音合成的两个关键点,一个是声线的优美程度,另外一个就是抑扬顿挫的语感流畅程度,这决定了用户对于机器的真实体验。

其中,第一种技术需要选择独特的声优就行声音采集和训练,由声优的声线决定了合成声音的效果,选择声优是一个考验产品经理能力的任务。第二种技术则更为重要,是要保证机器朗读的声音更加符合人类的习惯,但是目前来看所有的产品还远远没有达到这点,声智科技也正在致力研究突破这项技术,估计一到两年时间我们就可以听到几乎和人类声音感觉相同的机器声音。

技术细节决定口碑

真正赢得用户口碑的技术,都是极其注重细节的技术,而这类技术通常符合我们常说的“二八规则”,即企业需要投入80%的精力来实现20%的提升。远场语音交互领域非常符合这一特点,表面似乎每家公司的技术大致一样,但实际上真正服务到百万、千万甚者上亿用户的时候,才是真正考验这家技术公司实力的时候。特别是当市场用户对于AI产品用钱投票的时候,用户事实上不太关注单项指标,而真正关心的则是综合各个细节的语音交互体验。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1200

    浏览量

    55317
  • 人工智能
    +关注

    关注

    1791

    文章

    46840

    浏览量

    237520
  • 语音交互
    +关注

    关注

    3

    文章

    283

    浏览量

    27980
收藏 人收藏

    评论

    相关推荐

    智能音箱混战 远场语音交互只是开始

    优势一方面在于它的控制能力,另一方面是它的服务能力。要做成一款成功的智能语音产品,并商业落地,不是一件容易的事。 中国会否出现Echo?   从早期的京东叮咚音箱到近期的喜马拉雅小雅AI
    发表于 07-17 09:37

    智能音箱各自为政 不懂合作恐将重复智能穿戴之路

    ][/img]   除了具备听音乐和常用的语音交互功能外,小米人工智能音箱与家用电器连接以后,可控制小米电视、扫地机器人、电饭煲、空气净化器
    发表于 07-30 09:17

    王川:未来不一定会有语音中心 冰箱电视都可能搭载语音功能

    媒体采访时表示,市场上每天有六千万小米的智能设备在运行,目标用语音将其对接起来,这是小米音箱的“护城河”。   据财新记者了解,小米
    发表于 08-31 09:18

    智能音箱PK人工智能电视:谁更适合做为智能家庭入口?

    相比,大屏智能电视显然具有先天的优势,可以为用户提供尊贵、舒服、震撼的高品质家庭影院体验。不过如果是以语音交互为技术基础的信息查询、智能问答等服务,智能音箱的触控结合
    发表于 04-20 09:28

    AI音箱市场持续“白热化” 注重消费者体验是制胜“法宝”

    物。   但是,低价位“千元机”、简单语音交互、功能极度相似的AI音箱在市面上越来越普遍,“你有我也有”似乎成了各品牌推出新产品的唯一门槛。从实际销售情况来看,低端化、同质化的智能
    发表于 05-09 09:28

    智能音箱遇上瓶颈有待突破改善

    得出结果(其他设备开始运行)。 因为智能音箱语音技术可以分为三个阶段:噪声抵消、语音识别,和语义识别。相对于国外,我国在于AI智能语音助理
    发表于 11-20 15:02

    智能音箱成智能家居入口,最新国外智能语音音箱大盘点

    了争取市场空间的决心。其中,小米在2017年年底率先布局搭载了“小爱同学”语音交互系统的智能音箱,三星于8月初公布智能音箱Galaxy Ho
    发表于 12-01 09:30

    语音交互技术感兴趣的童鞋戳进来!

    `随着非接触经济的到来,语音交互技术的应用即将迎来爆发期。而受疫情的影响,语音交互技术以便捷性、简单性、避免接触式交叉感染的特点得到人们广泛的关注。 本期华秋创服硬创直播室<资事
    发表于 03-11 14:19

    小米智能音箱怎么样_智能音箱哪个音质好

    2017年7月26日,小米正式发布了售价299元的小米AI音箱“小爱同学”,这是小米推出的第一款AI
    发表于 12-28 17:59 2.8w次阅读

    小米AI音箱怎么样_来自小米用户的智能音箱真实使用体验

    小米AI音箱售价299元,小米AI音箱在保持低价位前提下还引入了
    发表于 12-29 08:34 1.5w次阅读

    小爱音箱 mini:小米AI音箱的替代品?

    为纯白配色,底部的四个脚垫部分为黑色。与小米AI音箱一样,它的按键和阵列麦克风都分布在机身的顶部。 小爱音箱mini和小米
    的头像 发表于 03-31 10:31 2.3w次阅读

    小米AI音箱拆解报告

    2017年7月26日,小米为我们带来了自家的智能音箱产品——小米AI音箱,从此“小爱同学”这个热点便开始逐渐被人所熟知。
    的头像 发表于 06-01 15:41 7.7w次阅读
    <b class='flag-5'>小米</b><b class='flag-5'>AI</b><b class='flag-5'>音箱</b>拆解报告

    小米AI智能音箱可以直接通过语音音箱进行控制

    小米AI智能音箱外观与小米净化器有点类似。音箱内部搭载环形阵列360度收音的6枚数字麦克风,能够做到远场
    发表于 12-28 11:27 1.2w次阅读

    地平线语音技术赋能小米智能音箱 终端完整语音方案打造流畅交互体验

    2月20日,搭载地平线自主研发的增强语音抽取(Enhanced Speech Extraction,ESE)方案的小米小爱触屏音箱在京发布。小米小爱触屏
    发表于 02-21 11:06 504次阅读

    小爱音箱累计语音交互次数突破百亿次 成绩史无前例

    2017年,小米在发布会上正式发布了旗下的人工智能语音系统-小爱同学,自此之后这一智能语音系统也成为了智能音箱小米手机的核心
    发表于 06-07 17:16 1308次阅读