0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于百度3麦克风阵列智能音箱功能介绍

声智科技 来源:djl 作者:声智科技 2019-08-13 09:57 次阅读

6月11日,百度“新声出道”的小度新品发布会在北京百度科技园K6熊掌报告厅召开,新品“小度智能音箱”正式在后厂村C位“出道”,尝鲜价89元。这款“后厂村C位出道”的百元AI实力担当产品——“小度智能音箱”凭借“好听、好用、好玩”的特性,新晋成为智能音箱届的“三好生”!

这款定价89元的小度智能音箱是如何成为智能音箱届的“三好生”?声智科技作为小度智能音箱的技术合作伙伴,带您一起解锁小度智能音箱背后的秘密武器!

(1)好听:采用全球首款3麦克风阵列设计,硬件毫不妥协!

小度智能音箱作为一款定价89元的智能音箱,其跨级音质体验是百元档音质最佳的人工智能音箱。小度智能音箱音质出众,却身量小巧,而且有着毫不妥协的远场语音交互体验。它是如何平衡ID、音质设计和产品体验之间的矛盾呢?

作为一款支持远场语音交互的智能音箱,一定离不开麦克风阵列。麦克风阵列的主要作用是帮助机器适应更加复杂的场景。麦克风阵列是由一定数目的声学传感器组成,用来对声场的空间特性进行采样并处理的系统,将会影响真实环境下的语音唤醒和识别率,是决定用户体验的关键因素。

然而,当前市场上的麦克风阵列方案中,常见的阵型多为4麦,6麦,8麦等阵元的线型、环型、菱型等阵列方案,亚马逊的Echo还采用过6+1麦的方案,亚马逊主流产品仍在沿用6麦环形和8麦跑道型方案。从技术原理来看,更多数量麦克风的阵列方案在远场语音交互效果上更具有优势,但是多麦阵型也限制了ID设计的想象空间,对音箱设计提出包括ID、成本等更多苛刻要求。

图为麦克风阵列模组

声智科技为小度智能音箱量身打造的全球首款3麦环型麦克风阵列,很好的平衡了ID、成本、音质设计和产品体验之间的矛盾。这款全球首款3麦克风阵列构型灵活,打破了音腔设计的局限,并释放ID设计的无限空间,同时平衡了成本和效果之间的矛盾。

声智科技推出的这款全球首款的3麦环型麦克风阵列内置通话降噪、混响抑制、回声抵消、噪声抑制、语音增强、波束形成、增益控制、语音识别等远场语音交互技术,5米内的嘈杂环境中,仍可以有卓越的远场语音唤醒性能、精准的远近场语音识别,实现轻松唤醒,无惧环境,想说就说,声随心动,保证远场语音交互的完美体验。而且,相比4麦、6麦、8麦阵列方案的成本偏高,3麦阵列方案价格更加亲民,相比2麦又有效果优势。

不仅如此,为了释放ID设计的无限空间,声智科技针对小体积智能音箱尺寸特性,进行了独家的技术优化。小尺寸智能音箱的麦克风阵列与喇叭的位置,以及ID结构都较为受限,特别是麦克风阵列与大音量喇叭相距很近,带给语音交互技术处理极大的压力,特别是自噪声抑制和远场信号处理的难度极具增加。为了在这样的特殊结构设计获得更好的语音交互效果,声智科技独家设计优化,采用抗强噪唤醒技术(AKS技术)、垂直抗强噪识别技术(VAN技术)、OpenAEC技术等提升远场语音交互体验。

(2)好用:完整远场语音唤醒和识别服务,又快又准!

为了让小度智能音箱更好用,提升产品的净推荐值NPS,声智科技通过SoundAI Voice Kit(以下简称SVK)为小度带来更敏捷、更贴合人性化的语音交互设计。

SVK是一款集成声波配网、波束形成、声源测向、定向拾音、噪声抑制、混响消除、回声消除、语音唤醒、端点检测、语音识别、语义理解、语音合成、双工通话等全链路的智能语音交互开发套件,兼容主流智能语音硬件架构,支持DuerOS、AliGenies、小爱平台、腾讯叮当、Amazon Alexa等主流AI平台, 助力品牌厂商实现智能硬件产品的极速开发和量产上市。

什么样的响应时间才能带来完美的语音交互体验?人机语音交互是让机器模拟人的行为,让机器适应人类的交互习惯。大多数情况下,在生活中人与人对话时,一个过快的回答会给用户带来轻浮感和抢话感,而一个过慢的回答会给用户带来迟缓感和愚钝感。因此智能音箱的响应时间对于用户体验至关重要。

此次,小度智能音箱采用了声智科技的SVK完整的远场语音唤醒、远场语音识别(Far-Field ASR)服务。声智科技精准的“远场语音唤醒技术”和”远场语音识别技术”,面向垂直领域深度优化,达到平均96%以上的准确率。而且,不仅识别率极大的提升,也带来了更符合人性化的语音交互速度体验,使得小度智能音箱从唤醒到内容的全链条响应速度达到全球极致的1.4S以内,而用户唤醒以后的机器应答响应时间更是做到了400~500毫秒的极致速度。

什么样的语音唤醒体验才能带来完美语音交互体验?语音唤醒是智能音箱用户的第一体验。声智科技通过宽场景高灵敏唤醒技术,很好的平衡了唤醒率和误唤醒率。众所周知唤醒率和误唤醒是一对跷跷板,当唤醒效果很好的时候,误唤醒通常也会很高,智能音箱毫无征兆的突然唤醒也是很麻烦的事情。为解决这个矛盾,声智科技的技术不走讨巧路线,而是采用全新的唤醒模型,优先保证用户的体验,在此基础上再降低误唤醒率,同时还要提升强噪环境下的唤醒率。

当然,不同麦克风器件的选择带来不同的语音交互效果,信噪比(SNR)70dB以上的麦克风要比信噪比60DB的麦克风的远场和抗噪效果更好,但是选用高信噪比的麦克风,其结果就是成本会高出很多。彻底屏蔽硬件的差异化,面向低成本高失真产品,努力帮助客户降低成本,声智科技推出了低成本高容错唤醒技术。即便在一致性和失真度非常大的情况下,也要出色的保证用户体验的效果,这是声智科技给所有客户一直的承诺。

什么样的语音识别体验才能带来完美语音交互体验?由于远场智能产品的场景特殊性,远场语音识别相对更加垂直,比如智能音箱的识别偏重于音乐和百科领域,智能汽车的识别偏重于地图和音乐领域,而对于地域性的覆盖,则是远场语音识别着重考虑的,并不能简单把方言划归为一个技术系列,特别是消费电子领域的高度标准化思维,对于远场语音识别的场景兼容更加看重。所以声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题,不仅如此,为保证云端服务的稳定性和并发能力,声智科技采用端云强耦的技术架构,合理在端云分配计算能力,与Amazon AWS、阿里云等主流云计算平台采用相同的服务可靠性标准,SLA高达99.99%。

(3)好玩:满足儿童与极客不同需求,解决宽场景难题

真正的产品落地需要考虑众多应用场景的难题,声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题,比如老人和小孩的识别怎么办?南方和北方的语言差异怎么办?而并非只是简单的技术叠加。

智能音箱市场的用户群中有20%+是儿童,如何满足儿童用户群体的需求,提供零沟通距离,优质精选内容,保证健康安全又不失好玩有趣的语音交互体验?声智科技推出了远近场的儿童语音识别技术,针对儿童的语音特点,例如:儿童生理上发育不够成熟,不善于掌握发音部位与方法,辅音发音分化不明显。而且,儿童发音单音重复较多,往往发出单个的、重叠的音,他们会说“车车”、“糖糖”、“兔兔”、“饭饭”,而不说“汽车”、“糖”、“兔子”、“饭”这样的儿童的交流方式,声智科技进行声学模型优化训练,升级打造ASR技术,使得儿童识别率更准确,更贴合儿童的交互习惯。

除了儿童模式,小度智能音箱还推出了极客模式。极客模式下,一次唤醒之后,用户可以进行多轮对话。针对用户多轮对话的语音交互需求,声智科技推出了支持多轮对话的端云交互技术,从麦克风阵列、语音唤醒、端点检测和语音识别四个技术链条进行深度优化,满足了百度对于用户体验的极致追求。其中,端点检测技术既要保证响应速度,又要准确识别断句以保证语言连贯性,在复杂场景下的技术实现非常困难。声智科技率先突破这些技术难关,将会推动智能音箱技术向着更加智能的方向快速发展。

随着用户认知度提升、整体产业链的成熟、用户体验提升等因素,2018年智能音箱将会持续爆发。但语音交互技术仍需继续发力,声智科技作为国内知名的语音交互技术提供商,将持续聚焦在技术领域,与众多合作伙伴一道推动智能语音行业的发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能语音
    +关注

    关注

    10

    文章

    783

    浏览量

    48773
  • 语音交互
    +关注

    关注

    3

    文章

    286

    浏览量

    28018
  • 智能音箱
    +关注

    关注

    31

    文章

    1783

    浏览量

    78603
收藏 人收藏

    评论

    相关推荐

    二、麦克风阵列工作原理之深度揭秘

    麦克风阵列宛如一个神奇的声学“精灵”,运用复杂而精妙的技术,在众多场景中展现出强大的声音处理能力,其工作原理究竟蕴含着怎样的奥秘?
    的头像 发表于 12-26 14:41 109次阅读
    二、<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>工作原理之深度揭秘

    一、麦克风阵列之基础概念探幽

    麦克风阵列技术,犹如一位隐匿于幕后的神奇工匠,悄无声息却又深刻地渗透进了我们生活的每一处缝隙。无论是日常沟通所用的通信系统,还是专业音频录制领域,亦或是精准的声源定位任务,麦克风阵列
    的头像 发表于 12-21 14:43 107次阅读
    一、<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>之基础概念探幽

    什么是麦克风阵列

    什么是麦克风阵列?想象一下一个小型音响部队在你面前,它们站成一排,用不同的麦克风捕捉声音。这就是麦克风阵列的基本概念。
    的头像 发表于 11-30 01:08 182次阅读
    什么是<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>

    开创迷你麦克风时代:BOYAmini迷你麦克风驱动无线音频行业新变革

    无线麦克风行业发展概览近年来,无线麦克风行业在全球范围内迎来迅猛增长。从传统音频设备到智能化、多功能的小型设备,无线麦克风的市场不断扩大。以
    的头像 发表于 11-29 12:09 396次阅读
    开创迷你<b class='flag-5'>麦克风</b>时代:BOYAmini迷你<b class='flag-5'>麦克风</b>驱动无线音频行业新变革

    MEMS麦克风的优缺点分析

    随着技术的进步,MEMS麦克风已经成为音频领域的一个重要分支,特别是在移动设备、智能家居和可穿戴设备中。它们以其独特的优势在音频捕捉领域占据了一席之地。 MEMS麦克风的优点 1. 小型化 MEMS
    的头像 发表于 11-20 10:12 495次阅读

    TLV320ADC6140和8个PDM麦克风设计麦克风阵列,使用TDM格式输出,每个麦克风输出相位是什么样的?

    以前使用的是模拟麦克风,使用两个4路输入的CODEC,I2S格式,为了保证时钟同步,后面使用FPGA进行同步采样,设计8麦克风阵列效果还可以。为了简化设计6140+8个PDM话筒,配置安装手册
    发表于 10-12 08:12

    Sitara Linux ALSA DSP麦克风阵列语音识别

    电子发烧友网站提供《Sitara Linux ALSA DSP麦克风阵列语音识别.pdf》资料免费下载
    发表于 10-10 09:13 0次下载
    Sitara Linux ALSA DSP<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>语音识别

    主流的麦克风阵列有哪些?

    麦克风阵列在HiFi音频解决方案中的重要性体现在它对音质提升的全面贡献。通过精准的声源定位、噪声抑制、空间感增强和智能处理,麦克风阵列为Hi
    的头像 发表于 10-08 20:52 637次阅读
    主流的<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>有哪些?

    一文全了解麦克风阵列

    什么是麦克风阵列? 想象一下一个小型音响部队在你面前,它们站成一排,用不同的麦克风捕捉声音。这就是麦克风阵列的基本概念。
    的头像 发表于 09-03 16:03 1362次阅读
    一文全了解<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>

    麦克风的 Turnkey 解决方案

    麦克风的 Turnkey 解决方案提供了从硬件设计到系统集成的全面支持,通过高质量的麦克风技术解决了在各种应用场景中遇到的音频清晰、噪声抑制和设备集成等问题。无论是在专业录音、公共演讲还是
    的头像 发表于 08-16 22:45 414次阅读
    <b class='flag-5'>麦克风</b>的 Turnkey 解决方案

    什么是AI麦克风阵列解决方案?

    什么是AI麦克风阵列解决方案? 想象一下,你站在一个音乐会的舞台上,周围有一群超级聪明的小助手,他们每个人手里拿着一只麦克风,分散在舞台的各个角落。这些小助手不仅能听到你的声音,还能帮你把声音变得更清晰,甚至能告诉你观众的欢呼
    的头像 发表于 06-14 16:19 715次阅读
    什么是AI<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>解决方案?

    飞腾云XMOS AI麦克风阵列解决方案

    在现代家庭和办公环境中,实现高清晰的语音交互成为诸多智能设备的关键需求。无论是在厨房、客厅、健身房还是会议室和教室,我们的 XMOS AI麦克风阵列解决方案 致力于在各种嘈杂环境中捕
    的头像 发表于 05-28 17:20 655次阅读
    飞腾云XMOS AI<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>解决方案

    麦克风阵列解决方案

    飞腾云XMOS AI麦克风阵列解决方案不仅是技术上的进步,也是通往智能交互未来的一大步。
    的头像 发表于 05-16 16:00 692次阅读

    无线麦克风音频方案

    无线麦克风是音频传输领域的一项重要技术,广泛应用于演讲、表演、会议等场合。而无线麦克风的音频方案中,无线芯片起着关键作用。下面将介绍无线麦克风音频方案中的技术要点和优势。 首先,无线
    的头像 发表于 02-26 15:22 835次阅读

    快思聪Crestron Automate VX现已支持森海塞尔TCC M天花阵列麦克风

    快思聪Crestron Automate VX现已支持森海塞尔TCC M天花阵列麦克风 重要战略合作伙伴在多摄像头切换解决方案中集成森海塞尔最新天花阵列麦克风,推动更平等的会议体验 德
    的头像 发表于 01-08 22:54 492次阅读