探析智能语音交互应用和技术-电子发烧友网

上个月，一年一度的中国声学领域技术交流盛会 “声学楼13周年年会暨中国音响行业白皮书发布会”在深圳市南山区金百合大酒店隆重召开。本次大会以“砥砺奋进，行稳致远”为主题，邀请了中科院声学所、万魔声学、科大讯飞、小米科技、猫王收音机、楼氏电子等院所和企业的60余位行业大咖，与来自全国各地的知名专家学者、行业著名企业家、资深工程技术人员、年轻一线工程师等1500余人分享了31场深度技术垂直的议题报告。

座无虚席的大会现场其中，在10月27日下午的特邀专题报告里，北京声加科技CEO邱锋海受邀以《声加万物、聆听未来：智能语音交互应用和技术》为题，分享了目前正在爆发的智能语音交互市场中的各项明星产品和其技术链条。并在演讲中详细分析了声学前端技术所面临的挑战与机遇：如在百花齐放的新生市场里，智能音箱的“去插电化”、减少MEMS麦克风组成的阵列、更灵活的唤醒词训练及生成和智能耳机的尺寸更小、各类型传感器数据融合以及更低功耗的唤醒等。

声加科技CEO邱锋海主题分享《声加万物、聆听未来：智能语音交互应用和技术》

邱锋海表示，10万年前，语言的出现大大加速了人类社会进化和发展的进程。时至今日，听和说依然是人类最基本、最常用和最灵活的交流方式，同时也是最好的人机交互方式。在经历了计算机命令式交互到图形界面触摸交互，再到信息时代/高级信息时代的自然交互、和情感交互……毫无疑问，语音交互将会成为泛在的人机交互方式。

事实上，语音识别技术的研究可追溯到上世纪50年代，从单一模式匹配到70年代的模式和特征分析，再到90年的统计方法(HMM+GMM)，直到2010年后，深度神经网络(DNN)取得了巨大的成功，基于DNN技术的应用也呈爆炸式增长。同时，语音识别、自然语言理解、语音合成性能等技术大幅提升，互联网、移动互联网的高速发展也为算法引擎提供了大量的数据“粮食”。在海量的数据红利下，云端计算软硬件系统的算力增长使其能够快速处理海量数据，再加上边缘计算的能力增强、功耗降低等因素，语音交互的“基础设施”已逐渐成熟。因此，智能语音交互应用的兴起也就顺理成章。

然而，尽管语音识别在这几年里得到迅速发展，但是目前业界声称的“语音识别准确度达到了90%以上”(Google在2017年6月声称已达到95%的准确率)其实是实验室数据。“非纯净条件下”的现实生活里，这个准确率则降至50-70%，甚至更低。

智能语音产品从人到机器完成一次语音交互，需要经过四个主要的技术环节：语音前端处理、语音识别(ASR)、自然语言理解(NLP)以及语音合成(TTS)，即从声音的拾取到转换成文字，到理解其含义并作出反馈，再到将反馈说出。其中语音前端处理属于客户端，后三者则为云端。经过多年的技术积累，语音识别和语音合成已经获得突破，基本可以满足商用。而语音前端处理和自然语言理解依然是语音交互的核心瓶颈。

语音交互的技术链条

作为人机交互的最底层环节，语音前端处理包括回声消除、声源定向、语音降噪、语音打断、语音唤醒的MEMS麦克风阵列，再通过MEMS麦克风阵列实现复杂噪声环境下的拾音。目前仍然处于商业初级应用阶段，距离比较理想的体验还有相当大的距离。比如以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景，用户一定要对着智能手机讲话才能获得符合近场语音识别要求的声音信号，环境稍微嘈杂一点语音识别引擎就失灵了; 而以智能音箱为代表的远场语音识别场景下，依然存在误唤醒，方言、童音识别不准以及声源移动中的识别率低下等问题。

邱锋海认为，目前智能音箱、智能耳机等产品的技术攻关主要还是在回声消除、立体回声消除、去混响、自适应波束形成(抗干扰)、前端信号处理+KWS等；而语音前端信号处理的算法同样面临许多挑战，如单通道DNN语音增强、自噪声抑制、多通道DNN语音增强等。同时，他也在演讲最后留下了几个开放性的问题：关于智能音箱的更少的麦克风组成的阵列(2个麦克风仿生人耳)，更低的计算功耗，更长的不插电待机时间，更灵活的唤醒词训练、生成等，蓝牙音箱的智能化(需要本地命令识别)，人机交互是以智能音箱为核心的星型网络结构还是各设备的分布式交互;关于智能耳机的尺寸更小，引入其他传感器后各类型传感器数据融合，更低功耗的唤醒、体验更好的语音交互功能等。

据悉，目前在智能语音交互市场中，国内玩家主要分为传统语音技术厂商、互联网厂商，和新兴的创业公司。其中大部分集中在语音识别(ASR)、自然语言理解(NLP)以及语音合成(TTS)等云端业务，这也是归结于语音前端处理技术的人才稀缺与实战项目较少、缺乏经验累积等。与这些玩家相比，声加科技更多着力于解决全场景下的语音前端处理，其强大的研发实力依托于中科院声学所雄厚的人才和科研资源，研发人员均来自于中科院声学所、清华大学、南京大学和中国科学技术大学等国内一流科研院所，核心团队成员亦大多师出于中科院声学所，平均在业界拥有超过十五年工作经验。团队此前已为国内多个巨头企业的智能音箱、智能耳机等明星产品提供远场麦阵模组设计方案、智能耳机麦阵算法、智能耳机模组等技术支持。

适用于多场景的多元化智能设备

“声学楼”作为国内最为专业和盛大的电声技术研讨会之一，本次大会不仅再一次掀起了中国音频技术交流的高潮，还在开幕当天上午由中国电子音响行业协会秘书长陈立新发布了《2018中国电子音响行业发展情况》(白皮书)，并邀请中科院声学所李晓东教授、魅族声学总监陈爱民、哈曼汽车电子全球研发中心扬声器系统工程总监杨春洪、四川湖山电子高级工程师张康等业内专家分别对智能音箱行业、耳机行业、汽车车载音响行业、专业音响行业的白皮书进行介绍。值得一提的是，参与《中国智能音箱行业发展情况》主笔的李晓东教授不仅是邱锋海和声加科技数位成员在声学所深造的导师，也是鼓励其创业的前辈。

中科院声学所李晓东教授、博导主题介绍《中国智能音箱行业发展情况》(2018版)编写情况

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音识别

语音识别

+关注

关注
38

文章
1742

浏览量
112726
智能语音

智能语音

+关注

关注
10

文章
787

浏览量
48814

原文标题：声加万物、聆听未来：智能语音交互应用和技术

文章出处：【微信号：MEMSensor，微信公众号：MEMS】欢迎添加关注！文章转载请注明出处。

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

语音命令Q 识别，适用于智能家居控制、玩具、人机交互等多个领域。该模块以其高识别率、低功耗和易于集成的特点受到广大开发者的青睐。主要技术及功能有：磁力搅拌、重量采集、

发表于 01-02 18:15

解锁个性化语音交互新时代：九芯智能语音云平台，让创意声音触手可及！

九芯智能语音云平台提供全面高效安全的智能语音服务，支持自定义语音内容，简化烧录流程，依托AI技术

发表于 01-02 16:51 •110次阅读

解锁个性化<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新时代：九芯<b class='flag-5'>智能</b><b class='flag-5'>语音</b>云平台，让创意声音触手可及！

基于W2605C语音识别合成芯片的智能语音交互闹钟方案-AI对话享受智能生活

随着科技的飞速发展，智能家居产品正逐步渗透到我们的日常生活中，其中智能闹钟作为时间管理的得力助手，也在不断进化。基于W2605C语音识别与语音合成芯片的

发表于 12-31 11:54 •82次阅读

基于语音识别的智能会议系统具备哪些交互功能

标贝科技专注智能语音交互领域多年，在语音识别和语音合成领域有着多项大型企业合作案例，标贝与多个智能

发表于 12-20 10:35 •146次阅读

基于智能语音交互的智能呼叫中心工作机制

作为实现智能呼叫中心的关键技术之一的智能语音交互技术，它通过集成自然语言处理（NLP）、

发表于 12-03 16:44 •324次阅读

智能语音的驱动力：揭秘8脚语音芯片在智能设备中的非凡角色

语音技术渗透生活，8脚语音芯片以微缩体积、低功耗、卓越性能成智能设备语音功能核心，集成识别、合成、压缩解码等功能，实现精准

发表于 12-02 14:23 •181次阅读

【实操文档】在智能硬件的大模型语音交互流程中接入RAG知识库

本帖最后由 jf_40317719 于 2024-9-29 17:13 编辑智能硬件的语音交互接入大模型后可以直接理解自然语言内容，但大模型作为一个语言模型，对专业领域知识的训练缺乏也是

发表于 09-29 17:12

智能语音交互技术如何助力设备实现人机自然对话

随着现代人工智能在各行业的普及，智能语音交互技术也越来越多的在日常工作、生活中应用，智能

发表于 05-23 15:16 •735次阅读

智能语音交互技术如何助力设备实现人机自然对话

智能语音交互技术是指通过语音识别、语音合成和自然语言理解等技

发表于 05-23 15:14 •392次阅读

WTK6900G语音识别芯片在车载语音交互氛围灯上的应用案例解析

随着智能汽车的快速发展，车载语音交互技术逐渐成为提升驾驶体验的关键技术之一。传统的车载灯光控制系统往往依赖于手动操作，不仅操作繁琐，而且在驾

发表于 05-17 13:57 •436次阅读

**十万级口语识别，离线自然说技术，让智能照明更懂你**

自然说技术，用户不用死记硬背，提供了更自然、更灵活、更智能的语音交互方式。方案框图在方案设计上，启英泰伦充分考虑了产品功能、复杂程度和制造成本等因素。通过将

发表于 04-29 17:09

语音合成技术在智能驾驶中的应用与挑战

一、引言随着智能驾驶技术的不断发展，人机交互变得越来越重要。语音合成技术作为人机交互的重要手段

发表于 02-02 10:34 •439次阅读

语音合成技术在智能驾驶中的创新与应用

一、引言随着智能驾驶技术的不断发展，人机交互变得越来越重要。语音合成技术作为人机交互的重要手段

发表于 02-01 18:09 •675次阅读

语音合成技术在智能驾驶中的应用与展望

一、引言随着科技的飞速发展，语音合成技术逐渐成为人机交互领域的重要分支。在智能驾驶环境中，语音合成技术

发表于 02-01 17:50 •546次阅读

人机交互技术有哪几种人机交互技术的发展趋势

的几种形式：图形用户界面（GUI）：图形用户界面是目前最为常见的人机交互技术形式。它通过图形化的方式展示信息，用户可通过鼠标、键盘等设备进行操作。GUI简单直观，易于学习使用，适用于大众用户。语音

发表于 01-22 17:47 •3812次阅读

搜索历史

探析智能语音交互应用和技术

评论

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

解锁个性化语音交互新时代：九芯智能语音云平台，让创意声音触手可及！

基于W2605C语音识别合成芯片的智能语音交互闹钟方案-AI对话享受智能生活

基于语音识别的智能会议系统具备哪些交互功能

基于智能语音交互的智能呼叫中心工作机制

智能语音的驱动力：揭秘8脚语音芯片在智能设备中的非凡角色

【实操文档】在智能硬件的大模型语音交互流程中接入RAG知识库

智能语音交互技术如何助力设备实现人机自然对话

智能语音交互技术如何助力设备实现人机自然对话

WTK6900G语音识别芯片在车载语音交互氛围灯上的应用案例解析

十万级口语识别，离线自然说技术，让智能照明更懂你

语音合成技术在智能驾驶中的应用与挑战

语音合成技术在智能驾驶中的创新与应用

语音合成技术在智能驾驶中的应用与展望

人机交互技术有哪几种人机交互技术的发展趋势