语音识别技术最新进展：视听融合的多模态交互成为主要演进方向-电子发烧友网

电子发烧友网报道（文/李弯弯）所谓“模态”，英文是modality，用通俗的话说，就是“感官”，多模态即将多种感官融合。多模态交互技术是近年来人工智能领域的一项重要创新。随着语音识别技术的发展，采用多种模态（声学、语言模型、视觉特征等）进行联合建模，基于深度学习的多模态语音识别取得了新进展。

多模态交互的原理及优势

多模态交互技术融合了多种输入方式，包括语音、手势、触摸和眼动等，使用户可以根据自己的喜好和习惯选择最方便的交互方式。多模态交互通过将不同输入方式的数据进行融合和处理，实现更准确、智能的交互响应，提高用户体验。

上周在星宸科技2023开发者大会暨产品发布会论坛上，科大讯飞企业数字化副总裁卢尧谈到，人工智能有三个层次，1、运算智能：能存会算；2、感知智能：能听会说，能看会认；3、认知智能：能理解会思考。而感知智能典型的进展是多模态交互。

从卢尧的介绍来看，融合了视觉和语音的多模态免唤醒系统具有明显优势。如下图：这套多模态免唤醒交互系统，同时采用视觉检测和语音识别交互，误唤醒率仅为0.01%，交互响应成功率相较于仅基于语音识别交互系统大幅提升。

早在今年5月，科大讯飞AI研究院副院长高建清博士就在某论坛上介绍过公司在多模态语音交互技术方面的最新进展。据高建清介绍，科大讯飞依托语音与视觉方面的多年积累，打造了一套语音、视觉多模态融合的免唤醒多模态交互系统。

通过将麦克风提供的空间信息和音视频提供的说话人相关信息进行融合绑定，实现高准确度的说话人分离；通过多模态VAD与端到端意图技术的结合，实现无唤醒词的自然人机交互，具有可靠、自然、鲁棒的特点。

具体来看，基于多模态多通道的语音分离系统，将语音信号、麦克风阵列提供的空间信息以及主说话人的唇形输入分离模型，系统最终输出视频说话人的语音，抑制背景噪声及干扰说话人语音。在多人同时讲话、车载音乐情况下，语音识别效果相比单模分离系统有50%以上性能提升。不仅解决了传统麦克风阵列方法无法有效区分同向干扰的问题，还可提升非同向干扰分离场景的性能。

多模态交互技术的应用

语音识别是人工智能技术的一个重要分支，近些年来，智能语音也在多项技术难点上取得突破。业界普遍认为，在语音识别方面，视听融合的多模态交互技术成为技术演进的主要方向。

科大讯飞是国内主要的智能语音技术玩家，其多模语音增强技术融合语音与视觉的多模感知，让高噪音场景下的语音交互跨过实用门槛，目前已经在车载、会议、地铁购票和医疗挂号等场景落地。

在车载领域，人机交互系统需要攻克两大难题：一是环境噪音及人声干扰，尤其是麦克风阵列技术难以解决的同向人声干扰问题（如：驾驶员与左后方乘客同时说话）；二是传统语音交互系统每次启动交互都需要说唤醒词，难以做到像人与人交流一样自然顺畅。

此前就有消息显示，科大讯飞多模态免唤醒交互解决方案将率先在广汽传祺和威马等自主品牌车型上部署应用。该方案能够适应复杂光线暗、语音嘈杂等多种工况，并支持主流SOC和DMS摄像头。

在地铁购票场景中，此前因为地铁站点太多，买票难以找到目的地站点，而且这些操作对于老年人不太友好，而语音购票的功能让这些问题迎刃而解。同时，因为地铁站人声嘈杂，也使得语音交互的体验并不友好。

根据此前的报道，深圳地铁12号线智能售票机及智慧客服终端上，率先采用了科大讯飞多模语音增强技术，该技术通过识别人脸唇形等信息，同时结合人声，使得即使在人声嘈杂的环境，语音识别的准确率也大大提升。

多模态语音识别技术在智能家居场景中也非常实用。融合语音、手势、视觉感知，用户可以过简单的口头指令控制智能家居设备，实现智能灯光、家居安防等功能，通过摄像头和深度学习技术，智能家居可以识别用户的手势动作，实现手势控制家居设备的操作。同时，通过视觉感知技术，识别用户的面部表情和情绪状态，根据不同情况提供相应的互动体验。

总结

经过多年的发展，语音识别技术已经相当成熟，并且在车载、智能家居等各种场景中实现应用，并给人们的生活带来便利。然而同时，一直以来语音识别也存在诸多难点，比如环境噪声、多人同时发出声音等情况，都会影响语音识别的准确率。而视听融合的多模态技术，将视觉和语音结合，能够很好的解决这些问题，使得语音识别的准确率大幅提升。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音识别

语音识别

+关注

关注
38

文章
1742

浏览量
112877

Qorvo在手机RF和Wi-Fi 7技术上的最新进展及市场策略

供应商保持着长期合作关系。近日，Qorvo资深产品行销经理陈庆鸿（Footmark Chen）与Qorvo亚太区无线连接事业部高级行销经理林健富（Jeff Lin）接受了DigiTimes的专访，深入探讨了Qorvo在手机RF和Wi-Fi 7技术上的最新进展及市场策略，以

发表于 01-15 14:45 •326次阅读

FF将发布FX品牌最新进展

"、"FF"或 "公司"）今天宣布，将于2025年1月8日盘后公布其自2024年9月19日FX品牌发布以来的最新进展，包括最新项目进展、重大里程碑、新产品品类战略及下一步计划。

发表于 01-03 15:58 •224次阅读

上海交大团队发表MEMS视触觉融合多模态人机交互新进展

近日，上海交通大学电子信息与电气工程学院微米纳米加工技术全国重点实验室刘景全团队和上海交通大学人工智能学院卢策吾团队在人机交互领域取得重要进展，相关成果以“Capturing forceful

发表于 11-28 10:50 •1193次阅读

上海交大团队发表MEMS视触觉<b class='flag-5'>融合</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>人机<b class='flag-5'>交互</b><b class='flag-5'>新进展</b>

揭秘超以太网联盟（UEC）1.0 规范最新进展（2024Q4）

近期，由博通、思科、Arista、微软、Meta等国际顶级半导体、设备和云厂商牵头成立的超以太网联盟（UEC）在OCP Global Summit上对外公布其最新进展——UEC规范1.0的预览版本。让我们一睹为快吧！

发表于 11-18 16:53 •565次阅读

揭秘超以太网联盟（UEC）1.0 规范<b class='flag-5'>最新进展</b>（2024Q4）

Qorvo在射频和电源管理领域的最新进展

了半导体行业的重大变革，还成功引领Qorvo成为射频技术的领导者。在本次专访中，Philip将为大家分享Qorvo在射频和电源管理领域的最新进展，并探讨HPA事业部如何通过技术创新应对

发表于 11-17 10:57 •557次阅读

智能优化的自动点焊控制系统：电源技术新进展与应用实践

优化的自动点焊控制系统以其高效、精确的优势，成为了提升焊接质量及生产效率的关键所在，尤其在电源技术上的新进展为其发展提供了强大动力。首先，智能优化的自动点焊控制系?

发表于 11-16 09:10 •353次阅读

芯片和封装级互连技术的最新进展

近年来，计算领域发生了巨大变化，通信已成为系统性能的主要瓶颈，而非计算本身。这一转变使互连技术 - 即实现计算系统各组件之间数据交换的通道 - 成为计算机架构创新的焦点。本文探讨了通用

发表于 10-28 09:50 •521次阅读

AI大模型的最新研究进展

AI大模型的最新研究进展体现在多个方面，以下是对其最新进展的介绍：一、技术创新与突破生成式AI技术的爆发：生成式AI技术正在迅速发展

发表于 10-23 15:19 •592次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •532次阅读

高燃回顾｜第三届OpenHarmony技术大会精彩瞬间

第三届OpenHarmony技术大会圆满落幕全球开源精英齐聚共同展示OpenHarmony技术、生态、人才的最新进展 见证OpenHarmony南北向生态繁荣共绘开源生态发展蓝图星光璀璨致谢

发表于 10-16 18:47

5G新通话技术取得新进展

在探讨5G新通话这一话题时，我们需首先明确其背景与重要性。自2022年4月国内运营商正式推出以来，5G新通话作为传统语音通话的升级版，迅速吸引了公众的目光，并引起了社会的广泛关注。它基于5G网络，代表了通信技术的新进展。

发表于 10-12 16:02 •698次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

丰富外设配件配套多模态应用示例，支持快速上手体验大模型语音交互、智能视觉等 AI 应用板载 DAPLINK 调试器，外接一条USB 线即可实现烧录、调试、串口日志查看板载网络模组

发表于 06-18 17:33

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然

发表于 04-18 17:01 •653次阅读

百度首席技术官王海峰解读文心大模型的关键技术和最新进展

4月16日，以“创造未来”为主题的Create 2024百度AI开发者大会在深圳国际会展中心成功举办。百度首席技术官王海峰以“技术筑基，星河璀璨”为题，发表演讲，解读了智能体、代码、多

发表于 04-18 09:20 •748次阅读

清华大学在电子鼻传感器仿生嗅闻方向取得新进展

近日，清华大学机械系在电子鼻仿生嗅闻研究中取得新进展，相关研究成果以“Sniffing Like a Wine Taster: Multiple Overlapping Sniffs (MOSS

发表于 02-20 10:57 •1128次阅读

搜索历史

语音识别技术最新进展：视听融合的多模态交互成为主要演进方向

评论

Qorvo在手机RF和Wi-Fi 7技术上的最新进展及市场策略

FF将发布FX品牌最新进展

上海交大团队发表MEMS视触觉融合多模态人机交互新进展

揭秘超以太网联盟（UEC）1.0 规范最新进展（2024Q4）

Qorvo在射频和电源管理领域的最新进展

智能优化的自动点焊控制系统：电源技术新进展与应用实践

芯片和封装级互连技术的最新进展

AI大模型的最新研究进展

利用OpenVINO部署Qwen2多模态模型

高燃回顾｜第三届OpenHarmony技术大会精彩瞬间

5G新通话技术取得新进展

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

李未可科技正式推出WAKE-AI多模态AI大模型

百度首席技术官王海峰解读文心大模型的关键技术和最新进展

清华大学在电子鼻传感器仿生嗅闻方向取得新进展