CEVA辅助算法让语音活动检测、麦克风获得最大价值-电子发烧友网

基于语音的控制系统正在经历稳健的增长，2020 年达到 107 亿美元，预计到 2026 年将达到超过 270 亿美元。其优点不言而喻：无手操作，界面大大简化。您可以直接说出所需的内容，而无需使用导航菜单。但是，正如我们所有人所经历的那样，声音可能有其自身的弊端。当您靠近麦克风正对着它讲话时，它在安静的房间里工作正常。但在您的手机上、通过无线耳塞以及在繁忙的超市中，这些情形的语音识别如何呢？识别效果并不总是那么好。基于人工智能的命令识别至关重要，但更重要的是，这种识别首先要有可以正常工作的清晰语音信号。如果没有清晰的音频输入，您的识别程序通常会错误识别语音命令。用户会感到沮丧，并很快就停止使用该功能。

是什么让语音识别变得困难重重

在一个相似的问题（视觉识别）中，常规图像中没有太多的模糊之处，至少在光照合理的情况下是如此。但是，声音检测必须应付更多的干扰。稳定的背景噪音包括风扇、空调、道路噪音。还有其他不太可预测的背景噪音–音乐、谈话、狗吠、汽车喇叭、警笛。从这些杂乱纷呈的背景噪音中拾取语音并不简单。但通过采用正确的技术，这是非常有可能做到的。

这种噪声过滤技术的优势不仅仅体现在语音控制方面，它还提高了手机通话或会议通话的清晰度。通话另一端的听众将在背景噪音中更清楚地听到您和其他讲话人。

使这一目标成为可能的是音频前端（AFE），这是在语音识别或通信之前的一组信号处理阶段。此音频前端可清理原始音频信号，加强最突出的讲话人（相对于其他输入源），并减少该信号周围的杂音。

语音活动和到达方向检测

许多基于语音识别的设备都是电池供电的（手机、手表和遥控器），必须最大限度降低功耗。语音活动检测（VAD）是一个功耗极低的阶段，专门用于检测讲话人。在触发此检测之前，所有其它设备都可以保持断电状态。如何将人类语音与狗吠或其他非人类噪音区别开来？这需要通过一些巧妙但明确的滤波技术。

到达方向（DOA）检测要求设备（手机、遥控器等）配有多个麦克风，通常为若干个麦克风。然后，通过比较在每个麦克风处声音脉冲到达时间的微小差异，可以推断到达方向（在应用人类语音滤波后）。正如我将在下面所阐释的，DOA 检测对于使音频前端能够放大讲话人（声音）至关重要。

降噪

降噪有多种方法，有些是空间敏感的，有些是基于单通道滤波。空间方法提供了一种通过波束成型技术放大讲话人声音的方法。这与无线技术在优先选择特定的蜂窝塔时所使用的技巧相同，但在此处，这种技巧应用于声波，而不是无线电波。在此处，信号处理使用来自多个麦克风的输入信号优先优化来自特定方向的接收信号。这当然由 DOA 检测进行导向。

单通道滤波看起来更像频域中的传统滤波。最一般的情况下，这可能是一个带通滤波器，但也可能是更复杂的选件。此方法的问题是，它通常会影响触发词检测和自动语音识别。正是出于此原因，一些云平台要求在使用语音识别服务之前禁用此类滤波器。单通道滤波器在语音通信（而不是语音识别）中仍有价值，可减少线路另一端的听者噪音。

回声消除示例 - 在 AEC 激活前后 2 个信号的声谱图。

回声消除

在任何封闭空间（房间、驾驶室）中，声音会朝多个方向传播，并且会从墙壁、窗户和家具发出回声，比直接信号略迟一点到达麦克风。或者，听众可能会听到从讲话人到麦克风的难听回声。消除这些讨厌的回声（起码会增强噪音）是回声消除（AEC）技术的任务。回声消除技术将参考信号（麦克风从直接路径接收到的第一个最强信号）与随后接收到的回波进行比较。它们波形相似，但是已衰减，因此容易识别并从信号中除去。

高精度语音识别只能通过高质量音频前端实现。这需要一些相当复杂的音频前端处理，比如人声活动检测、DOA 检测、波束成型、回声消除和滤波（如果适用）。这些技术全部基于复杂的信号处理算法。有多种技术组合可以为您提供，您可根据在高端技术和大众市场之间的不同定位进行选择。

要实现可靠的基于语音的控制，乃至于在嘈杂环境中实现高音质的沟通，必须满足这一基本的要求。颇具矛盾的是，如果您可以将大量技术应用于清晰语音拾取问题，该问题便可迎刃而解。只要采用高端语音活动检测技术、多麦克风波束成型技术和回声消除技术，您便可以拥有一款面向高端市场的高档产品。一个更为有趣的挑战是能够以更具吸引力的价格为您的中端市场提供几乎同样出色的拾音质量。我将在此处探讨同时面向这两类市场的技术。

语音活动检测（VAD）

此步骤是语音拾取路径的起点 – 是否有人在声音背景中讲话？第一步只是查看一下信号，将具有清晰活动的帧与背景分离开来。

图 1：针对示例信号的 VAD 功能

仅查看原始检测信号，会发现一些检测将是真实的，一些检测将是错误的。为 SnR 设置一个合适的阈值有助于找到一个好的平衡点。在一款物有所值的产品中，纯粹基于能量的检测（窗口集成）可能就足够了。高档产品可能会增加使用神经网络的自适应检测。这两种特性在可穿戴设备和耳塞中都很常见。这些技术的常见分析是在接收器工作特性（RoC）曲线上绘制真阳性和假阳性的对比。假阳性和真阳性检测之间的这种权衡有助于您决定如何调整产品。

图 2：若干 VAD 解决方案的 RoC 图表

到达方向检测（DOA）

此算法会比较不同麦克风上检测到的信号在到达时间上的轻微延迟。自然地，每个麦克风对人类语音特性的拾取应具有选择性。然后，检测的准确性取决于所用麦克风的数量和这些麦克风的分布情况。

智能扬声器或智能电视等高端设备通常会假定讲话人距离较远，因此 DOA 将会相当准确。中端市场产品通常会离讲话人更近，并且几乎肯定会使用更少的麦克风，因此必须相应调整。这一因素对于波束成型技术尤其应予以考虑，而且对下一节中的降噪至关重要。

降噪

可以说，最好的降噪方式是空间降噪 - 使用波束成型技术放大讲话人声音。这再次需要多个麦克风，并使用 DOA 作为起点来选择应放大的位置。您可以使用的麦克风越多，放大讲话人声音的准确度就越高，从而有效抑制所有其他噪音源。但即使使用两个麦克风，您也可以在一个麦克风上提高甄别水平。

图 3：使用 3 个麦克风和 7 个麦克风的波束形成器滤波模式

对于单个麦克风，不能进行波束成型。如果讲话人自然靠近麦克风，这可能不成问题。例如，耳塞通过骨传导进行语音拾取时，可能已充分达到无噪音的程度。还请记住，对于语音识别，云提供商建议不要使用滤波器来消除噪音，因为这些滤波器可能同时会降低识别精度。

回声消除

回声（主要来自房间周围的固定表面）会产生与讲话人信号有关的背景噪音波尾。在低端设备上，设备的扬声器和塑料盒往往会增加噪音甚至产生非线性影响。这意味着 AEC 算法不仅必须可根据环境回波调整，还必须针对来自设备外壳的任何可能噪音进行调整。

图 4：AEC 使用的标准拾音路径

图 5：3 个不同房间的回波波尾随时间而变化的振幅比

跨界的 CEVA ClearVox

正如您看到的，当涉及到准确的语音拾取时，一种规格并非处处适用。必须设计不同的解决方案以满足不同的市场需求，即分别制定高端市场和大众市场目标。CEVA 可以帮助您同时满足这两个目标，让您从具有 NN 辅助算法和用于音频缩放的许多麦克风的高端技术中获得最大价值，或者从具有基于能量的语音活动检测和仅有两个甚至一个麦克风的实惠技术中获得最大价值。CEVA 在这一领域拥有多年的丰富经验。在用于耳塞、耳机和空间音频的应用中，所有这些经验都整合在我们的 CEVA ClearVox 产品中，该产品支持 CEVA DSP 和 ARM 平台。

原文标题：如何通过调节以获得高精度与高质量的语音识别

文章出处：【微信公众号：CEVA】欢迎添加关注！文章转载请注明出处。

审核编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

麦克风

麦克风

+关注

关注
15

文章
638

浏览量
54840
CEVA

CEVA

+关注

关注
1

文章
178

浏览量
75957
语音识别

语音识别

+关注

关注
38

文章
1742

浏览量
112691

原文标题：如何通过调节以获得高精度与高质量的语音识别

文章出处：【微信号：CEVA-IP，微信公众号：CEVA】欢迎添加关注！文章转载请注明出处。

什么是麦克风阵列

什么是麦克风阵列？想象一下一个小型音响部队在你面前，它们站成一排，用不同的麦克风捕捉声音。这就是麦克风阵列的基本概念。麦克风阵列由多个麦克风

发表于 11-30 01:08 •216次阅读

开创迷你麦克风时代：BOYAmini迷你麦克风驱动无线音频行业新变革

无线麦克风行业发展概览近年来，无线麦克风行业在全球范围内迎来迅猛增长。从传统音频设备到智能化、多功能的小型设备，无线麦克风的市场不断扩大。以中国为例，根据洛图科技的市场分析，2023年数字无线便携

发表于 11-29 12:09 •404次阅读

开创迷你<b class='flag-5'>麦克风</b>时代：BOYAmini迷你<b class='flag-5'>麦克风</b>驱动无线音频行业新变革

MEMS麦克风的优缺点分析

随着技术的进步，MEMS麦克风已经成为音频领域的一个重要分支，特别是在移动设备、智能家居和可穿戴设备中。它们以其独特的优势在音频捕捉领域占据了一席之地。 MEMS麦克风的优点 1. 小型化 MEMS

发表于 11-20 10:12 •544次阅读

TWL6040如何激活麦克风？

各位高手们，我现在使用TWL6040音频芯片，想请教下如何激活麦克风，我之前使用到是熊猫板，后来看了原理图之后，熊猫板上麦克风都被接地了，只留下了FM通道，后来我们自己做了一块板子，录完音之后播放都是无声的，想请教下，如果激活麦克风

发表于 11-05 07:05

鼎盛合 UHF无线麦克风方案

在当今音频技术飞速发展的时代，无线麦克风以其便捷性、灵活性和高质量的音频传输能力，在众多领域中得到了广泛的应用。而在无线麦克风方案中，主控芯片起着至关重要的作用。本文将围绕无线麦克风方案与主控芯片

发表于 10-28 16:44 •440次阅读

TLV320ADC6140和8个PDM麦克风设计麦克风阵列，使用TDM格式输出，每个麦克风输出相位是什么样的？

（手册上数字麦克风的接法有错误，SEL引脚应该一个接VCC,一个接GND），每个话筒输出都正常，但是加入算法后效果不好。我用示波器看了一下，PDM时钟输出都是同步的。就想问一下，PDM麦克风输出后加入芯片

发表于 10-12 08:12

Sitara Linux ALSA DSP麦克风阵列语音识别

电子发烧友网站提供《Sitara Linux ALSA DSP麦克风阵列语音识别.pdf》资料免费下载

发表于 10-10 09:13 •0次下载

主流的麦克风阵列有哪些？

麦克风阵列在HiFi音频解决方案中的重要性体现在它对音质提升的全面贡献。通过精准的声源定位、噪声抑制、空间感增强和智能处理，麦克风阵列为HiFi音频系统提供了卓越的声音采集和再现能力，使用户在音乐、电影和直播中获得沉浸式的高保真

发表于 10-08 20:52 •651次阅读

一文全了解麦克风阵列

什么是麦克风阵列？想象一下一个小型音响部队在你面前，它们站成一排，用不同的麦克风捕捉声音。这就是麦克风阵列的基本概念。麦克风阵列由多个麦克风

发表于 09-03 16:03 •1400次阅读

高性能USB麦克风解决方案

高性能USB麦克风的设计思路是将专业录音室级别的音质带到日常使用中，同时保持使用的简便性。传统的专业麦克风通常需要外部音频接口和复杂的设置，而USB麦克风通过内置的声卡和即插即用的设计，简化了这一过程，

发表于 08-21 19:50 •463次阅读

麦克风的 Turnkey 解决方案

麦克风的 Turnkey 解决方案提供了从硬件设计到系统集成的全面支持，通过高质量的麦克风技术解决了在各种应用场景中遇到的音频清晰度、噪声抑制和设备集成等问题。无论是在专业录音、公共演讲还是智能设备中，选择合适的麦克风方案可以显

发表于 08-16 22:45 •424次阅读

CYW20829 PDM可以支持麦克风，麦克风是否可以支持2.3公里的长距离？

CYW20829 PDM 可以支持麦克风，麦克风是否可以支持 2.3 公里的长距离？是否有参考设计/应用说明为什么需要 ULL 和 ACL 这两个功能，因为 ULL 轮询间隔比 ACL 7.5ms 快 1 毫秒。谢谢！

发表于 05-23 07:28

麦克风方案|U段家用麦克风的特点和组成部分

随着科技的不断发展，人们的家庭娱乐也越来越丰富多彩。家庭KTV近几年也成为了家庭娱乐活动的一部分，在家庭 KTV 中，麦克风是不可或缺的设备之一。今天我们就来说一说这个U段家用KTV麦克风的方案

发表于 03-21 14:57 •1196次阅读

无线麦克风音频方案

需要考虑音频质量和稳定性。无线麦克风在音频传输过程中需要保证音频质量的高保真度，使得音频信号能够准确、清晰地传输。音频质量的保证包括对语音信号的准确捕捉和传输、抗干扰能力的提升以及低延迟的实现。无线芯片的设计

发表于 02-26 15:22 •852次阅读

MEMS 麦克风接口：模拟与数字输出

作者：Jeff Smoot 是 CUI Devices 应用工程和运动控制部门副总裁使用微机电系统(MEMS) 麦克风，就有可能将复杂的通信和监测功能纳入各种设备。例如，家庭数字助理和语音导航设备

发表于 02-13 15:06 •2112次阅读