0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用MEMS麦克风阵列定位并识别音频或语音信源的技术方案

电子设计 2018-08-30 19:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1.前言

自动语音识别、语音模式识别和说话人识别及确认等应用对噪声十分敏感,信源定位识别是音频和语音信号捕捉处理应用的一个关键的预处理功能。特别是基于微机电系统(MEMS) 的麦克风阵列出现后,麦克风阵列音频定位方案引起科研企业和开发人员的广泛关注。

目前业界正在使用MEMS麦克风阵列子系统开发嵌入式音频定位、自动语音识别和自动说话人识别解决方案,声音识别定位是我们识别确认他人身份的基本功能,当我们听到有人讲话时,会将头转向说话人,查看说话人。

音源定位是自动语音识别和自动说话人识别系统的一个重要环节,对于提高语音识别系统的性能至关重要。麦克风阵列可捕捉从不同方向传来的声音,通过算法运算使麦克风指向某一个特定方向,放大从该方向捕捉到的音频信号,同时衰减从其它方向捕捉的音频信号,整个动作就像一个智能麦克风。

图 1.综合利用麦克风音源互相关性(CC)、相变(PHAT)和最大相似性处理(ML)技术的音源定位

2.系统框架

整个系统由以下几个子系统组成:音源方向测定、数据融合、自动语音识别和自动说话人确认。其中,音频方向测定子系统基于麦克风阵列,运行三个不同的音频方向估算算法;数据融合子系统负责推断方向,自动语音识别子系统利用传入的音频信号增强主音源信号强度,衰减主音源周围的其它音频信号。最后,自动说话人确认子系统识别某些关键词汇,再利用相关特征与说话人匹配。

图 2. 系统框架

如果语音识别任务没有成功,则反馈给数据融合系统,估算新方向传入的语音,然后驱动麦克风阵列指向该方向。

2.1 语音识别和说话人识别

语音特征提取(27 LPC-倒普系数)需要确定语音的端点,将语音分成数个短祯(每祯20 ms),通过一个DTW模式对准算法与一组参考语音(模板)匹配。然后,应用欧氏距离测量法进行相似性评估。

图 3. 特征提取、模式匹配和评分是说话人语音识别确认任务的主要环节

说话人身份评分采用的是动态时间规整近邻(DTW-KNN)算法的距离测量方法,即动态时间规整测量算法与近邻决策算法的合并算法。这个算法需要使用均方根、过零率、自动相关和倒普线性预测系数。使用欧氏距离算法计算成本函数,使用KNN 算法计算最小距离匹配度 k。

3.MEMS麦克风阵列

我们采用STM32F4微控制器和MEMS麦克风开发一个硬件音频信号同步采集处理子系统,其信号捕捉能力相当于8个采样率高达48 KHz的麦克风 。

图 4. 采用STM32F4微控制器和MEMS麦克风的硬件音频信号同步采集处理子系统

3.1 MEMS技术

MEMS技术的主要特性是在能够同一芯片表面集成微电子和微机械单元,在同一封装内整合不同的功能。这样,过去分别由传感器、执行器(例如,射流管理或机械交互)和逻辑、控制单元完成的不同功能,今天可以整合在同一个封装内。从生化分析,到惯性系统,从机械传感器,到音频和声波传感器, MEMS产品覆盖很多应用领域。

3.2 MEMS麦克风和音频编码

MEMS麦克风尺寸虽然比其它技术麦克风小,但是,从物理和机械角度看,却具备标准驻极体麦克风的全部功能,其核心部件是一个振膜,振膜和固定框架共同组成一个可变电容器。当声波引起振膜变形时,电容会发生变化,从而导致电压变化。

被捕捉到的信号的后期处理,即功率放大和模数转换过程,都是在同一芯片上完成,因此,麦克风输出是高频PDM信号。在脉冲密度调制过程,逻辑1对应一个正 (+A) 脉冲,而逻辑0对应一个负(-A)脉冲。因此,假设输入一个周期的正弦音频,当输入电压在最大正振幅时,输出为一个由“1”组成的脉冲序列;当输入电压在最大负振幅时,输出则是一个由“0”组成的序列。当穿过0振幅时,声波在1和0序列之间快速变化。如果方法正确,PDM可通过数字方法给高品质音频编码,而且实现方法简易,成本低廉。因此,PDM比特流是MEMS麦克风常用的数据输出格式。

另一方面,PCM是一个非常著名的音频编码标准,以相同的间隔对信号振幅定期采样,在数字步进范围内,每个采样被量化至最接近值。决定比特流是否忠实原模拟信号的是PCM比特流的两个基本属性:采样率,即每秒采样次数;位宽,即每个采样包含的二进制数个数;通过降低采样率(降低十分之一)和提高字长,可以将PDM编码信号转成PCM信号,PDM数据速率与降低十分之一的PCM采样率的比值被称为降采样率。因此,对于N:1降采样率,只要每N个间隔采样一次(不考虑剩余的N-1),即可完成降低十分之一的采样过程。

3.3 麦克风阵列

从硬件角度看,这款产品基于STM32F407VGT6高性能微控制器,能够通过8个MEMS麦克风采集信号。STM32F4微控制器基于工作频率最高168 MHz的高性能ARM? Cortex-M4 32 RISC处理器内核,集成高速嵌入式存储器(闪存容量最高1 MB, SRAM容量最高192KB)以及标准和先进的通信接口,例如,I2S全双工接口、SPI、 USB FS/HS和以太网

STM32 F4系列是意法半导体首批基于支持FPv4-SP 浮点扩展运算的ARM Cortex-M4F内核的STM32微控制器,这使得该器件适用于重负荷算法,浮点单元完全支持单精度加法、减法、乘法、除法和累加以及均方根运算,还提供定点和浮点数据格式转换和浮点常数指令,完全兼容ANSI/IEEE Std 754-1985二进制浮点算术标准。为提高ARM架构的数字信号处理和多媒体应用性能,指令集还增加了DSP指令集。新指令是数字信号处理架构常用指令,包括带符号乘加变化(variations on signed multiply–accumulate)、饱和加减和前导零计数。

麦克风阵列通过RJ45以太风接口或USB OTG FS接口连接其它器件,与其它器件交互是通过可控制基本板设置的DIP开关实现。

如下图所示,每个MEMS麦克风都是由同一个时钟源触发,时钟源由专用振荡器驱动,对每个GPIO端口的一个引脚输出1位PDM 高频信号。输出PDM数据频率与输入时钟同步,因此,DMA控制器以同一频率即音频捕捉频率对GPIO端口进行读操作,然后将1 ms音频数据(每次)保存在存储器缓冲电路。这时,该缓冲器包含麦克风交叉信号,然后软件利用优化的快速解码函数对数据进行解复用处理。最后,PDM 数据通过数字信号处理环节,再进行PDM转PCM处理。

图 5.每个MEMS麦克风都是由同一个时钟源触发,时钟源由专用振荡器驱动,对每个GPIO端口的一个引脚输出1位PDM 高频信号

麦克风传来的PDM信号经过过滤和十分之一降采样率处理,以取得所需频率和分辨率的信号。麦克风输出的PDM数据频率(麦克风的输入时钟)必须是系统最终音频输出的倍数,滤波器管道输出是一个16位值,我们将 [-32768, 32767]视为一个单位增益(0 dB)的输出范围。

原先滤波管道产生的数字音频信号在信号调理前被进一步处理。管道第一级是一个高通滤波器,主要用于除掉信号DC失调。为保护信号质量,该滤波级是使用一个截止频率不在可听频率范围内的 IIR滤波器,管道第二级是一个基于IIR滤波器的低通滤波器。两个滤波器有启用和禁用以及配置功能;可通过外部整数变量控制增益。

如上文所述,数据采集有两个比特流解决方案,通过DP开关选择使用哪一个方案。当选用 USB且在主机USB插入麦克风阵列时,主机将STM32_MEMS_Microphones视为一个标准的USB音频设备。因此,主机系统无需安装驱动软件。例如, STM32_MEMS_Microphones可直接连接第三方PC音频采集软件。当选用以太网时,STM32_MEMS_Microphones发送RTP数据包。在网络服务器的以太网设置页对目的地IP、设备单播地址和采集参数进行配置。

4.结论

音源定位识别是语音识别技术中的一个重要的语音预处理环节,对提高音频应用和声控应用性能具有重要意义。音源定位主要用于自动语音识别、音频模式识别、说话人发现及识别。MEMS技术的问世让麦克风阵列能够嵌入在上述应用设计中,执行音频信号预处理过程,为应用级提供最好的信息。

该嵌入式单个说话人及其语音定位识别方案基于一个集成ARM处理器和一组MEMS麦克风的原型板。初步测试结果证明了这一集成方案的可行性,且系统级模块可以做语音、音频识别目标板,满足人机、人与周围环境的自然用户界面的功能要求。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索LMV1091:高性能麦克风阵列放大器的卓越之选

    出色的解决方案。本文将深入探讨LMV1091的特点、规格、应用以及设计要点,帮助电子工程师更好地了解和应用这款产品。 文件下载: lmv1091.pdf 一、LMV1091概述 LMV1091是一款全模拟双差分输入、差分输出的麦克风阵列
    的头像 发表于 02-02 10:35 326次阅读

    为什么你的蓝牙耳机通话清晰?MEMS麦克风是关键

    绝大多数用户不知道,蓝牙耳机和小音箱的清晰通话、主动降噪都依赖MEMS麦克风。本文详解MEMS麦克风原理、优势及其在音频设备中的核心应用,带
    的头像 发表于 01-05 17:04 1012次阅读

    探究 InvenSense ICS - 40214 模拟 MEMS 麦克风:性能与应用全解析

    探究 InvenSense ICS - 40214 模拟 MEMS 麦克风:性能与应用全解析 在当今的电子设备领域,从智能手机到可穿戴设备,麦克风作为音频输入的关键组件,其性能的优劣直
    的头像 发表于 12-26 11:15 574次阅读

    TDK InvenSense ICS - 40800麦克风:性能、设计与应用全解析

    TDK InvenSense ICS - 40800麦克风:性能、设计与应用全解析 在当今的电子设备中,麦克风作为音频输入的关键组件,其性能和可靠性直接影响着设备的音频质量。TDK
    的头像 发表于 12-26 11:15 889次阅读

    探索英飞凌XENSIV™ MEMS麦克风柔性评估套件

    探索英飞凌XENSIV™ MEMS麦克风柔性评估套件 引言 在当今的电子设备设计中,麦克风的性能和易用性至关重要。英飞凌的XENSIV™ MEMS
    的头像 发表于 12-21 10:55 980次阅读

    探索英飞凌XENSIV™ MEMS麦克风柔性评估套件

    探索英飞凌XENSIV™ MEMS麦克风柔性评估套件 在如今的电子设备设计中,麦克风作为重要的音频输入组件,其性能评估至关重要。英飞凌推出的XENSIV™
    的头像 发表于 12-18 15:40 604次阅读

    蓝牙耳机音质革命:MEMS麦克风如何重塑听觉体验?

    揭秘MEMS麦克风在蓝牙耳机中的核心作用,从主动降噪到语音交互,看微型技术如何提升通话清晰度与沉浸式音乐享受
    的头像 发表于 12-12 16:00 702次阅读

    MEMS麦克风在TWS耳机中的应用解析-技术揭秘

    深入探讨MEMS麦克风如何提升TWS耳机通话降噪与语音体验。了解华芯邦高性能MEMS传感器的核心技术优势,助力耳机实现高清音质与低功耗运行
    的头像 发表于 11-21 14:55 742次阅读

    揭秘蓝牙耳机清晰通话的核心:高性能MEMS麦克风

    为什么你的蓝牙耳机通话不清、降噪不佳?问题可能出在MEMS麦克风上。本文将揭秘MEMS麦克风如何成为智能设备听觉命脉,并重点介绍华芯邦MEMS
    的头像 发表于 11-11 14:16 1356次阅读

    解锁声音定位新维度,AR-1105 双数字麦克风阵列板引领音频感知革命

    AR-1105 是一款性能卓越的双数字麦克风阵列板,具备 360 度 6 方向声音识别能力,工作电压覆盖 4-6.5V,拾音范围达 10-200CM,支持模拟和数字音频双端口输出。它可
    的头像 发表于 11-07 09:14 1014次阅读
    解锁声音<b class='flag-5'>定位</b>新维度,AR-1105 双数字<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>板引领<b class='flag-5'>音频</b>感知革命

    蓝牙耳机降噪核心技术解析:MEMS麦克风如何重塑听觉体验?

    深入剖析蓝牙耳机中MEMS麦克风技术优势,从微型化设计到射频抗干扰能力,解读索尼、Jabra等品牌如何通过多麦克风阵列实现精准降噪。结合
    的头像 发表于 11-06 16:04 899次阅读
    蓝牙耳机降噪核心<b class='flag-5'>技术</b>解析:<b class='flag-5'>MEMS</b>硅<b class='flag-5'>麦克风</b>如何重塑听觉体验?

    ‌基于STEVAL-STWINMA2麦克风阵列扩展板的工业音频传感技术解析

    、模拟和底部端口MEMS麦克风。该扩展板具有3V至5.5V输入电源范围和板载音频级四通道模数转换器 (ADC)。STEVAL-STWINMA2工业模拟麦克风扩展板还具有高达80kHz超
    的头像 发表于 10-24 10:54 828次阅读
    ‌基于STEVAL-STWINMA2<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>扩展板的工业<b class='flag-5'>音频</b>传感<b class='flag-5'>技术</b>解析

    自动增益控制麦克风:WT588F02A-16S录放音语音芯片提升音质的关键选择

    语音技术日益精进的今天,广州唯创电子WT588F02A-16S录音芯片与AGC麦克风的完美配合,正重新定义清晰录音的技术标准技术解析:自动
    的头像 发表于 10-22 09:14 665次阅读
    自动增益控制<b class='flag-5'>麦克风</b>:WT588F02A-16S录放音<b class='flag-5'>语音</b>芯片提升音质的关键选择

    MEMS麦克风设计注意事项和应用指南

    MEMS麦克风以其极致的小巧、卓越的性能、强大的稳定性和极具竞争力的成本,席卷了从消费电子到工业物联网的各个角落。无论是打造清晰通话的TWS耳机,赋予智能设备“听”的能力,还是在嘈杂环境中精准拾音,MEMS
    的头像 发表于 08-29 13:48 8558次阅读
    <b class='flag-5'>MEMS</b><b class='flag-5'>麦克风</b>设计注意事项和应用指南

    敏芯股份推出70dB高信噪比MEMS麦克风

    在人工智能驱动交互革命的浪潮中,语音、视觉、手势等多模态融合交互方式正突破物理与数字的次元壁。对话则是交互中最自然的方式,而MEMS麦克风作为物理基座,正在不断突破其性能极限。敏芯股份现已推出70dB高信噪比
    的头像 发表于 05-29 16:40 1453次阅读
    敏芯股份推出70dB高信噪比<b class='flag-5'>MEMS</b><b class='flag-5'>麦克风</b>