麦克风,学名为传声器,是将声音信号转换为电信号的能量转换器件,由“Microphone”这个英文单词音译而来。也称话筒、微音器。二十世纪,麦克风由最初通过电阻转换声电发展为电感、电容式转换,大量新的麦克风技术逐渐发展起来,这其中包括铝带、动圈等麦克风,以及当前广泛使用的电容麦克风和驻极体麦克风。本文为大家介绍几种麦克风的设计方案,仅供参考。
1引言
与传统的驻极体电容式麦克风相比,电容式MEMS麦克风具有以下优势:1)性能稳定,温度系数低,受湿度和机械振动的影响小;2)成本低廉;3)体积小巧,电容式MEMS麦克风的背极板和振膜仅有最小的驻极体电容式麦克风的1/10左右;4)功耗更低。以上几方面的优势使电容式MEMS麦克风得到越来越广泛的应用。
然而,电容式MEMS麦克风也给设计人员提出了挑战:1)麦克风在声压作用下产生的小信号幅度非常微小,要求读出电路的噪声极低;2)电容式MEMS麦克风的静态电容是pF量级,读出电路需要GΩ量级的输入电阻才能实现极点频率低于20Hz的高通滤波器,因此,高阻值电阻的实现是读出电路的又一挑战;3)电容式MEMS麦克风通常应用于电池供电的产品,因此低功耗设计也是读出电路设计时必须考虑的约束。
基于以上考虑,在分析电容式MEMS麦克风工作原理的基础上,提出了一种低功耗、低噪声、高分辨率的电容式MEMS麦克风读出电路。
2电容式MEMS麦克风
2.1工作原理
电容式MEMS麦克风的主要结构包括一个薄而有弹性的声学振膜及一个刚性的背极板。振膜、背极板以及它们之间的空气隙共同组成一个平行板电容器,故有:
V=Q/C,C=εS/x (1)
式中,C为电容量,S为极板的面积,Q是极板间的电压为V时存储的电荷量,ε是极板间介质(空气)的介电常数,x为两极板间的距离。当dP大小的声压变化作用于振膜时,将引起两极板间的电压变化:
因为dx∝dP,所以输出电压dV∝dP.这就是电容式MEMS麦克风的声电转换工作原理。
这一原理成立的条件是:在声电转换过程中,必需保持麦克风电容所储电荷量Q不变,因此需要外加一个稳定的直流电压给电容充电,使之保持恒定的充电状态。这一功能由电荷泵来实现。
2.2麦克风读出电路结构
电容式MEMS麦克风及其读出电路组成的系统如图1所示。
图1麦克风及其读出电路结构
电荷泵为麦克风提供稳定的直流电压,以保持麦克风电容所储电荷量不变。在此基础上,声压作用于振膜时,将引起麦克风两极板间电压的变化,这个音频范围内的电压小信号Vmic通过麦克风电容Cmic和读出电路的高阻值输入电阻组成的高通滤波器读出。
需要特别指出,背靠背的二极管有三个作用:1)提供高阻值输入电阻,与麦克风电容一起实现低极点频率的高通滤波器,进而实现麦克风小信号的读出;2)为单位增益缓冲器提供直流偏置电压;3)起静电保护作用,在读出电路遭受静电袭击时为其提供低阻直流通路。单位增益缓冲器的作用一是屏蔽麦克风与后续信号处理电路,避免两者之间相互影响,二是提高读出电路的驱动能力。
3读出电路设计
3.1低极点频率高通滤波器
背靠背二极管的实际电路如图2所示。背靠背二极管可实现虚拟电阻。二极管连接的PMOS管Ma,Mb的衬底与栅极相接,这种连接方式不会产生寄生三极管,可以保证两个二极管串始终只有一组导通(饱和导通或亚阈值导通)。在正常工作状态下,Ma1,Ma2亚阈值导通。仿真结果表明,当节点IN与节点A之间的电压差绝对值小于0.2V时,背靠背二极管可以实现GΩ量级的电阻,如图3所示。
图2背靠背二极管的电路
图3背靠背二极管的电阻-电压特性
背靠背二极管还可以为单位增益缓冲器提供直流偏置电压。电流源Ib的电流流过电阻Rb,从而在节点A形成固定的电压,单位增益缓冲器的输入直流偏置也就被固定于IbRb.
背靠背二极管具有ESD保护作用,在读出电路遭受静电袭击时为其提供低阻直流通路。需要注意的是,因为读出电路对输入阻抗要求很高,所以在设计中使用了 ESD保护电路与读出电路内部功能性电路复用的电路,这样可以避免在设计完功能性电路后再加上ESD保护电路而对电路性能产生重大影响。
3.2低噪声低功耗单位增益缓冲器
较之开环运算放大器,使用单位增益缓冲器可得到比开环运放更大的输入阻抗和更小的输出阻抗,从而可以更好地屏蔽麦克风与后续信号处理电路,以避免两者之间的相互影响;同时,还可以更容易地驱动后续信号处理电路。
只需将运算放大器输出端与反相输入端短接,即可实现单位增益缓冲器,如图4所示。与套筒式结构相比,使用折叠结构的运算放大器最大的优点在于易于使运放的输出与输入短接,共模电平的选取也更加容易。
图4运算放大器
输入管使用尺寸较大的PMOS管,其原因主要有两个:一是与NMOS管相比,PMOS管的1/f噪声更小;二是输入管直流偏置点可以设置得更低,从而使电荷泵输出电压大部分降落在麦克风上。
采用不对称的输入管,反相输入管尺寸更大,其优点在于可以消除输入失调电压的影响,提高分辨率。假如设置运放反相输入端的直流偏压比正相输入端高 50mV,那么,当麦克风小信号的幅值小于50mV时,读出电路分辨率将不受失调电压的影响。而且,反相输入管面积越大,闪烁噪声越小,进而减小了单位增益缓冲器的等效输入噪声。
工作在饱和区的MOS管的跨导与其漏极电流的平方根成正比。但是,工作在亚阈值区的MOS管的跨导与其漏极电流成正比。所以,为了在降低噪声和功耗的同时保持运放的开环增益,设计中采用工作在亚阈值区的输入管。忽略运放第二级对输入噪声的影响,音频范围内二级运放的等效输入噪声电压为:
(3)式主要考虑了闪烁噪声的影响。从(3)式可以看出,增大M1~M6的尺寸可以增大M1和M2的跨导,减小M3~M6的跨导可以减小闪烁噪声。需要说明的是,在设计低功耗的二级运放时,为了降低功耗,可以让运放中的一些管子工作在亚阈值区,但这是以增大管子面积、降低运放速度为代价的。在电路设计过程中,往往需要考虑多方面的因素来进行折中优化设计。
4电路仿真结果与分析
基于X-FAB 0.35μm CMOS工艺,使用Cadence软件,对MEMS麦克风读出电路进行仿真。设电荷泵输出电压为11V,麦克风静态电容为1pF,设定单位增益缓冲器输入直流电平为200mV,负载为100pF电容和100kΩ电阻的最差负载情况。输入管不对称的运放的性能参数如表1所示。
表1开环运算放大器的性能参数
电路仿真结果显示,电源电压在1.2~3.6V时,读出电路均可正常工作(当电源电压低于1.2V时,基准电流源无法正常工作,基准电流会迅速下降并趋于 0,此时,读出电路因得不到合适的偏置而无法正常工作;当电源电压高于3.6V时,超过了工艺耐压的极限,极有可能对芯片造成毁灭性的损坏);读出电路静态电流小于60μA,在20Hz~20kHz的音频范围内,等效输入噪声为5.2μV,信号读出效率大于83.6%(-1.56dB)。
电源电压为1.2V时,读出电路的幅频响应曲线如图5所示,低频的极点频率为8.6Hz.
图5读出电路频率响应
由于运放失调电压的影响被不对称输入管消除,且电荷泵的等效输出噪声是nV量级(可以忽略不计),所以读出电路可以处理的小信号幅度范围是50μV~200mV.本文读出电路与文献[9]读出电路的各项性能比较结果如表2所示。
表2读出电路性能比较
5结论
设计了一种新颖的电容式MEMS麦克风读出电路,该电路包含低极点频率的高通滤波器和低噪声的单位增益缓冲器两个部分。采用二极管连接的MOS管实现了高阻值的输入电阻,与电容式MEMS麦克风的静态电容一起组成低极点频率的高通滤波器,可读出麦克风在声压作用下产生的小信号。另外,采用两种办法来提高读出电路的分辨率:一是运放采用不对称输入管来消除失调电压的影响,二是通过增大输入管的尺寸等方法来降低运放的输入噪声。在读出电路的设计中,为了降低读出电路的功耗,使用了工作在亚阈值区的MOS管。
本文提供的读出电路设计方案具有噪声小、可以处理的小信号幅度范围广、功耗低等特点,可延长电池供电的便携式设备的待机时间。
TOP2 利用MEMS麦克风阵列定位并识别音频或语音信源的技术方案
1.前言
自动语音识别、语音模式识别和说话人识别及确认等应用对噪声十分敏感,信源定位识别是音频和语音信号捕捉处理应用的一个关键的预处理功能。特别是基于微机电系统(MEMS) 的麦克风阵列出现后,麦克风阵列音频定位方案引起科研企业和开发人员的广泛关注。
目前业界正在使用MEMS麦克风阵列子系统开发嵌入式音频定位、自动语音识别和自动说话人识别解决方案,声音识别定位是我们识别确认他人身份的基本功能,当我们听到有人讲话时,会将头转向说话人,查看说话人。
音源定位是自动语音识别和自动说话人识别系统的一个重要环节,对于提高语音识别系统的性能至关重要。麦克风阵列可捕捉从不同方向传来的声音,通过算法运算使麦克风指向某一个特定方向,放大从该方向捕捉到的音频信号,同时衰减从其它方向捕捉的音频信号,整个动作就像一个智能麦克风。
图 1.综合利用麦克风音源互相关性(CC)、相变(PHAT)和最大相似性处理(ML)技术的音源定位
2.系统框架
整个系统由以下几个子系统组成:音源方向测定、数据融合、自动语音识别和自动说话人确认。其中,音频方向测定子系统基于麦克风阵列,运行三个不同的音频方向估算算法;数据融合子系统负责推断方向,自动语音识别子系统利用传入的音频信号增强主音源信号强度,衰减主音源周围的其它音频信号。最后,自动说话人确认子系统识别某些关键词汇,再利用相关特征与说话人匹配。
图 2. 系统框架
如果语音识别任务没有成功,则反馈给数据融合系统,估算新方向传入的语音,然后驱动麦克风阵列指向该方向。
2.1 语音识别和说话人识别
语音特征提取(27 LPC-倒普系数)需要确定语音的端点,将语音分成数个短祯(每祯20 ms),通过一个DTW模式对准算法与一组参考语音(模板)匹配。然后,应用欧氏距离测量法进行相似性评估。
图 3. 特征提取、模式匹配和评分是说话人语音识别确认任务的主要环节
说话人身份评分采用的是动态时间规整近邻(DTW-KNN)算法的距离测量方法,即动态时间规整测量算法与近邻决策算法的合并算法。这个算法需要使用均方根、过零率、自动相关和倒普线性预测系数。使用欧氏距离算法计算成本函数,使用KNN 算法计算最小距离匹配度 k。
3.MEMS麦克风阵列
我们采用STM32F4微控制器和MEMS麦克风开发一个硬件音频信号同步采集处理子系统,其信号捕捉能力相当于8个采样率高达48 KHz的麦克风 。
图 4. 采用STM32F4微控制器和MEMS麦克风的硬件音频信号同步采集处理子系统
3.1 MEMS技术
MEMS技术的主要特性是在能够同一芯片表面集成微电子和微机械单元,在同一封装内整合不同的功能。这样,过去分别由传感器、执行器(例如,射流管理或机械交互)和逻辑、控制单元完成的不同功能,今天可以整合在同一个封装内。从生化分析,到惯性系统,从机械传感器,到音频和声波传感器, MEMS产品覆盖很多应用领域。
3.2 MEMS麦克风和音频编码
MEMS麦克风尺寸虽然比其它技术麦克风小,但是,从物理和机械角度看,却具备标准驻极体麦克风的全部功能,其核心部件是一个振膜,振膜和固定框架共同组成一个可变电容器。当声波引起振膜变形时,电容会发生变化,从而导致电压变化。
被捕捉到的信号的后期处理,即功率放大和模数转换过程,都是在同一芯片上完成,因此,麦克风输出是高频PDM信号。在脉冲密度调制过程,逻辑1对应一个正 (+A) 脉冲,而逻辑0对应一个负(-A)脉冲。因此,假设输入一个周期的正弦音频,当输入电压在最大正振幅时,输出为一个由“1”组成的脉冲序列;当输入电压在最大负振幅时,输出则是一个由“0”组成的序列。当穿过0振幅时,声波在1和0序列之间快速变化。如果方法正确,PDM可通过数字方法给高品质音频编码,而且实现方法简易,成本低廉。因此,PDM比特流是MEMS麦克风常用的数据输出格式。
另一方面,PCM是一个非常著名的音频编码标准,以相同的间隔对信号振幅定期采样,在数字步进范围内,每个采样被量化至最接近值。决定比特流是否忠实原模拟信号的是PCM比特流的两个基本属性:采样率,即每秒采样次数;位宽,即每个采样包含的二进制数个数;通过降低采样率(降低十分之一)和提高字长,可以将PDM编码信号转成PCM信号,PDM数据速率与降低十分之一的PCM采样率的比值被称为降采样率。因此,对于N:1降采样率,只要每N个间隔采样一次 (不考虑剩余的N-1),即可完成降低十分之一的采样过程。
3.3 麦克风阵列
从硬件角度看,这款产品基于STM32F407VGT6高性能微控制器,能够通过8个MEMS麦克风采集信号。STM32F4微控制器基于工作频率最高 168 MHz的高性能ARM® Cortex-M4 32 RISC处理器内核,集成高速嵌入式存储器(闪存容量最高1 MB, SRAM容量最高192KB)以及标准和先进的通信接口,例如,I2S全双工接口、SPI、 USB FS/HS和以太网。
STM32 F4系列是意法半导体首批基于支持FPv4-SP 浮点扩展运算的ARM Cortex-M4F内核的STM32微控制器,这使得该器件适用于重负荷算法,浮点单元完全支持单精度加法、减法、乘法、除法和累加以及均方根运算,还提供定点和浮点数据格式转换和浮点常数指令,完全兼容ANSI/IEEE Std 754-1985二进制浮点算术标准。为提高ARM架构的数字信号处理和多媒体应用性能,指令集还增加了DSP指令集。新指令是数字信号处理架构常用指令,包括带符号乘加变化(variations on signed multiply–accumulate)、饱和加减和前导零计数。
麦克风阵列通过RJ45以太风接口或USB OTG FS接口连接其它器件,与其它器件交互是通过可控制基本板设置的DIP开关实现。
如下图所示,每个MEMS麦克风都是由同一个时钟源触发,时钟源由专用振荡器驱动,对每个GPIO端口的一个引脚输出1位PDM 高频信号。输出PDM数据频率与输入时钟同步,因此,DMA控制器以同一频率即音频捕捉频率对GPIO端口进行读操作,然后将1 ms音频数据(每次)保存在存储器缓冲电路。这时,该缓冲器包含麦克风交叉信号,然后软件利用优化的快速解码函数对数据进行解复用处理。最后,PDM 数据通过数字信号处理环节,再进行PDM转PCM处理。
图 5.每个MEMS麦克风都是由同一个时钟源触发,时钟源由专用振荡器驱动,对每个GPIO端口的一个引脚输出1位PDM 高频信号
麦克风传来的PDM信号经过过滤和十分之一降采样率处理,以取得所需频率和分辨率的信号。麦克风输出的PDM数据频率(麦克风的输入时钟)必须是系统最终音频输出的倍数,滤波器管道输出是一个16位值,我们将 [-32768, 32767]视为一个单位增益(0 dB)的输出范围。
原先滤波管道产生的数字音频信号在信号调理前被进一步处理。管道第一级是一个高通滤波器,主要用于除掉信号DC失调。为保护信号质量,该滤波级是使用一个截止频率不在可听频率范围内的 IIR滤波器,管道第二级是一个基于IIR滤波器的低通滤波器。两个滤波器有启用和禁用以及配置功能;可通过外部整数变量控制增益。
如上文所述,数据采集有两个比特流解决方案,通过DP开关选择使用哪一个方案。当选用 USB且在主机USB插入麦克风阵列时,主机将STM32_MEMS_Microphones视为一个标准的USB音频设备。因此,主机系统无需安装驱动软件。例如, STM32_MEMS_Microphones可直接连接第三方PC音频采集软件。当选用以太网时,STM32_MEMS_Microphones发送 RTP数据包。在网络服务器的以太网设置页对目的地IP、设备单播地址和采集参数进行配置。
4.结论
音源定位识别是语音识别技术中的一个重要的语音预处理环节,对提高音频应用和声控应用性能具有重要意义。音源定位主要用于自动语音识别、音频模式识别、说话人发现及识别。MEMS技术的问世让麦克风阵列能够嵌入在上述应用设计中,执行音频信号预处理过程,为应用级提供最好的信息。
该嵌入式单个说话人及其语音定位识别方案基于一个集成ARM处理器和一组MEMS麦克风的原型板。初步测试结果证明了这一集成方案的可行性,且系统级模块可以做语音、音频识别目标板,满足人机、人与周围环境的自然用户界面的功能要求。
TOP3 CMOS电容式微麦克风设计
随着智能手机的兴起,对于声音品质和轻薄短小的需求越来越受到大家的重视,近年来广泛应用的噪声抑制及回声消除技术均是为了提高声音的品质。相比于传统的驻极体式麦克风(ECM),电容式微机电麦克风采用硅半导体材料制作,这便于集成模拟放大电路及ADC(∑-ΔADC)电路,实现模拟或数字微机电麦克风元件,以及制造微型化元件,非常适合应用于轻薄短小的便携式装置。本文将针对CMOS微机电麦克风的设计与制造进行介绍,并比较纯MEMS与CMOS工艺微导入麦克风的差异。
电容式微麦克风原理
MEMS微麦克风是一种微型的传感器。其原理是利用声音变化产生的压力梯度使电容式微麦克风的声学振膜受声压干扰而产生形变,进而改变声学振膜与硅背极板之间的电容值。该电容值的变化由电容电压转换电路转化为电压值的输出变化,再经过放大电路将MEMS传感器产生得到电压放大输出,从而将声压信号转化成电压信号。在此必须采用一个高阻抗的电阻为MEMS传感器提供一个偏置电压VPP,借以在MEMS传感器上产生固定电荷,最后的输出电压将与VPP及振膜的形变Δd成正比。振膜的形变与其刚性有关,刚性越低则形变越大;另一方面,输出电压与d(气隙)成反比,因此气隙越低,则输出电压及灵敏度越优,但这都将受限于MEMS传感器的吸合电压,也就是受限于MEMS传感器静电场的最大极限值(图1)。
图1 电容式麦克风原理
CMOS微机电麦克风电路设计
在CMOS微麦克风设计中,电路是一个非常重要的环节,它将影响到微麦克风的操作、感测,以及系统的灵敏度。以图2为例,驻极式电容微麦克风的感应电荷由驻极体材料本身提供的驻极电荷所产生,而凝缩式电容微麦克风则是采用从CMOS的操作电压中抽取一个偏置电压,再通过一个高阻抗电阻提供给微麦克风的声学振膜来提供固定的电荷源。此时,若声学振膜受到声压驱动而产生位移变化,则电极板(感测端)的电压将会发生变化。最后,通过电路放大器将信号放大,则可实现模拟麦克风的电路设计;如果再加上一个∑-ΔADC模数转换电路,便可完成数字麦克风的电路设计(一般数字麦克风的输出信号为1比特PDM输出)。
图2 微麦克风电路设计简图
CMOS微机电麦克风工艺分类
从微机电麦克风的制造来看,就目前的技术层面而言,集成CMOS电路的MEMS元件可分为三种。Pre-CMOS MEMS工艺:先制作MEMS结构,再制作CMOS元件;Intra-CMOS MEMS工艺:CMOS与MEMS元件工艺混合制造;Post-CMOS MEMS工艺:先实现CMOS元件,再进行MEMS结构制造。一般而言,前两种方法无法在传统的晶圆厂进行,而Post-CMOS MEMS则可以在半导体晶圆代工厂进行生产。
图3简述了Post-CMOS MEMS的制造方式。在Post-CMOS MEMS工艺中需特别注意,不能让额外的热处理或高温工艺影响到CMOS组件的物理特性及MEMS的应力状态,以免影响到振膜的初始应力。鑫创科技公司克服了诸多的技术难题,完全采用标准的CMOS工艺来同时制造电路元件及微机电麦克风结构。在CMOS部分完成后,将芯片的背面研磨至适当厚度以符合封装要求。最后,利用氢氟酸溶液(HF)去除牺牲氧化物来释放悬浮结构。此外,在设计中还需考虑可完全去除牺牲材料而又不损害麦克风振膜的蚀刻方法,并应避免麦克风振膜与背电极板之间产生粘黏现象。
图3 Post-CMOS MEMS微麦克风的基本结构及工艺步骤
粘黏现象:由于麦克风振膜与背电极板之间的距离仅为数微米,在该尺寸下,当表面张力、范德华力、静电力、离子键等作用力大于麦克风振膜的回复力时,麦克风振膜将产生永久形变而附着于背电极板上,从而无法产生振动。通常,微机电悬浮结构粘黏现象的主要成因可以分为两类:第一类发生在麦克风振膜释放后,麦克风振膜受到表面张力影响,因而被拉近到与背电极板的距离非常靠近,若此时范德华力或氢键力等表面力大于麦克风振膜的回复力,则结构将产生粘黏现象而无法回复;第二类是悬浮结构在使用中受到外力冲击或是静电力吸引而落入表面力较回复力大的区域,则也会发生粘黏现象。因此,在结构设计上,必须特别考虑麦克风振膜在释放后的结构变形问题,并在重要的结构部位予以强化,利用特殊设计来减少粘黏现象的发生。
纯MEMS与CMOS工艺的差异
多数企业所开发的MEMS微麦克风主要分为两种形态:第一种是利用专业的MEMS代工厂制造出MEMS IC,再加上一个ASIC放大器,将MEMS IC及ASIC IC用SIP封装方式封装成MEMS麦克风芯片。这一部分在IC封装过程中必须保护振膜不被破坏,其封装成本相对较高;另一种是先利用CMOS晶圆厂制造出ASIC部分,再利用后工艺来形成MEMS的结构部分。其MEMS工艺技术目前似乎还无法在标准的CMOS晶圆厂完成,这主要是由于振膜需沉积高分子聚合物材料,而高分子聚合物材料还未用于目前的标准半导体IC工艺。另外,在CMOS工艺完成后,需分别在芯片的正面蚀刻出振膜并在其背面蚀刻出腔体及声学孔。该步骤通过载体晶圆(Carrier Wafer)来完成,在标准的CMOS铸造厂目前尚未创建出这样的环境。
目前,最大的课题是如何突破这两种形态MEMS麦克风的封装技术。其专利均由美国的微麦克风企业所掌控,因此,MEMS麦克风市场占有率主要分布在少数企业手上。
鑫创科技采取的方式是在CMOS工艺完成后,从芯片的背面形成腔体和声学孔作为MEMS结构的释放。这一部分无需使用特殊的机器和材料,可在现有的 CMOS晶圆厂内完成,因而能够降低开发成本。另外,鑫创科技的产品可直接利用晶圆级封装技术将CMOS电路与微麦克风集成在同一块芯片上,同样可避免在封装过程中对振膜产生破坏(图4)。
图4 微机麦克风扫描电路
MEMS麦克风目前已经取代ECM麦克风被广泛应用于手机中(尤其是智能手机),其主要原因是MEMS麦克风具有耐候性佳、尺寸小及易于数字化的优点。 MEMS麦克风采用半导体材质,特性稳定,不会受到环境温湿度的影响而发生改变,因而可以维持稳定的音质。电子产品组装在过锡炉时的温度高达260℃,常会破坏ECM麦克风的振膜而必须返工,这将增加额外的成本。采用MEMS麦克风则不会因为锡炉的高温而影响到材质,适合于SMT的自动组装。麦克风信号在数字化后,可以对其进行去噪、声音集束及回声消除等信号处理,从而能够提供优异的通话品质。目前已有多款智能手机采用数字化技术,在功能手机中也有加速采用的迹象。此外,笔记本电脑也是目前使用MEMS麦克风的主流,而机顶盒生产企业同样在积极尝试将MEMS麦克风应用于开发声控型机顶盒。
TOP4 MEMS麦克风的声学设计
前言
以高性能和小尺寸为特色的MEMS麦克风特别适用于平板电脑、笔记本电脑、智能手机等消费电子产品。不过,这些产品的麦克风声孔通常隐藏在产品内部,因此,设备厂商必须在外界与麦克风之间设计一个声音路径,以便将声音信号传送到MEMS麦克风振膜。这条声音路径的设计对系统总体性能的影响很大。
下图是一个典型的平板电脑的麦克风声音路径:
图1–典型应用示例
外界与麦克风振膜之间的声音路径由产品外壳、声学密封圈、印刷电路板和麦克风组成,这条声音路径起到波导作用,构建系统总体频响。此外,声音路径材质的声阻抗也会影响频响。若想准确预测声学设计的性能如何,需要建立声音路径模型,使用COMSOL等专业级仿真工具对声音路径的频响特性进行仿真实验。然而,本文为读者提供一些优化麦克风声音路径的基本原则。
Helmholtz谐振
狭窄的传声孔与空心腔室相连构成的结构在受到声波激励时会产生声学谐振。当我们对着空瓶的瓶嘴上方吹气时,就会发生这种谐振现象。这种结构叫做 Helmholtz谐振器,是以该现象的发明者Hermann von Helmholtz命名的。Helmholtz利用谐振频率不同的谐振器识别音乐等复杂声音内的频率成份。
Helmholtz谐振的中心频率是由下面的程式确定:
其中c是空气速度;AH是声孔的横截面积;LH是声孔的长度;VC是空腔的容积。该方程式假设谐振器是一个空腔和一条横截面均等的管道相连组成的简单结构。如果麦克风的声音路径的横截面积和材质不同,则描述声音路径的声波特性的方程式要复杂很多。因此,必须对整个声音路径进行声波特性仿真实验才能精确地预测声学设计的总体性能。
在本文内,通过改变麦克风密封圈的厚度和内径、产品外壳声孔直径、印刷电路板声孔直径、声音路径弯折和路径材质的声阻抗,我们对不同的声音路径进行了频响仿真实验。实验结果让设计人员能够预先掌握这些参数变化对声音路径总体性能的影响程度。
麦克风的频响
MEMS麦克风低频频响是由以下主要参数决定的:传感器振膜前侧和后侧之间通风孔的尺寸;后室的容积。而MEMS麦克风高频频响则是由麦克风前室和声孔产生的Helmholtz谐振决定的。
对于大多数MEMS麦克风,当麦克风的灵敏度降至低频然后再上升到高频时,因为Helmholtz谐振的原因,频响曲线大体相同。但是,不同的MEMS麦克在传感器设计、封装尺寸和结构方面差异很大,所以总体频响特别是高频频响的差异很大。意法半导体的多数麦克风将传感器直接置于声孔上面,以最大限度地降低前室容积,确保优异的高频响应。
图2–意法半导体MP34DT01上置声孔麦克风及其声室的X光影像
下面的仿真实验结果描述了意法半导体MP34DB01 MEMS麦克风本身的频响,该仿真工具在声音路径模型的每个离散点上求解该方程式,在仿真结束后,将在所有有用点采集的数据绘成图形。
图3–MP34DB01和MP34DT01 MEMS麦克风的声室
MP34DB01麦克风仿真结果证明,频响曲线在高频部分非常平坦,在20 kHz时,典型灵敏度上升幅度大约+3dB,这是因为Helmholtz谐振的中心频率很高。该仿真结果非常接近MP34DB01的实际测量频响。
图4– MP34DB01 MEMS麦克风频响仿真结果和实际测量结果
密封圈厚度对频响的影响
麦克风密封圈是在麦克风声孔与产品外壳声孔之间起到气密作用。在安装一个麦克风密封圈后,声孔至麦克风前室长度被延长,导致频响发生变化。下面的仿真实验是将长度不同但直径固定(400μm)的圆管置于麦克风声孔上,评估密封圈厚度对频响的影响程度。
图5– MP34DT01频响与密封圈厚度关系
从仿真实验中不难看出,增加一个密封圈会破坏频响性能。在增加密封圈(如果是下声孔麦克风,还要增加一个印刷电路板)后,实际声孔长度被延长,导致谐振频率降低,高频部分的灵敏度提高。更厚的密封圈将会提高谐振器瓶颈长度,导致谐振频率降低,高频响应性能变差。
密封圈内径对频响的影响
下一个仿真实验是评估内径不同但厚度固定(2mm)的密封圈对频响的影响。图6所示是使用不同内径密封圈的仿真实验结果。
图6– MP34DT01频响与密封圈内径关系
这些仿真数据表明,增加麦克风密封圈内径可提高谐振频率,提升总体频响性能。
声音路径形状对频响的影响
到此,仿真结果符合求解Helmholtz谐振方程式获得的预测结果。下面的仿真实验讨论声音路径形状变化对频响的影响,这项预测难度很大。图7(a)所示结构是一个长4mm、直径600μm的简易声音路径,其它仿真实验都以这个简单结构为基准。为了模拟密封圈、产品外壳声孔和印刷电路板声孔的宽度和形状的变化,仿真实验增加了长度、半径和形状不同的腔体,声音路径变得非常复杂。
图7–声音路径形状变化
图8– MP34DB01在不同声音路径形状时的频响
密封圈材质对频响的影响
到此为止所做的全部仿真实验都是集中在声音路径形状对频响的影响,并在所有路径表面应用了声音硬边界条件。下面的仿真实验讨论密封圈声阻抗对频响的影响。如图9所示,本实验对声孔(黄)、传感器腔体(粉)和传感器振膜(绿)的表面应用适合的声阻抗,而蓝色表面的声阻抗是变化的。某一种材质的声阻抗是指该材质的密度与穿过该材质的声速的乘积(Z =ρ。c)。密封圈通常由橡胶或其它弹性材料制成,而典型的产品外壳材质通常是塑料、铝或钢。
图9–声音路径表面
图10–密封圈材质对谐振峰值振幅的影响
因为谐振频率是由声音路径的形状决定的,虽然改变密封圈的声阻抗不会影响谐振频率,但是会影响谐振Q值。尽管声音路径保持连续谐振,但是质地更柔软的密封圈可减弱谐振,降低其在谐振频率附近的影响。与采用声音硬边界条件的实验结果相比,采用铁表面材料的声孔大幅降低了频响振幅峰值,这表明,使用声音硬边界条件得出的测试结果的严峻性不切实际。
案例分析–分析平板电脑下声孔麦克的整个声音路径
图11所示是一个平板电脑的下声孔麦克的声音路径。在这个示例中,下声孔麦克装于印刷电路板上,印刷电路板与产品外壳之间插入一个气密性软橡胶密封圈。
图11–平板麦克的声音路径设计和声腔3D模型
本仿真实验对声音路径所有组件都设定了适合的声学特性。图11(b)所示是11(a)结构的声音路径3D模型。本仿真实验所有材质在消费电子产品中都较为常用:FR4印刷电路板、软橡胶密封圈、铝制机身。
图12–平板麦克声音路径仿真结果
图12(a)所示是谐振峰值频率大约21.6 kHz的声音路径的频响曲线,图12(b)所示是在21.6 kHz谐振频率下气压在声音路径内的分布情况。在该谐振频率下,MEMS振膜承受的气压最大。
结论
下面的指导原则有助于麦克风声音路径的频响优化。
●声音路径尽量最短、最宽。将声音路径外部入口加宽有助于改进频响,而将声音路径的麦克风端加宽,则会降低频响性能。
●设法不让声音路径内存在任何空腔。假如无法避免,则尽量让空腔远离麦克风声孔。
●声音路径弯曲似乎对频响影响不大。
●质地柔软的密封圈材料可弱化谐振,提高频响性能。
TOP5 在双线式麦克风电路中使用MEMS麦克风
简介
如今MEMS麦克风正逐渐取代音频电路中的驻极体电容麦克风(ECM)。ECM和MEMS这两种麦克风的功能相同,但各自和系统其余部分之间的连接却不一样。本应用笔记将会介绍这些区别,并根据一个简单的基于MEMS麦克风的替换电路提供设计详情。
音频电路的ECM连接
ECM有两根信号引线:输出和接地。麦克风通过输出引脚上的直流偏置实现偏置。这种偏置通常通过偏置电阻提供,而且麦克风输出和前置放大器输入之间的信号会经过交流耦合。
图1. ECM电路连接
ECM的常见用例是在手机上连接的耳机中用作内联式语音麦克风。这种情况下,耳机和手机之间的连接器有四个引脚:左侧音频输出、右侧音频输出、麦克风信号以及接地。在这种设计中,ECM的输出信号和直流偏置电压在同一信号线路中传输。偏置电压源通常约为2.2 V.
MEMS麦克风区别
模拟MEMS麦克风的信号引脚上不使用输入偏置电压。但是,它是一种三端器件,有不同的引脚分别用于电源、接地和输出。VDD引脚的供电电压一般为1.8 至3.3 V.MEMS麦克风的信号输出通过直流电压实现偏置,一般等于或接近0.8 V.在设计中,该输出信号通常会经过交流耦合。
相对于ECM,使用MEMS麦克风的关键优势在于它的电源抑制(PSR)性能更强。MEMS麦克风的PSR通常至少为70 dBV,ECM却根本没有电源抑制能力,因为偏置电压直接通过电阻连接至麦克风。
用MEMS麦克风取代ECM时需要进行的电路更改
对于原本围绕ECM设计的系统,改用MEMS麦克风时面临的基本难题是,电源和麦克风输出没有单独的信号,例如使用耳机式麦克风时。如果对电路进行一些小的更改,就可以在此类设计中使用MEMS麦克风。首先,必须将信号链中直流偏置提供的下游信号与麦克风的输出信号隔离。其次,必须将此直流偏置用于为 MEMS麦克风供电,而且不能让麦克风的输出信号干扰电源。直流偏置的隔离可通过交流耦合电容实现,MEMS麦克风的电源可通过仔细设计的电路提供,该电路充当分压器和低通滤波器。以下设计中使用了ADMP504 MEMS麦克风作为示例。其中用到了一个2.2 k偏置电阻。
图2.将一根线用于电源和输出信号的MEMS麦克风
图2显示了一个实现上述功能的设计示例。在耳机的设计中,耳机连接器左侧的电路部分将会在实际耳机中,2.2 k偏置电阻和1 F交流耦合电容则在源设备(例如智能手机)中。电阻R1和R偏置形成分压器,MEMS麦克风将V偏置电压降至VDD引脚的供电电压。根据V偏置、R偏置和所需VDD电压的值,电阻R1可能需要非常小,如下例所示。要计算所需的串联电阻(R偏置+ R1),可将麦克风建模为一个电阻,将有固定电流从中流过。VDD = 1.8 V时,ADMP504的典型供电电流为180 A.根据欧姆定律,VDD上的电压为1.8 V时,该麦克风可建模为一个10 k的电阻。要求解合适的电阻R1值,所用的分压器公式为:
[麦克风VDD]=[偏置电压]×(10 k /(10 k + R1 + R偏置))
根据此公式可以算出,一个2.2 k的R偏置电阻和一个499的R1电阻会从2.2 V偏置电压分出1.73 V到麦克风的VDD上。在选择R1值时,需要进行权衡取舍;如下所示,此值太大会导致VDD过小,但为了防止C2过大,又不能让此值太小。如今MEMS麦克风正逐渐取代音频电路中的驻极体电容麦克风(ECM)。ECM和MEMS这两种麦克风的功能相同,但各自和系统其余部分之间的连接却不一样。本应用笔记将会介绍这些区别,并根据一个简单的基于MEMS麦克风的替换电路提供设计详情。关键词:MEMSADI
图3显示了该分压器的两种不同模型。左侧,ADMP504麦克风建模为180 A电流源;右侧,麦克风则建模为具有1.8 V VDD的10 k电阻。
图3.分压器模型
电容C2和电阻R1形成低通滤波器,用于对电压供电信号中输出的麦克风音频进行滤波。这种滤波器转折频率应该远低于麦克风本身的滤波器较低转折频率。将低通滤波器设计为至少低于麦克风较低转折频率的两个倍频程,这会是一个好的开端。对于ADMP504,此转折频率为100 Hz.10 F的电容和499的R1电阻可实现转折频率为31 Hz的滤波器。较大的电容或电阻会进一步降低此转折频率,但是该滤波器的电阻大小必须与它对分压器的贡献保持平衡,其中,分压器会向麦克风提供VDD.低通滤波器的?3 dB点的计算公式如下:
f-3 dB = 1/(2π×R1×C2)
其中:
R1为分压器中的电阻。
C2为低通滤波器电容。
电容C1对麦克风输出进行交流耦合,这样它的偏置输出就会与通过手机提供的麦克风偏置电压隔离。在给定的VDD条件下,凭借R偏置、R1和麦克风的等效电阻,该电容还会形成高通滤波器。计算高通滤波器转折频率时要考虑的总电阻为与R偏置并联的RMIC和R1的串联电阻。此电阻的计算公式为
R总=((RMIC + R1)×R偏置)/(RMIC + R1 + R偏置)
对于此处的示例,R总= 1810.高通滤波器转折频率为:
f-3 dB = 1/(2π(R总×C1)
要让滤波器转折频率至少低于ADMP504低频滚降频率100 Hz一个倍频程的滤波器转折频率为100 Hz,C1至少应该为1.8 F.
图4显示了一套完整的耳机电路,其中采用了ADMP504MEMS麦克风以及合适的电阻和电容值,并以我们处理的V偏置和R偏置值为依据。
图4.采用ADMP504 MEMS麦克风的电路
结论
通过本文介绍的电路,可以实现在没有单独的电源和麦克风输出信号的设计中使用MEMS麦克风。该电路只使用两个电容和一个电阻,即可让MEMS麦克风用于双线式麦克风电路中。
TOP6 选择适合MEMS麦克风前置放大应用的运算放大器
简介
麦克风前置放大器电路用于放大麦克风的输出信号来匹配信号链路中后续设备的输入电平。将麦克风信号电平的峰值与ADC的满量程输入电压匹配能够最大程度地使用ADC的动态范围,降低后续处理可能带来的信号噪声。
单个运算放大器可以简单地作为MEMS麦克风输出的前置放大器应用于电路中。MEMS麦克风是一个单端输出设备,因此单个运算放大器级可用于为麦克风信号增加增益或仅用于缓冲输出。
该应用笔记包含了设计前置放大器时需要考虑的有关运算放大器规格的关键内容,展示了部分基础电路,还提供了适合用于前置放大器设计中的ADI公司的运算放大器产品表格。此应用笔记采用ADMP504 MEMS麦克风为例,阐述了不同的设计选择。该麦克风为模拟麦克风,信噪比(SNR)为65dB。采用不同的麦克风设计时,要求可能与该应用笔记中所述不同,需要根据麦克风的噪声、敏感度、最大声学输入和其他规格进行调整。
运算放大器规格
运算放大器有许多不同的规格和性能曲线,因此从中找出与您应用相关的规格可能是件非常繁琐的任务。对于麦克风前置放大器设计来说,部分规格比其他更重要;该应用笔记简述了此部分规格。
噪声
运算放大器的噪声值分为电压噪声和电流噪声。通常,在前置放大器的设计中您仅需要考虑运算放大器的电压噪声。只有在使用高值(即高噪声)电阻时,设计中才需要考虑电流噪声。为了将电路的整体噪声维持在低水平,通常采用低于10 kΩ的电阻。
运算放大器的电压噪声采用噪声密度单位nV/√Hz定义。与电路带宽相关的器件噪声,您需要将此噪声密度乘上带宽的平方根。请注意该简易公式仅适用于在频率范围内统一的噪声频谱,如图1所示。
对于20kHz的带宽,该乘数因子为141。举ADA4075-2为例,其噪声密度为2.8 nV/√Hz乘以141,因此噪声电平为0.395μV或-128 dBV。运算放大器的噪声密度通常在数据手册的典型特性部分的表格中显示,且通常显示其整个频率范围内的曲线。该图表可用于查看在何频率下运算放大器噪声将取决于1/f噪声。对于许多运算放大器来说,这个点通常低于音频频带(20Hz)低端,但是噪声密度的曲线仍然值得一看,且不能仅参考噪声密度指数来完全描述噪声性能。图1为ADA4075-2数据手册中的噪声密度图实例。请注意图1中1/f转折点约为10Hz,远低于MEMS麦克风前置放大器电路的目标频带。
图1. ADA4075-2电压噪声密度
ADMP504模拟MEMS麦克风的SNR(A加权)为65 dB ,敏感度为-38 dBV。因此,在20 kHz带宽内本底噪声为-103 dBV。这相当于50 nV/√Hz的噪声密度,约与150 kΩ电阻的热噪声相同。
对于运算放大器来说,比麦克风更加低噪非常重要,因此从噪声方面考虑,前置放大器电路要尽量的透明性。一个非常好的做法是运算放大器的噪声比麦克风本身低至少10dB,以将其对于全局噪声的影响最小化。为了使用ADMP504前置放大器实现该目的,运算放大器的最高本底噪声为-113 dBV或15.9 nV/√Hz。表1中的大部分运算放大器都远低于该限值,其中不低于该限值的运算放大器仍被列出因为它们具有其他可能在某些特殊设计中非常重要的参数,例如用于低功耗设计的工作电流。请注意电路的总输出噪声电平将受所施加增益和电路中电阻的影响,而不仅仅取决于运算放大器。可以通过选择足够小的电阻来使其对总电路噪声的影响最小。
压摆率
运算放大器的压摆率指其输出电压从一个电压值到另一个值的改变(或摆动)速度有多快。该参数的单位通常为V/μs。前置放大器电路必须支持的最高压摆率为
SR = 2 ×π× fMAX×VP
其中fMAX为前置放大器需要支持的最高频率(音频通常为20kHz),VP为运算放大器输出的峰值电压电平。如果峰值输出电压为+12V (8.5VRMS),则运算放大器的压摆率最低为1.5V/μs。
事实上,大部分音频信号在高频率区不会达到满程电压,但是设计前置放大器时还是应该考虑到此种可能性。通常电路设计中压摆率指数不应该设计过高。在设计中您可以使用一个压摆率足够快的运算放大器来处理最高目标频率,但是无需高出该限值太多。
总谐波失真加噪声(THD + N)
关于运算放大器电路中总谐波失真加噪声(THD + N)的讨论很容易变成一个复杂的讨论。许多原因都可能导致失真,包括压摆率限制、输出负载以及运算放大器的内部失真特性。THD通常定义为一个比例,表示为一个百分比或者用dB值表示。该比例为信函谐波失真部分的幅度与输入基频幅度的比值,因此数值越小(小百分比值或负dB值)表示其THD + N性能越好。
THD + N参数为指定带宽噪声与THD之和。并非所有运算放大器数据手册的规格表格中都会包含该值,即便没有改值,通常数据手册中会包含一张THD(或THD+N)与频率的曲线图。图2显示了ADA4075-2数据手册中该值的实例。
图2. ADA4075-2 THD + N与频率的关系
电源电压
运算放大器的电压通常表示为一个范围,例如3V至30V,这标示了V+和V-电压引脚之间最小值和最大值的区别。运算放大器可以采用单电源将V-接地或者采用双极性电源将V+和V-分别设置为等值的正负值(例如±15V)。
需要选择合适的电源电压以保证运算放大器的输出不对给定的电源轨削波。有些运算放大器以轨到轨方式工作,这表示输入或输出电压(取决于具体的参数)可以在不削波的情况下可以一直调到轨电压。如果运算放大器不是轨到轨方式,数据表中将标示最大输入和输出电压;请注意正负电压最大值可能不同。
信号的峰值输出电压显然与前置放大器电路提供的增益有关。ADMP504的峰值输出电压为0.25Vrms。当ADMP504连接至增益为20 dB(10×增益)的前置放大器,其峰值输出电压为2.5Vrms,即7.0VP-P。因此,该电路需要至少7.0V电源电压或±3.5的轨到轨输出运算放大器。如果运算放大器输出不是轨到轨,则电源电压需要更高值。
模拟MEMS麦克风工作电压为1.5V至3.3V。表1中列出的部分运算放大器最低电源电压为2.7V,因此在低功耗单电源电路中麦克风的电源电压VDD必须介于2.7和3.3V之间。
表1. 音频运算放大器
增益带宽积
增益带宽积(GBP)正如其名,是放大器带宽(采用低通-3 dB转折)和加于输入信号上的增益的乘积。大部分针对MEMS麦克风的前置放大器设计不需要附加大于40 dB的增益,即因子为100。设计带宽至少为50 kHz的前置放大器应该提供部分余量保证运算放大器的带宽限制不会影响更高的音频频率。带6.5 MHz GBP的运算放大器,例如ADA4075-2,在一个增益为40 dB的电路中将在信号开始滚降之前的通带最高为65 kHz。
数据手册中典型性能特性部分绘制的规格曲线为增益与频率的关系。这张ADA4075-2数据手册中的图(见图3)显示了运算放大器的开环增益与频率的关系。
图3. ADA4075-2开环增益和相位与频率的关系
其他规格
此外根据电路具体的用处,还需要考虑其他规格。例如,如果前置放大器需要驱动低阻抗负载,例如耳机,您将需要选择具有高驱动能力的运算放大器。
运算放大器的电源电流通常指放大器的空载电流。低功耗电路设计显然采用低电源电流的运算放大器最合适。运算放大器的噪声和电源电流通常成反比,因此需要在音频性能和功耗之间进行取舍。
最后,也有些其他规格您不需要考虑。失调电压通常被认为是运算放大器的一个重要规格,但对于ac耦合的前置放大器应用并不重要。
电路
基本的前置放大器电路有两种设置:反相和同相。该部分描述了这两种设置的使用和优点。
此类电路不显示电源或旁通电容。虽然电源盒旁通电路对于电路性能非常重要,但是显示这两个规格对于描述前置运算功能并不重要。大部分运算放大器的数据手册和AN-202应用笔记:IC放大器耦合、接地以及随机应变中都包含您设计需要的更多有关去耦电容和接地技术的信息。您还可以在运算放大器数据手册中获得更多其它更专业的音频电路。
同相
同相前置放大器电路的输出和其输入极性相同。在信号极性需要保持不反相的应用中此类电路非常适合。图4显示的配置中同相运算放大器电路的增益为G = (R1 + R2)/R1。
图4.同相前置放大器电路
该配置具有非常高的输入阻抗,因为麦克风信号直接与运算放大器的同相输入直接相连。C1是由于MEMS麦克风输出偏置在0.8V而采用的一个隔直电容。该电容在该配置中不需要非常大,因为运算放大器的输入阻抗非常高。
相对于反相拓扑而言,同相拓扑电路更需要考虑共模抑制规格。在同相电路中,共模电压能导致输出信号的失真。运算放大器的数据手册通常会显示共模抑制比 (CMRR)与频率的关系供您参考,用于决定音频频带中某个具体器件的性能。这对于反相电路则不是问题,因为反相电路没有动态共模电压;两个输入都保持为接地或虚拟接地。
反相
图5显示了一个反相运算放大器的电路。该电路的输出极性与输入反相,增益为G =-R2/R1。
图5. 反相前置运算电路
反相电路的输入阻抗等于R1。该电阻成了MEMS麦克风输出的电压分压器,因此需要选择足够高的电阻值不加载麦克风的输出,但也不能太大,为电路增加不必要的噪声。模拟MEMS麦克风通常具有200Ω的输出阻抗。如果R1选为2.0 kΩ,则电压分频器会将麦克风的输出信号电平降低9%。
VOUT= (2.0 kΩ + 200Ω)/2.0 kΩ ×VIN= 0.91 ×VIN
直隔电容C1和R1会形成一个高通滤波器,因此C1应选择足够大的值以确保该滤波器不会干扰麦克风的输入信号。ADMP504的低频转折点为100 Hz。如果R1再次选择2.0 kΩ,则2.2μF电容将形成一个频率为40 Hz的-3 dB高通滤波器,远低于麦克风的转折频率。
选择至少比麦克风低一个频程的截止频率也是一项经验法则,除非需要实现一项具体的高通特性。
电压跟随器
如果反馈环路中没有使用分压电路,同相放大器也可用作电压跟随器。该电路非常适合在无法直接驱动较长的走线或者电缆时缓冲麦克风的输出,可能不需要为信号增加额外的增益。
图6. 电压跟随器
电压跟随器可在反相极前端用作缓冲器。可能需要改配置以确保能在反相电路中使用更低值的电阻。在无缓冲的情况下,反相极的输入阻抗可能需要采用更低值以实现目标噪声性能。在保证缓冲和第一个运算放大器的低输出阻抗(与MEMS麦克风相比)的情况下,电阻R1和R2能选择较低值以避免给电路造成额外的噪声。
图7.带反相放大器的电压跟随器缓冲器
差分输出
MEMS麦克风的单端输出可用两个运算放大器和两个反相电路级(见图8)以简单的串联结合转换为一个差分信号。每级的输出转换为彼此反相,作为差分对。图 8显示的电路中信号的放大发生在第一级,由R1和R2设置。电阻R3和R4值应相等,为第二级提供单位增益。为了实现最佳性能,应该采用1%电阻(或更好)来使两级之间的误差最小化。
该配置的一个缺点是一个输出仅由一个放大器产生噪声和失真,而第二级输出则有两个放大器产生噪声和失真。第二个小问题是每个放大器之间存在一个非零延迟,因此差分输出的两侧并非完全对齐。然而,这可能对差分信号的性能影响极小。
图8. 差分输出电路
图7显示的电压跟随器和反相放大器电路还可用于实现一个增益为1的差分信号。同相输出可以从电压跟随器放大器输出提取,反相输出可以从反相放大器的输出提取。在该配置中,R1和R2的值应保持相同以达到统一的增益。
差分放大器,例如AD8273,也可用于实现单端至差分电路,从前文提到的问题方面考虑也可能具有更出色的性能。
图9显示了AD8273配置为单端至差分放大器。每个放大器配置为G=2,因此差分增益为4×。
图9. AD8273单端转差分配置,G = 4
运算放大器的选择
ADI提供大量适合麦克风前置放大应用的各种运算放大器产品。图1显示了部分此类元件的规格,根据电压噪声进行分类。不管您的应用旨在实现最佳性能还是您需要设计一个性价比高的电路,总有一款应用放大器能够满足您的需要。
性能仿真
ADI提供了用于仿真模拟电路的工具。NI Multisim器件评估板的ADI版本可用于快速建立一个电路并显示其性能规格,包括频率响应和噪声电平。该Multisim版本包含了大部分该库中讨论的大部分运算放大器,可以无需从不同源下载和管理SPICE模型就实现快速仿真。不同器件,包括运算放大器,可置入电路或取出以比较不同器件的性能。
TOP7 麦克风阵列信号采集系统的设计
作为传统的语音拾取工具,单个孤立麦克风在噪声处理、声源定位和跟踪,语音提取和分离等方面存在不足,严重影响了语音通信质量。如果使用多个麦克风组成阵列,在时频域的基础上增加一个空间域,对来自空间不同方向的信号进行实时处理,就可以弥补上述不足。现在已有的麦克风阵列采集处理系统中,大多采用4路麦克风阵列,这类系统虽然在一定程度上能解决语音增强、噪音抑制、声源定位和回声抵消等问题,但由于4个麦克风个数较少,只能组成一字线阵,十字阵等几种特定的阵列形状,三维空间的方向及距离判断有较大的误差。设计的16通道麦克风采集系统能够组成麦克风面阵,弥补了上述不足,较好地解决了三维空间信号位置判断的问题。
一、硬件系统设计
该硬件系统主要包括16路麦克风构成的阵列、A/D采样模块、DSP数据处理模块、PC机,如图1所示。
1.1 麦克风阵列
该系统中,麦克风阵列选用声望公司的MPA416传声器。MPA416传声器的灵敏度可达50 mV/Pa;拥有低本底噪声;频率响应范围20 Hz~20 kHz;当其用于阵列时,MPA416的相位差能控制在3°~5°,能满足系统对精确度和稳定性的要求。
1.2 A/D采样模块
A/D采样模块由4片PCM4204以及其外围电路组成。PCM4204内置了4个同步采样通道,支持音频串口和DSD数据口。音频串口模式时,输出24 位线性PCM码,有主、被动两种工作模式,支持左、右对齐,I2S和TDM数据格式,动态范围为118 dB,最高采样频率216 kHz。系统选用1片PCM4204采用主动工作模式,其余3片PCM4204采用被动工作模式。通过音频串口将外部采集的模拟声音信号转化为24位 I2S格式数字信号。由于前端麦克风阵列的输出信号不是差分信号,而PCM4204要求输入信号为差分信号,同时要求输入差分信号幅值在-0.3~- 0.3+VccV之间,因此其每路信号的前端都应有一个缓冲电路,用来将所接收的麦克风信号转换为差分信号并对幅值进行调整。缓冲电路主要由 OPA1632和OPA22组成,OPA1632和OPA227是高精度、音频差分放大器,缓冲电路如图2所示。
1.3 DSP数据处理模块
设计中数据处理模块选择TI公司浮点DSP芯片TMS320C6713作为模块核心。TMS320C6713为高性能32位浮点DSP,适用于专业音频信号处理,其主频可达300 MHz,处理速度高达2 400 MIPS/1 800 MFLOPS。其内部采用改进的哈佛结构;具有256 kB的片内存储空间;丰富的外设包括两个多通道缓冲串口(McBSP)、两个多通道音频串口(McASP)、SPI和I2C等;增强的直接存储器访问 (EDMA)控制器,可控制16个独立通道完成不受CPU干预的数据传输;32 bit的外部存储器接口(EMIF),能与SRAM、ERPOM、Flash、SBSRAM和SDRAM无缝连接。DSP数据处理模块框图如图3所示。 其中,TMS320C6713通过McASP与前端的A/D采样模块相连,并利用EDMA数据传输速度快、传输量大,且不占用CPU时钟周期的特点,将采集数据转存至TMS320C6713的片内存储空间。TMS320C6713外接CPLD控制EMIF接口,通过对EMIF接口上CE3空间的控制,控制 USB芯片CY7C680 01,完成TMS320C6713与PC机平台间的USB数据传输。
1.4 A/D采样模块与DSP数据处理模块接口设计
4片PCM4204芯片与TMS320C6713的McASP1相连接,其连接示意图如图4所示。
图4中,PCM4204 A采用主动工作模式,PCM4204B、PCM4204C和PCM4204D采用被动工作模式。系统采用I2S数据格式,PCM4204A的SDOUT1 输出的是1和2通道的数据,SDOUT2输出的是3和4通道的数据;PCM4204B的SDOUT1输出的是5和6通道的数据,SDOUT2输出的是7和 8通道的数据;PCM4204C的SDOUT1输出的是9和10通道的数据,SDOUT2输出的是11和12通道的数据;PCM4204D的SDOUT1 输出的是13和14通道的数据,SDOUT2输出的是15和16通道的数据。
通过配置芯片引脚S/M、FMT2、FMT1、FMT0、FS2、FS1和:FS0对PCM4204进行设置。
1.5 DSP数据处理模块USB接口设计
TMS320C6713通过EMIF的CE3存储空间可以外扩USB2.0接口,因此在对外扩USB进行读/写访问前,需要通过EMIF的 CE3控制寄存器CE3C-TL来配置CE3空间存储器接口的类型、存储器宽度及读写时序。CY7C68001采用并行异步存储器接口通过可编程逻辑芯片 CPLD与TMS320C6713相连,其原理框图如图5所示。
CY7C68001除了存储器接口外,还有1个中断信号 和4个状态信号。中断信号 采用TMS320C6713的外部中断EXT_INT6。TMS320C6713使用CY7C68001作为从设备。在这种模式下,DSP可以像读/写普通FIFO一样对CY7C68001内部的FIFO进行读/写。PC主机发出命令的同时也由CY7C68001 的引脚提供中断触发信号给DSP的EXT_INT6。其上升沿被检测到后,DSP就进入相应中断服务程序,开始处理USB的传输。DSP通过 EA[4:2]连接FIFOA[2:0]对CY7C68001内部FIFO或命令口进行选择。读/写数据通过ED[15:0]与FIFO[15:0]连接进行。FIFO和命令口的选择和地址分配如表1所示。
经实验验证,USB异步传输速率可达3 Mbit•s-1,满足系统需求。
1.6 PC机平台
DSP数据处理模块通过USB接口与PC机相连,通过CY7C68001芯片,将前端采集的数据传输到PC机,方便对数据的进一步处理。
二、 程序设计
2.1 McASP接口程序设计
定义了4个寄存器组:全局寄存器组globalRegs、发送寄存器组xmtRegs、接收寄存器组mvRegs和串行化器控制寄存器组 srctlRegs。通过这4个寄存器组,对McASP1的PFUNC,PDIR,SRCTL,RFMT,AFSRCTL,ACLKRCTL及 AHCLKRCTL等寄存器进行设置。各寄存器组所包含的主要寄存器情况如表2所示。
依据PCM4204的I2S数据格式,将接收帧同步信号的宽度定为32 bit,接收延迟设置为1个delay;AXR[0]~AXR[7]设置为接收模式。
2.2 EDMA传输程序设计
为保证数据的完整性,选用Ping-Pong模式对EDMA传输进行配置,Ping缓存存放如表3所示,Pong缓存与Ping缓存结构相同。
依据Ping、Pong缓存数据格式,对EDMA接收进行配置,即对:EDMA的opt,src,cnt,dst,idx,及rld寄存器分别进行设置。通过opt寄存器设置数据长度为32 bit,源数据和目的数据为一维方式,源地址固定,目的地址采用索引,启用帧同步等。源地址和目的地址分别写入src,dst寄存器。cnt寄存器主要用于配置帧计数和单元计数。由于采用I2S的数据格式,所以1帧数据只包含2个单元数据。通过配置idex及rld寄存器,目的数据可以按照设定的索引方式存储。
2.3 DSP端OSB接口程序设计
首先,通过调用用户的初始化函数,使能外部中断并初始化USB寄存器。之后,程序通过数据传输函数,完成DSP与PC机的数据传输。
USB初始化程序配置如下:
(1)使能外部中断6(EXT_INT6)。
(2)加载USB描述表,并进行自举检测,如自举不成功,则重新自举,直到端点0收到设置包为止。
(3)配置USB为异步从FIFO(Asynchronous SlaveFIFO)模式,采用内部48 MHz时钟源。
(4)读取FNADDR寄存器,判断USB工作状态。
(5)依据USB工作状态,配置EP2、EP4、EP6、EP8,并设置一次传送的Byte长度。设置EP2、EP4为BULK OUT,EP6、EP8为BULK IN,其缓冲大小分别为2×512 Byte。
在数据传输过程中,PC端通过EP2向DSP发送读数据命令,DSP通过外部中断收到读命令后,使用EP6发送已采集好的数据。在声音数据采集系统中,每路麦克风以96 kHz进行24位采样,按照ping-pong方式进行存储。在传输过程中还需进行判断,当采集数据存储在ping缓存时,发送pong缓存中的数据,当采集数据存储在pong缓存时,发送ping缓存的数据。由于TMS320C6713通过EMIF的CE3存储空间可以外扩USB2.0接口,需对 EMIF接口的CE3寄存器进行配置,将USB接口设为16位异步存储接口,设定读/写的建立时间(Setup)、促发时间(Strobe)、保持时间,使其满足CY7C68001的读/写时序要求。
2.4 PC机平台应用程序设计
PC端接口程序采用VC++6.0编写,首先调用OpenDriver()打开USB接口设备,获得设备的句柄hDevice,之后调用 Sx2SendVendorReq()函数向外设发出命令,读取USB配置,最后调用Sx2BulkdataTrans()进行数据传输,通过调用 CFile类将接收到的数据存放在文本文件中。程序使用多线程技术,使得应用程序将USB数据传输在后台进行处理,应用程序前台还可进行其他操作。
TOP8 利用麦克风数组抑制背景噪声
概述
随着手持语音通信设备越来越流行,它们应用在嘈吵环境的机会也越来越高,例如机场、交通繁忙的路段、人多嘈杂的酒吧等。在这种嘈吵的环境下,通话的双方实在难以听清对方所说的话。
此外,不少通信系统都是采用计算机运行的语音识别、指令及/或响应系统,这些系统均易受到背景噪声的影响,假如噪声过大,便会导致系统出现很大的偏差。因此,有必要改善语音信号对背景声音噪声的比率。
本文将解释利用麦克风数组消除语音通信系统中背景噪声的基本原理,并引用美国国家半导体的LMV1088麦克风数组放大器作为例子加以说明。
麦克风数组
麦克风数组是指将多个麦克风一个接一个地排列成一个特别的样式,让它们一起工作以产生出一个合成输出信号或多组信号。
每一个麦克风都是一个传感器或一个空间窗口(spatial window),用于接收(空间采样)输入信号。数组的整体响应是数组中每个麦克风的个别响应的迭加,并与所采用的算法相关。
数组中多组麦克风信号所采用的 “数组处理” 算法是根据几个因素来决定的,包括麦克风的间隔距离及排列样式、麦克风的数量及类型,以及声音的传播原则。
麦克风数组的基本任务是消除语音输入信号的周围噪声,进而改善听觉辅助系统、语音识别设备和电信产品的语音质量。此外,麦克风数组也可用于方向定位,以及计算声源与数组之间的距离。
语音通信系统中的麦克风数组的主要功能是提供一个高质量的语音信号,同时降低现场及周围环境的噪声。这里所指的质量是指最终的语音信号非常自然真实,当中不存在任何的人工噪音例如是卡嗒声和砰啪声、非意愿静音、频率失真、回声或因加强语音信号处理方法所引起的不定期信号电平变化。
基于上述的理由,信/噪比改进(SNRI)并不是选择背景噪声抑制解决方案时的唯一参数,而必须考虑其它问题。
声音信息
声压级
声压级(SPL)会随着声源距离的增加而减少。图1和图2分别表示出SPL的消减,该数值以分贝(dB)作单位,并且是声源距离 “x”的一个函数。当人们说话的时候,一般以距离嘴唇约1cm的位置作为基准参考点,并将该位置的SPL定为96 dB。在这条件下,SPL的公式应为:
dB=96-20 log(x/0.01)
或可写成
dB=96+20 log(0.01/x)
公式中的 ( 或 )是0.01m的参考值距离,亦即以米作单位时相对于声源的距离“x” 为1公分。
图1
图2
当距离“x” 增加一倍时,两条曲线的SPL均下降6dB 。图1距离声源200公分,而图2则是距离声源50公分的局部放大图,从图中可见声音压力会因与声源距离的增加而急速下降,即使距离很短的情况下也一样。例如,当与声源的距离为10公分时,SPL便减少了20 dB,即由96dB下降到约76dB。
近场对远场声音
声源的近场是指该位置处于相关最低频信号的一个波长范围之内。假设相关语音的最低频为300Hz,如此波长λ便等于c/f 或 331.1/300 ,又或是 1.104 米,其中c代表声波于零度摄氏下的水平速度。当频率为3500Hz时,λ便等于c/f或 331.1/3500,又或是 0.0946米 (9.46公分)。因此,语音信号的典型近场范围即由声源距离约9.5公分到1.1米。
超过1米的距离,语音信号便会被考虑成语音声源的远场。对于麦克风间隔较近的数组,近场声源会呈现出一个圆球状的波阵面,并拥有很强的信号振幅、压力梯度,以及对应数组中各麦克风与声源之间的距离而出现的频率相关差别。
现在假设两个麦克风的间隔距离为3公分,而最接近声源的一个麦克风,其与声源的距离为5公分。图2表示出第一个麦克风(即最接近声源的一个),其感受到一个SPL为82dB的音频信号,而第二个麦克风(即与声源相距8公分)所感受到的信号为78dB SPL。即使两者间只有4 dB的差别,但相对于整体的信号级,这差别仍相当大。
从频谱含量的角度看,麦克风数组内的所有近场语音信号均关系密切。与最接近声源的麦克风比较,与声源距离最远的麦克风信号的振幅将会减少,并且会出现信号由最近麦克风传送到最远麦克风的时间延迟。然而,要恢复该个案中的语音信号并不困难。
在麦克风数组语音近场范围以外的声源将被看作是远场声源,并对数组中排列紧密的麦克风展现出实质平面的波阵面。数组中每一个麦克风均感受到几乎一样的声波能量及随机相位信号,但该些信号并没有对应关系,除非麦克风之间的距离非常接近。假如这些信号与麦克风的距离较远,那麦克风的绝对SPL值便会进一步下降。
现举出另一个例子,假若将相同的麦克风数组放置到与声源距离150公分(即1.5米)的位置,最近声源的麦克风的SPL值便会下降到52.5 dB,而距离声源153公分的最远麦克风的SPL值则稍微下降到52.3dB。虽然两者仅有0.2dB的差距,但从声源到最近麦克风的整体信号级将出现 30dB的下降。
麦克风输出之间的不同信号,在进行了适当的处理及滤波后,可将远场噪声消除,使两个麦克风的复合输出及处理电路能提供高清晰度的语音信号。
声音噪声的特质
这里的噪声场可分为三种,分别是相干噪声、非相干噪声及扩散噪声。
相干噪声是指当声波传到麦克风时,在该过程中没有因环境中的障碍物而出现任何形式的反射、散射或衰减。
非相干噪声是指某一位置的噪声与其它位置的噪声没有任何关系,并且被看成空间白噪音。
扩散噪声是指拥有相同能量的噪声同时轴射到所有方向。例子包括办公室内的噪音、机场候机楼及交通噪音等,换句话说就是指所有充满噪音的环境。
这里所指的声音噪声有两种,分别是稳态噪声及非稳态噪声。
稳态噪声是指噪声的能量相对地稳定,并具备已知及变化缓慢的频谱含量,并且是可预知的。例子包括由引擎发出的噪音、空调风扇、随机或 “白” 噪音等等。噪声抑制算法能有效抑制这类噪音。
非稳态噪声是指音量及声音内容会在短时间内变化,例如高声说话或叫喊、汽车经过的声音或拍手等,其发生是不可预知的。假若出现这类噪音,它们可能在被辨识及抑制前便会自动地消失掉,非稳态噪声一般都包含在稳态噪声之内。
最麻烦的情况是当噪声源与语音信号拥有相同的出现时间、频谱及相干特性,这种情况当背景噪声属于非稳态,且旁边有其它人说话时便会出现,如在餐馆和酒吧,车站及派对上等。
第二部分
麦克风数组的解决方案
根据选用的方法,麦克风数组解决方案可以成为抑制稳态及非稳态噪声的一项非常高效的技术。
配合适当的算法,数组中的个别麦克风信号经过滤波后再组合,以便达到波束成形或空间滤波的效果,进而产生一个复杂的麦克风数组极性响应模式,能够指向或远离某个声音位置。因此,可以将某个位置的声音隔离或加强,又或可将其抑制或拒绝。同样地,麦克风声道中的信号相关性可找出主要信号的方向及其正确位置。
视乎数组的复杂度及应用,该数组可经由一个配备了数字信号处理器的模拟电路,再加上适当的计算机软件和一系列方法去控制。
波束成形
波束成形分为两种技术:自适应及定向。
在自适应波束成形技术中,可通过数据相关滤波及改变对数据的时间响应去调节波束的方向,在自适应波束成形方面已有几种方法被开发出来。虽然在信号的处理上比较繁复,但好处是设计灵活度更高,包括麦克风的数量、类型及间隔距离。自适应波束成形一般需要数字信号处理器或计算机软件来实现。
至于定向波束成形方面,波束的行走方向会按照相关声源的方位而优化,并且同时排除来自其它方向的噪声。一般来说,排列紧密兼具备固有方向性的差分式麦克风端射数组都是依靠固定时间延迟或其它方法来改变波束的方向。对于这类应用,任何滤波及信号处理的方法均须对特别的机械设计加以优化。定向波束成形一般需要模拟电路、数字信号处理器或计算机软件来实现。
对于语音应用来说,采用定向波束成形解决方案会比较好,尤其当应用牵涉到语音辨识。假如以模拟电路来实现,它们便应该:
● 对噪声输入有实时的响应
● 容易实现而且无需开发任何的算法程序
● 为抑制稳态及非稳态噪声提供一个可接受的信/噪比改进(SNRI)值
● 在无语音时表现极低的失真,并且可改善语音质量测试(ITU-T P.835)的整体平均意见分数(mean opinion score)
● 运算复杂度低并具备低信号延迟
● 功耗比其它解决方案小
与定向方案比较,采用数字信号处理器或软件实现的自适应波束成形的缺点为:
● 当实施及调节抑制算法时,需要时间去重复辨识及收敛噪声
● 虽然可提供较佳的SNRI值,但通常也会为语音输出信号带来较多的问题,包括因噪声收敛时间所引起的延迟、卡嗒声和砰啪声、非意愿静音、频率失真、回声或与子频带频率信号处理方法有关的不定期信号级变化
● 由于需要另行开发演算程序,因此在实现上比较困难
● 需要更大的功耗
所有波束成形解决方案都是采用很小的数组,它们对误差都非常敏感,包括由麦克风增益与相位失配所引起的误差,以及由于音频信号路径嵌入于产品内而非设于大气中所导致的路径偏差。因此,波束解决方案必须具备某种形式的补偿,而这种补偿可以设于波束成形系统之内,又或是在系统之外加设适合的麦克风和音频信号路径。
麦克风间隔
奈奎斯特空间采样率为相关最高频率的二分之一个波长(d=λ/2)。为了从空间取得相关频率的一个波长样品,两个传感器(即麦克风)必须相隔二分之一个波长。
然而,当传感器的间隔少于二分之一个波长时(d 《 1/2λ),过采样便会发生,使波长被采样超过两次。相反地,如距离大于二分之一个波长(d 》 1/2λ),空间性欠采样便会发生,这时第一个传感器在完成一个波长的采样后,会在第二个传感器进行采样之前再重新启动。空间性欠采样可将较高频的信号混迭到相关的频带,导致结果出现混乱。为了防止出现假频,采样器的频宽必须限制在最高相关频率以上。
不少研究指出假如能够尽量缩少传感器之间的距离便可打造出高效的麦克风数组,距离可以比奈奎斯特速率的最低要求小很多。现再举一个例子,其中传感器的间隔为相关声波的八分之一个波长。
在一个纯语音系统中,频率范围为300Hz 到 3500Hz,而最大声音能量可出现在500Hz 到 2500Hz之间。在此条件下,λ/8的间隔在3500Hz下为1.18公分,而于2500Hz下为1.65公分。
由于波长增加,在3500Hz 及2500Hz频率以下的音频信号仍然会被过采样,因此1.18公分或1.65公分的间隔能有效地取得更多的信号样品。
另一个计算方法将间隔定为两公分,如此当频率为2500Hz时,波长的间隔(λ)/(c/df)便为:
λ/(331.1/0.02*2500)=λ/6.62
假如空间采样率在最高相关频率下仍然低于λ/2,则需要调节麦克风的间隔以满足产品的应用要求。但随着间隔越来越挤(空间采样率越来越高),麦克风数组中的远场信号之间的相干性变大,使得数组在各频率下均可发挥更佳的整体背景噪声抑制效能。相反地,假如间隔变得较宽阔,数组的整体抑制能力便会下降,变得难以对较低频信号作出反应。
一旦决定了传感器的间隔,便可对应频率的需求将数组优化。假如采用的是定向波束成形方案,数组的响应模式也需同时被固定。
不论是任何的产品,在设计的过程中必须要作出一些折衷决定,包括在操作频率范围与所需噪声抑制级之间、理论与实际麦克风间隔之间、以及整体的数组系统成本和复杂性之间等。
麦克风数组解决方案的例子
以下采用美国国家半导体的远场抑制麦克风数组放大器LMV1088作为麦克风数组解决方案的一个例子,它可为语音应用提供高至20 dB的背景噪声抑制。LMV1088是一个模拟定向波束成形解决方案,适用于采用全指向性麦克风的差分式双麦克风端射数组。
图中两个麦克风分别位于两条相距约1.5公分至2.5公分的线上,或保持等同的声波路径距离。说话者与手机或耳机的麦克风距离最好保持2公分至10公分,通过使用图1和图2便可计算出语音信号随距离变化的损耗。
LMV1088不仅可为两条声道上的声音、麦克风和放大器信号路径之间的差别提供初始性补偿,并且可执行修正滤波令语音输出更加自然,还可提供频宽限制滤波功能。
由于内部放大器增益可通过I2C指令调节,因此可使用不同灵敏度的麦克风,并促使LMV1088的输出信号级能配合模拟输入信道信号的要求,以针对各式各样的通信处理器及设备。
LMV1088可支持四种运作模式,并通过I2C命令选择:
● 预设模式 – 同时使用两个麦克风进行噪声抑制
● 独立模式 – 独立地使用麦克风1或2(无噪声抑制)
● 总合模式 – 两个麦克风的输出被相加在一起,使麦克风信号得到6dB增益 (无噪声抑制)
LMV1088的模拟特性可提供一些传统DSP解决方案没有的特质:
● 无需因迁就背景噪声级及其类型而花费额外的时间去进行噪声收敛运算,进而可为语音信号及背景噪声提供实时反应,并且可消除令人烦厌的短暂语音消失;
● 由于不采用子频带频率处理算法,因此不会在输出产生频率失真、卡嗒声和砰啪声或其它的人工假信;
● 可加强现行系统中的单声道回声消除处理
不同麦克风数组解决方案的比较和测试
为了准确比较及测量不同背景噪声抑制方案的效果,所有的测试设置及条件必须一致,以便得到可信的结果。
基于以上理由,特别安排了几个标准的测试,其中绝大部分采用的是国际电信联合标准ITU-T Rec. 的P0056e、58e、64e、0830e和ITU-T P835。
ITU-T P835专门用于主观性测试,能够有效评估系统中的语音输出质量包括噪声抑制的效能。该规格标准清楚说明评估噪声环境中语音主观质量的方法,特别适合用来评估噪声抑制算法。该方法采用独立的等级标准将测试分为三个独立部分,分别就单独的语音信号的主观质量、单独的背景噪声的主观质量,以及有背景噪声下的整体语音质量(平均意见分数)进行独立的评估。
图3 噪声、远场、语音、优化语音
至于IEEE标准方面,可以采用IEEE 1209-1994及IEEE 269_1992两个标准的测试。前者是专门测量电话手机及耳机的传送效果,而后者则针对模拟及数字电话机的传送效果。两个标准的文件均已被IEEE 269-2002文件所取代。
将上述的标准综合在一起后便可实现客观的数值测量,并且可准确地评估不同背景噪声抑制解决方案的主观语音质量和电子语音辨识效果。
一般来说,系统的噪声抑制数据都是由制造商提供的,它们可能是系统所能达到的最佳水平,但对于某些要求高语音质量的应用而言,这些预设水平可能无法满足应用需求。
因此,在解决方案数据表上标明噪声抑制数值是很困难的,甚至有时会产生误导,除非可以明确地说明所有的测试条件。在此方面,一般的数据表都不会提供很详细的数据,即使提供了也不切实际,因为很难想象客户应用的条件与数据表上的测试条件完全吻合。
评论
查看更多