0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Coretex-M3 Design Start的语音识别和声源定位识别系统

安芯教育科技 来源:安芯教育科技 作者:安芯教育科技 2022-04-08 10:10 次阅读

写在前面

能获得企业大奖其实是出乎预料的,论复杂程度我自己认为可能也无法比的上其他学校的朋友们的(不过是因为今年没有线下交流,着实无法看到大家的作品),但我觉得组委会能选择我们组作为企业大奖,可能也是想通过我们来拓宽大家的思路,而并不一定是我们的作品做的是多么完美。

学习了近几年ARM杯的作品,感觉大家都是在同一个领域做文章(当然去年那组BLDC的hxd例外),那就是视觉和图像处理方面。这方面感觉大家做的都非常好了,无论是用现成的算法拆分成verilog中的矩阵运算,还是利用HLS这类高层次综合工具,我觉得如果继续做视觉方面的内容我们可能再怎么努力也无法达到他人积累多年经验的程度,所以我们选择换一个角度。

人类有五种感官,嗅觉和味觉目前来说无法做到辅助(笑,还剩下听觉、视觉和触觉,视觉被我们直接否定了,那么触觉呢?目前高精度传感器也不是我们能企及做到的了,这和生物医学电子有关,那么我们的眼前就只有一个选择了:听觉。

这也正是我们选择做这个系统的原因之一,还有一个原因是我们能感觉得到现在的消费电子都逐渐在向声学方面走,例如苹果的HomePod,华为的Sound X,还有小米最近刚推出的小米Sound,这些都是非常高端的走计算声学方向的家居产品,它们的受众非常广,而且在这两年疫情的影响下,更多的人会选择在线会议,那么一个优秀的声学处理装置就显得更为重要了。

1.设计简介

1.1 总体介绍

本作品是基于Coretex-M3 Design Start的语音识别和声源定位识别系统,包括Digilent NexysVideo开发板、自制麦克风矩阵模块、ESP8266无线互联模块、LCD屏幕、载体小车以及安卓端APP组成。

本系统在Xilinx Artix-7中搭建ARM Cortex-M3软核作为中央处理器,使用自制的MEMS硅片麦克风阵列作为声音信号采集器,利用Artix-7中自带的XADC将麦克风输出的模拟量信号转换为数字信号并通过AXI4-FULL传输给DDR3控制器,DDR3控制器根据用户的控制选择输入和输出,当开始语音识别后,将开启后1s内的数据从DDR3中直接利用Burst读入语音识别模块,该模块利用HLS综合,包括语音的MFCC特征提取、BP神经网络的执行等过程,将最终得出的语音识别结果保存在寄存器中并能使CPU通过AXI4-Lite读取;当开启声源定位后,数据利用AXI4-Stream直接搬移到算法电路模块,对四路麦克风同时进行流水线处理,经过信号的处理和变换后得到声源方位数据通过UART串口输出到ESP8266,ESP8266利用局域网将数据传至安卓APP。

有一点我们的体会可以分享给其他朋友们,如果我们在一段时间内只需要处理一段定长的数据,那么我们可以不利用DMA,而是仅仅利用AXI的Burst传输即可,例如采集1s的信号寸到DDR中一段连续区域以后,将这些的音频信号数据整个Burst到加速器中,这样可以充分发挥总线桥的作用,并节省一个DMA的资源,还可以减小数据搬移过来过去的时延。

1.2 硬件架构

d9baacbc-b6a8-11ec-aa7f-dac502259ad0.jpg

在本系统中,由于最终制作的语音识别加速器和声源定位加速器都使用AXI系列总线配置寄存器和读写数据,同时DDR3由AXI总线接口的MIG管理,因此为了方便实用和同一总线,使整个架构简洁,我们将除了ITCM和DTCM外的所有外设连接在由AHB转换之后的AXI总线桥上。

1.3 语音识别加速器

语音识别采用的方案是利用MFCC提取特征,之后利用BP神经网络拟合特征系数对应的神经网络隐含层参数。首先输入的语音数据从DDR经过Burst传输到信号处理模块中,经过预处理(去工频噪声、音量均衡)后提取MFCC,再利用BP网络将MFCC系数与训练过的语句一一对应输出对应的结果。语音识别的网络的权重参数采用的是MATLAB离线训练的方法,然后把训练的权重数据保存在coe文件中,利用HLS综合出IP。

流程图如下:

d9d13f68-b6a8-11ec-aa7f-dac502259ad0.png

1.4 声源定位加速器

声源定位加速器融合了TDOA(Time Difference of Arrival 到达时间差)和空域波束指向性加权的方法。

由四个全向性麦克风M1, M2, M3, M4组成的差分麦克风列,如图2.10所示。四麦克风等间隔的分布在直径为D的圆周上。

d9f2eb04-b6a8-11ec-aa7f-dac502259ad0.png

差分麦克风阵列的输出信号包括原点处的声压信号和原点处振速的两个正交分量,可以得到声源在原点处的声强,进而由声强的方向得到目标方位的估计值。需要指出的是,基于声强估计的声源定位方法通常只适用于单声源的情况。同时,对于全向麦克风而言(不同于“心”形指向麦克风),并没有对特定角度的声源信号进行增强或削弱,这就使得在进行声源定位时往往受到其他方向的干扰。采用空域波束指向性加权的方法,可以只增强期望方向上的信号,削弱其他方向上的干扰信号,提高信干比,使得输出结果中特定方向上的信息能量增大。

2.作品外观和使用体验

作品成品外观如下:

da0d74ba-b6a8-11ec-aa7f-dac502259ad0.jpg

da457626-b6a8-11ec-aa7f-dac502259ad0.jpg

da692fa8-b6a8-11ec-aa7f-dac502259ad0.jpg

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    38

    文章

    1714

    浏览量

    112508
  • 识别系统
    +关注

    关注

    1

    文章

    136

    浏览量

    18794
  • CORETEX
    +关注

    关注

    0

    文章

    2

    浏览量

    6303

原文标题:【2021集创赛作品分享】第三期 | Cortex-M3语音识别声源定位系统

文章出处:【微信号:Ithingedu,微信公众号:安芯教育科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    物联网系统智能控制产品的语音识别方案_离线语音识别芯片分析

    01 物联网系统中为什么要使用离线语音识别芯片 物联网系统中使用离线语音识别芯片的原因主要基于以
    的头像 发表于 09-26 17:56 388次阅读
    物联网<b class='flag-5'>系统</b>智能控制产品的<b class='flag-5'>语音</b><b class='flag-5'>识别</b>方案_离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片分析

    WTK6900FC语音识别模块

    语音识别
    WT-深圳唯创知音电子有限公司
    发布于 :2024年09月25日 17:35:07

    智能玩具用离线语音识别芯片有什么优势

    语音识别系统,应用场景相对单一。典型应用:智能家电、语音遥控器、智能玩具、车载声控、智能家居等当离线语音识别芯片应用在智能玩具中,能够提供
    的头像 发表于 09-20 10:00 225次阅读
    智能玩具用离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片有什么优势

    基于FPGA的指纹识别系统设计

    随着人们对安全问题的日益重视,指纹识别作为一种高效、可靠的生物识别技术,在多个领域得到了广泛应用。本文设计并实现了一种基于FPGA的嵌入式指纹识别系统,该系统利用FPGA的高集成度、低
    的头像 发表于 07-17 16:33 1223次阅读

    多目标智能识别系统

    智慧华盛恒辉多目标智能识别系统是一种利用现代计算机视觉技术和人工智能算法,从图像或视频中同时识别和分类多个目标物体的系统。这种系统广泛应用于自动驾驶、智能监控、人机交互、军事侦察、灾害
    的头像 发表于 07-16 10:42 1.2w次阅读

    基于OpenCV的人脸识别系统设计

    基于OpenCV的人脸识别系统是一个复杂但功能强大的系统,广泛应用于安全监控、人机交互、智能家居等多个领域。下面将详细介绍基于OpenCV的人脸识别系统的基本原理、实现步骤,并附上具体的代码示例。
    的头像 发表于 07-11 15:37 1.1w次阅读

    语音识别和自然语言处理的区别和联系

    Recognition) 1. 定义 语音识别,又称为自动语音识别(Automatic Speech Recognition, ASR),是指将人类的
    的头像 发表于 07-05 10:09 1261次阅读

    基于GIS的SAR多目标智能识别系统

    智慧华盛恒辉基于GIS的SAR多目标智能识别系统是一个集成了合成孔径雷达(SAR)和地理信息系统(GIS)技术的先进系统,旨在实现高分辨率雷达图像中的多目标智能识别。以下是该
    的头像 发表于 06-26 14:26 410次阅读

    车载语音识别系统语音数据采集标注案例

    车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术,载语音识别系统通过辨别声音的语调、语速和音量,将所听到的语音转化成可读取的语
    的头像 发表于 06-19 15:52 309次阅读
    车载<b class='flag-5'>语音</b><b class='flag-5'>识别系统</b><b class='flag-5'>语音</b>数据采集标注案例

    车载语音识别系统语音数据采集标注案例

    车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术,载语音识别系统通过辨别声音的语调、语速和音量,将所听到的语音转化成可读取的语
    的头像 发表于 06-19 15:49 440次阅读

    基于深度学习的鸟类声音识别系统

    : 与人声识别不同,本文的鸟声识别更多地关注鸟声的特征,而不是鸟声的内容。为了简化特征融合算法的复杂度,降低模型的计算量,选择语音识别系统中广泛使用的梅尔谱作为鸟类音频信号的特征。提取
    发表于 05-30 20:30

    解决方案:智能公交识别系统无线传输方案

    无线传输识别系统
    北京东用科技有限公司
    发布于 :2023年12月13日 11:59:34

    离线语音识别与在线语音识别有什么不一样?

    离线语音识别与在线语音识别有什么不一样? 离线语音识别和在线
    的头像 发表于 12-12 14:36 1136次阅读

    FPGA-PC1500的数码创新作品-数码音乐和语音识别

    数据处理,并生成识别结果。 8. 将识别结果输出到FPGA的外部接口(如显示器或串口)或存储在内部存储器中供后续处理使用。 在FPGA开发语音识别系统时,使用的语言是硬件描述语言,有
    发表于 12-01 14:15

    离线语音识别及控制是怎样的技术?

    进行处理。  离线语音识别能够在设备上实现实时的语音识别响应,具有响应速度快、隐私保护好、稳定可靠等优势。它广泛应用于移动设备、智能音箱、嵌入式系统
    发表于 11-24 17:41