资料介绍
描述
从原始音频数据中检测火花声音
抽象的:
该项目的目的是从原始时域信号中解决模式识别任务。我们使用 Sparkfun RedBoard Artemis ATP 模块和集成 MEMS 麦克风来记录和分类环境声音。在这个项目摘要中,我们为初学者提供了一个简单的管道来训练和部署一个简单的神经网络 (NN) 以及可用于提高模型性能的高级方法。我们希望在这次挑战中收集到的经验可以用于我们为大象设计的枪声探测器。
介绍:
用于声音分类的神经网络通常将其输入解释为图像。这是通过计算原始音频记录的 2D 频谱图来完成的。但是,也存在频谱图转换导致相关信息丢失的情况。一个例子是枪声检测,其中弹道冲击波声音具有如此独特的形状(类似于大写字母 N),基于这种原始信号形状的检测器比基于频谱图的解决方案更准确地工作。我们的想法来自这种情况,因为在时域中可能有许多具有特定形状的可能事件。
在我们的例子中,这些独特形状的音频信号是由火花产生的。火花是一种突然的放电,会产生短暂的光发射和尖锐的裂纹或啪啪声。这种声音包含非常高的频率并且时间长度很短(大约 4 毫秒)。这种火花声事件可以通过集成在 Redboard Artemis ATP 上的 MEMS 麦克风进行记录,图 1 显示了一个示例记录。
记录的火花噪声的形状并不完全相同,但它们都包含几个长度相似的尖峰。NN 应该理解这些相似性以执行检测任务。
目标、实验设置和数据收集:
总之,我们构建了一个可以检测火花噪声的分类器。为了实现这一目标,我们使用扬声器、火花发生器和 RedBoard Artemis 作为数据收集器,收集了具有不同脉冲背景噪声的火花声音。背景噪声有助于概括检测器的知识。并使检测任务更加困难。
使用的背景噪音是:汽车喇叭、说话的数字、狗叫声、高斯噪音、枪声、手提钻、各种音乐、警报器、沉默。
基本管道如下:
- 记录扬声器产生的具有不同背景噪音的火花
- 仅将背景噪音记录为负样本
- 将这些记录收集到带有二进制标签的数据集中——0:没有火花;1:包含火花
- 训练一个简单的模型并将其部署在 Sparkfun Redboard Artemis ATP 上
- 使用涉及的高级方法训练各种模型
- 评估模型
数据收集设置包含 RedBoard Artemis 作为记录设备。一个额外的设备,一个 Arduino Due 控制一个继电器,该继电器通过大电流通过 DC-DC 升压器产生火花。整个过程由 PC 同步,PC 还通过扬声器播放各种背景噪音。设置如图 2 所示。RedBoard Artemis ATP 记录了背景噪声和火花声的叠加。图 3 说明了一种这样的组合记录,其中car_horn
在测量过程中产生了噪声。可以发现录音中间的脉冲区域,对应于火花声。在录音中,火花的位置会有所不同,以防止过度拟合到特定位置。
生成的数据集包含:
从所有类中,100 个样本被添加到训练集,30 个样本被添加到测试集,20 个样本被添加到验证集。
我们已将训练过程的源代码添加到该项目中,但它也可以在此处作为 Python 笔记本获得:Training notebook 。Google Colaboratory 是初学者在受控环境中使用免费提供的 GPU 测试他们的想法的好地方。
本笔记本包含模型训练的主要步骤,包括:
- 数据加载:正面和负面的例子
- 数据分离为训练集、验证集和测试集:100 + 20 + 30 个样本
- 神经网络模型创建:简单的卷积神经网络
- 模型拟合 - 训练:默认训练参数
- 模型评估:在测试数据集上评估
- 模型转换为 TensorFlow Lite 模型。
- 模型转换为字节数组,可以上传到 Artemis Board。
本例中使用的模型由一个具有 2 个内核的卷积层和一个最大池化层组成。它涵盖了卷积产生的整个特征向量。由于其简单性,该模型几乎无法泛化知识,但在测试数据集上可以达到 94% 左右的高精度,在可接受的范围内。架构如图 4 所示。(注意:使用了 Conv2D,因为 TF Lite Micro 仅支持此操作,否则需要使用 Conv1D。)
训练有素的模型有利有弊:
+ 体积小,只有 71 个可训练参数
+ 可以处理 12000 个样本的长输入
+ Artemis 板可在 1 秒内运行
- 对噪音非常敏感,不能一概而论
[数据收集详细信息] -> [在 GPU 上训练] -> [模型部署] -> [推理]
部署从字节数组开始,字节数组是在上一节训练期间生成的。左侧可见Arduino连接,表示当发送一个's'字符时,会产生火花。很快,“检测到火花!” 右侧应该有消息,它会打印来自 Artemis Board 的消息。
概括:
在本节中,我们提出了一个检测问题的基线解决方案,旨在基于火花声音包含对录音进行分类。我们包括用于数据收集、模型训练以及模型部署和推理的源代码。
进阶方法:
上一节中训练的简单模型在测试数据集上达到了可接受的准确度,但是,在其真实世界的评估过程中,我们可以测试它对鼓掌或敲击等其他脉冲响亮事件的鲁棒性。基于这些实验,可以得出结论,该模型能够识别响亮的脉冲事件,而不仅仅是火花声。如此简单的架构无法泛化知识以检测复杂背景噪声中的这些复杂模式是合理的。
在本节中,我们展示了高级方法的使用,这些方法可以帮助找到更合适的模型,具有更高的准确性和鲁棒性,以及最佳的内存和计算复杂性。
准确率:正确分类示例的比率
鲁棒性:误导分类器的平均输入扰动幅度的度量
内存复杂度:运行模型所需的内存总量
计算复杂度:运行模型必须执行的浮点运算总数
前面介绍的简单模型是根据一些经验以临时方式创建的。即使初始架构已知,其提供最佳结果的超参数也是未知的。因此,我们从基线模型开始,实现了一种能够找到优越超参数集的搜索算法。这种方法称为网格搜索,它从给定的间隔将超参数收集到集合中,并根据一些指标测试这些配置。在我们的案例中,考虑的参数如下:
- 卷积层中的内核数:[3, 5, 8, 13]
- 卷积核的膨胀率:[1, 2, 3]
- 卷积核的大小:[15, 36, 57, 93, 150]
为了评估特定的超参数集,我们使用了准确性和鲁棒性指标。准确率很简单,就是正确分类的样本数与样本总数的比值。鲁棒性更复杂。在没有完整的科学背景的情况下,它可以概括为模型对输入扰动不敏感的度量,而这些暗示错误分类的扰动的平均幅度就是该属性的度量。研究这个参数的研究领域称为对抗性机器学习。我们使用了DeepFool方法的略微修改版本来测量我们的 NN 的这一属性。
除了超参数优化之外,我们还通过在输入中添加具有不同标准差值的高斯噪声来扩展模型性能检查。随着噪声水平的增加,信噪比降低,这使得检测问题变得更加困难。噪声参数选自 [0.00, 0.01, 0.05, 0.1] 集合。为了使这些值具有可解释性,图 5 显示了具有不同噪声级别的示例记录。可以观察到,在最极端的情况下,火花形状完全消失在噪声中。
选择来自呈现的参数值区间的所有组合,并相应地生成相应的神经网络。这产生了240 个生成的模型。每个网络都在相同的训练数据集上进行了训练,并在验证数据集上进行了评估。高斯噪声是在训练期间动态生成的,使用以下参数进行:
- 批量:5
- Early Stopping:以 10 个 epoch 的耐心监测训练损失
- 优化器:亚当
网格搜索的结果如图 6 所示。这里,x 轴表示精度,y 轴表示平均扰动大小的对数。较大的扰动表示更好的鲁棒性。图上的每个符号都有一个编码噪声水平的形状、一个表示记忆复杂度的直径和一个编码神经网络计算复杂度的颜色。噪音等级符号:star
- 不添加噪音;circle
- 噪声级 0.01;square
- 噪声级 0.05;triangle
- 噪音水平 0.1。
在图 6 中,可以识别出几个点簇。例如,可以观察到较高的噪声水平会降低准确性,但会增强鲁棒性(triangles
在左上角)。另一个例子是squares
中间的簇,它同时从左到右,从下到上同时进化,这意味着一些参数集也提高了准确性和鲁棒性。
在我们的案例中,需要具有良好性能和鲁棒性的模型,但由于我们希望将其部署在微控制器上,因此还必须考虑内存和计算复杂性。这些参数被编码成一个点的颜色和大小。根据彩条,需要一个小直径的蓝色点,从图的右侧开始,该点也可以最大限度地提高鲁棒性。我们选择了模型,它由位于circle
集群顶部右侧的圆圈集群上方的单个离群蓝色表示squares
。该模型在测试数据集上进行了评估。模型的参数和性能如下:
Accuracy on the test dataset: 0.99074
Accuracy on the training dataset: 0.99444
Robustness: 0.00136
---------------------------------------------
Dilation rate: 1
Kernel size: 57
Number of kernels: 5
Added noise level: 0.01
---------------------------------------------
Memory complexity: 238 KB
Computational complexity: 3.4 MFLOP (12kS input size)
该模型的计算复杂度高于我们的基准模型,因此推断需要激活 Apollo 3 MCU 的突发模式。在这种状态下,核心时钟频率从 48 MHz 翻倍到 96 MHz。
所提出的 NN 架构的另一个优点是全窗口最大池化(称为 GlobalMaxPooling,但 TF Lite Micro 不支持)使模型能够接受各种输入长度。例如,我们发现如果我们将输入长度从 12000 个样本减少到 3000 个样本,内存复杂度可以显着降低:从 238 KB 到 14 KB。一个缺点是,如果我们想要在具有重叠区域的信号上运行检测器以确保完全包含火花事件,我们必须调用推理 7 次,而不是之前的 2 次。但是,MCU 足够快以处理计算开销(总共 5.6 个 MFLOP)。
当我们应用对抗性攻击来测量 NN 结构的鲁棒性时,很容易将这些对抗性示例中的一些可视化。图 7 显示了一个这样的示例。这里的目标是生成一个记录,该记录位于已训练的神经网络结构的决策表面的边缘。这个例子是从一个最初的负样本(绝对沉默)生成的,但在当前的形式中,它欺骗了网络,以便它产生一个正标签。
这些方法很复杂,我们认为源代码的发布不会有助于上述说明的普遍适用性,因此我们仅应要求通过电子邮件共享这些文件。
项目总结:
我们实现了一个基于神经网络的火花声音检测器,可以部署在 SparkFun RedBoard Artemis ATP 上。数据是通过使用相同的设备及其集成的 MEMS 麦克风收集的。数据采集采用具有不同背景噪声的火花产生。
为初学者解释了一个简单的管道,并部署了一个基线神经网络模型。我们共享了解决类似问题所需的所有主要步骤的源代码。
此外,还包括更先进的方法和想法,可以提高模型性能和鲁棒性。
未来,我们计划将 Artemis 板集成到我们正在积极开发的兽传枪声探测器中。本报告中呈现的先进成果可为这些方向的研究提供基础。
- Amiga立体声音频数字转换器开源
- 基于LabVIEW的音频数据采集系统设计.pdf 34次下载
- 采用PIC32的高质量音频应用 14次下载
- IS2062和IS2064立体声音频SoC的详细中文数据手册免费下载
- MPEG2/AC-3兼容立体声音频数位类比转换器 5次下载
- 18位96kHz采样立体声音频数位类比转换器 6次下载
- 立体声音频数位类比转换器 7次下载
- 1路双向视音频数据多业务光端机用户手册V1.1 0次下载
- 1路双向视音频数据光端机用户手册V1.1 0次下载
- 网络传输中实时音频数据丢包恢复方法 32次下载
- 音频数据加工标准与工作规范标准规范
- MAX9217/MAX9218 视频链路中的音频数据传输
- 基于变换域的音频数字零水印算法研究
- 广播音频数据文件格式规范—广播波形格式(BWF) GY T
- ATMEL音频数码产品
- Hi-Fi音频的具体特点 354次阅读
- 立体声音频放大器电路图分享 2159次阅读
- 沉浸式音频的未来:计算机视觉辅助下的声音重现 1171次阅读
- 如何使用10位LVDS串行器/解串器IC对I2S音频数据流进行STP布线 2817次阅读
- I2S音频总线基本知识科普 2.8w次阅读
- digilent立体声音频输出简介 1541次阅读
- 电火花加工有哪些类型 3w次阅读
- 蓝牙的音频通路 5267次阅读
- 音频几个很重要的参数 6956次阅读
- 如何使用Python编写能够从原始文本提取信息的程序 1w次阅读
- 基于Kinetis MK60N512和MAX5556的立体声音频接口设计 2765次阅读
- 音频卡怎么打开_音频卡调试教程详解 5948次阅读
- 一文了解音频卡工作原理及主要特点 1w次阅读
- 基于Kinetis微控制器和16位/24位MAX5556的立体声音频接口设计 1512次阅读
- 基于火花塞离子电流检测技术设计应用 4137次阅读
下载排行
本周
- 1山景DSP芯片AP8248A2数据手册
- 1.06 MB | 532次下载 | 免费
- 2RK3399完整板原理图(支持平板,盒子VR)
- 3.28 MB | 339次下载 | 免费
- 3TC358743XBG评估板参考手册
- 1.36 MB | 330次下载 | 免费
- 4DFM软件使用教程
- 0.84 MB | 295次下载 | 免费
- 5元宇宙深度解析—未来的未来-风口还是泡沫
- 6.40 MB | 227次下载 | 免费
- 6迪文DGUS开发指南
- 31.67 MB | 194次下载 | 免费
- 7元宇宙底层硬件系列报告
- 13.42 MB | 182次下载 | 免费
- 8FP5207XR-G1中文应用手册
- 1.09 MB | 178次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 2555集成电路应用800例(新编版)
- 0.00 MB | 33566次下载 | 免费
- 3接口电路图大全
- 未知 | 30323次下载 | 免费
- 4开关电源设计实例指南
- 未知 | 21549次下载 | 免费
- 5电气工程师手册免费下载(新编第二版pdf电子书)
- 0.00 MB | 15349次下载 | 免费
- 6数字电路基础pdf(下载)
- 未知 | 13750次下载 | 免费
- 7电子制作实例集锦 下载
- 未知 | 8113次下载 | 免费
- 8《LED驱动电路设计》 温德尔著
- 0.00 MB | 6656次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935054次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537798次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420027次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191187次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183279次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138040次下载 | 免费
评论
查看更多