科学家们通过记录海洋、丛林、森林以及其他自然环境中的动物声音来研究本地的动物种群已有30多年的历史了。他们利用这些结果来评估人为噪音对自然环境的影响,监控濒危动物种群和调查动物之间的交流。由于缺少高级算法和处理能力,科学家们面对被动的声学监控系统产生的数百万兆声音数据,通常1%都处理不了。
挑战
康奈尔鸟类学实验室研究生物声学的科学家们必须应对来天气、其他动物和附近机械及车辆的噪音。同一物种动物声音存在的个体差异增加了复杂性。噪音和变化性这两个因素增加了漏报和误报的数量,使检测算法的准确性下降。
另一个挑战是处理BRP正在收集的数亿兆的数据。一个典型的项目包括处理在多个信道上记录的数年的原始声学数据(高达10TB)。每个信道均可采集数亿的事件——在频谱图上发生突变的声音数据。将在小型高质量样本上测试的算法应用于噪音更大的较大数据集时往往不太准确。
最后,BRP分析工具必须服务于广泛的研究计划、环境和移动需求。Clark博士说:“回答我们的初始研究问题经常会通向将要探索的全新领域,我们需要能够处理需求的突然变化。"
解决方案
BRP数据科学家们使用MATLAB开发高性能计算 (HPC) 软件以自动处理声学数据。
检测分类项目首先是收集希望检测到的动物音频剪辑、动物所处环境中的背景噪音剪辑以及归档的声学数据的MAT文件。使用MATLAB时,他们开发新算法或优化现有算法,在与剪辑目录相似的归档数据中检测音频顺序。
这些算法使用Image Processing Toolbox和Signal Processing Toolbox支持的模式匹配、边缘检测、连接的区域分析、卷积和其他技术以及Fuzzy Logic Toolbox和Neural Network Toolbox支持的机器学习技术。为了评估算法的准确性,科学家使用Statistics Toolbox来计算受试者工作特征 (ROC) 和其他性能曲线。
使用Parallel Computing Toolbox在小型数据集上调试和优化算法后,科学家们使用MATLAB Distributed Computing Server在64个worker的集群上对所有存档数据进行了运算。
BRP团队开发了一个MATLAB界面,使科学家可以指定算法、数据集和处理器的数量。除了检测和分类算法外,BRP使用MATLAB进行噪音分析和声学建模,在这个过程中他们采集海洋或陆地环境的时间和频率分布影响并进行仿真。
结果
将开发时间缩短了数年。Dugan博士说:“对预测成本的一项研究显示,如果我们必须依靠自己来完成这些任务,那么开发我们所需的这种HPC平台将花费三年的时间和100万美元的成本,并且还需要许多的外部帮助。而借助Parallel Computing Toolbox和MATLAB Distributed Computing Server后,我们不到三个月就完成了平台的开发。”
分析时间从几周缩减为几小时。Dugan博士说:“使用我们的一个算法处理90的数据需要19周的时间。而借助Parallel Computing Toolbox和MATLAB Distributed Computing Server后,我们在集群上只用了8个小时便完成了同一个分析。”
在几天内完成以前未能处理的数据的分析。Dugan博士说:“一个数据集采集了100,000小时的声音。它是如此巨大以至于以前我们连1%都处理不了,根据预估,需要一年或更长的时间来处理剩余的数据。而借助我们的MATLAB HPC平台后,在两天内,我们对该数据进行了六次处理,且每次均使用了不同的检测算法。”
-
数据采集
+关注
关注
39文章
6173浏览量
113789 -
高性能
+关注
关注
0文章
157浏览量
20413 -
机器学习
+关注
关注
66文章
8425浏览量
132776
发布评论请先 登录
相关推荐
评论