一种用于音乐源分离的新型深度学习系统-电子发烧友网

Facebook Research最近发布了Demucs，这是一种用于音乐源分离的新型深度学习系统。根据人类对分离后声音总体质量的评估，Demucs的性能优于先前报道的结果。

音乐源分离是经过大量研究的一种应用，称为盲源分离。该过程包括在不借助元信息的情况下从一组混合信号中分离出一组源信号。对于音乐，各个组成部分可能包括人声或其他乐器轨道。当空中交通管制员开始在单个扬声器上听到多个飞行员的混合声音时出现问题时，源分离领域首先受到了广泛关注。这导致英国科学家科林·切里（Colin Cherry）在1953年将这种效应称为“鸡尾酒会问题”。

在源分离领域的现有研究的推动下，研究科学家于2000年代初开始使用AI分离音乐中的声音。如今，短时傅立叶变换产生的频谱图（STFT）是最新音乐源分离的核心。这些系统在每个帧和每个源的幅度谱上产生一个掩码，并且通过在掩码频谱图上运行逆STFT的同时重新使用输入混合相位，来生成输出音频。

建立在频谱图分析基础上的系统在诸如中音钢琴或连奏小提琴之类的乐器的源分离方面表现出色，因为它们可以产生一致的频率和振铃。但是，这些系统很难隔离敲击声音，因为敲击乐器所产生的残留噪声会产生更宽的频率范围，并且当与多个乐器的重叠相结合时，信息就会丢失，并且掩盖操作将使信息不再可逆。

Demucs是一种深度学习模型，可直接对原始输入波形进行操作并为每个源生成一个波形。U-net体系结构使用卷积编码器和解码器，该解码器和解码器基于跨步卷积较大的步幅。波形模型的工作方式与常见的计算机视觉模型相似，因为它们都使用神经网络在推断更高级别的模式之前先检测基本模式。

基于频谱图的模型优于Wave-U-Net，后者是Demucs之前最先进的基于波形的模型。Demucs建立在Wave-U-Net体系结构的基础上，具有可调整的超参数和较长的短期内存，允许网络处理整个数据序列，而不是单个数据点。

这些改进帮助系统解决了一个声音超过另一个声音的问题，因为解码器足够聪明，可以填充柔和的音符。

人类在MusDB数据集上评估Demucs，并将其与其他最新的源分离系统的结果进行比较。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

傅立叶变换

傅立叶变换

+关注

关注
3

文章
105

浏览量
32564
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121833

NPU在深度学习中的应用

设计的硬件加速器，它在深度学习中的应用日益广泛。 1. NPU的基本概念 NPU是一种专门针对深度学习算法优化的处理器，它与传统的CPU和G

发表于 11-14 15:17 •1161次阅读

pcie在深度学习中的应用

与主机系统连接，提供必要的计算支持。 2. PCIe技术概述 PCIe是一种点对点串行连接，用于计算机内部硬件组件之间的连接。它以其高速数据传输能力和低延迟特性而闻名，是连接高性能硬件（如GPU）的理想选择。高速数据传输：P

发表于 11-13 10:39 •877次阅读

一种基于深度学习的二维拉曼光谱算法

近日，天津大学精密仪器与光电子工程学院的光子芯片实验室提出了一种基于深度学习的二维拉曼光谱算法，成果以“Rapid and accurate bacteria identification

发表于 11-07 09:08 •384次阅读

<b class='flag-5'>一种</b>基于<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的二维拉曼光谱算法

GPU深度学习应用案例

能力，可以显著提高图像识别模型的训练速度和准确性。例如，在人脸识别、自动驾驶等领域，GPU被广泛应用于加速深度学习模型的训练和推理过程。二、自然语言处理自然语言处理（NLP）是深度

发表于 10-27 11:13 •615次阅读

一种新型电流模式控制集成电路

电子发烧友网站提供《一种新型电流模式控制集成电路.pdf》资料免费下载

发表于 10-24 10:20 •0次下载

<b class='flag-5'>一种</b><b class='flag-5'>新型</b>电流模式控制集成电路

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：

发表于 10-23 15:25 •1891次阅读

PyTorch深度学习开发环境搭建指南

PyTorch作为一种流行的深度学习框架，其开发环境的搭建对于深度学习研究者和开发者来说至关重要。在Windows操作

发表于 07-16 18:29 •1479次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别

发表于 07-09 15:54 •1347次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。深度

发表于 07-05 09:47 •1167次阅读

深度学习常用的Python库

深度学习作为人工智能的一个重要分支，通过模拟人类大脑中的神经网络来解决复杂问题。Python作为一种流行的编程语言，凭借其简洁的语法和丰富的库支持，成为了

发表于 07-03 16:04 •796次阅读

基于深度学习的鸟类声音识别系统

的泛化能力，然后提出了一个轻量级的鸟类声音识别模型，以MobileNetV3为骨干构建了一种轻量级的特征提取和识别网络。通过调整模型中的深度可分离卷积，提高了模型的识别能力。设计了

发表于 05-30 20:30

一种利用光电容积描记（PPG）信号和深度学习模型对高血压分类的新方法

[22]。就像平均池化一样，最大池化是另一种用于减小特征图大小的常用方法。它通过仅取每个区域的最大值来获得最重要的特征。在机器学习中，池化方法的选择可以显着影响机器

发表于 05-11 20:01

传统计算机视觉对比深度学习

深度学习是一种技术，它使用一种称为梯度反向传播的优化技术来生成“程序”(也称为“神经网络”)，就像上面故事中学者学生编写的那些程序一样。

发表于 03-31 09:48 •508次阅读

FPGA在深度学习应用中或将取代GPU

将 AI 框架模型映射到硬件架构。 Larzul 的公司 Mipsology 希望通过 Zebra 来弥合这一差距。Zebra 是一种软件平台，开发者可以轻松地将深度学习代码移植到 F

发表于 03-21 15:19

搜索历史

一种用于音乐源分离的新型深度学习系统

评论

一种新型高效率的服务器电源系统

NPU在深度学习中的应用

pcie在深度学习中的应用

一种基于深度学习的二维拉曼光谱算法

GPU深度学习应用案例

一种新型电流模式控制集成电路

AI大模型与深度学习的关系

PyTorch深度学习开发环境搭建指南

深度学习中的时间序列分类方法

深度学习与nlp的区别在哪

深度学习常用的Python库

基于深度学习的鸟类声音识别系统

一种利用光电容积描记（PPG）信号和深度学习模型对高血压分类的新方法

传统计算机视觉对比深度学习

FPGA在深度学习应用中或将取代GPU