谷歌和Idiap研究所的研究人员训练了两个独立的神经网络-电子发烧友网

谷歌和Idiap研究所的研究人员训练了两个独立的神经网络，能够显著降低多说话者信号的语音识别词错误率。

把一个人的声音从嘈杂的人群中分离出来是大多数人潜意识里都会做的事情——这就是所谓的鸡尾酒会效应。像谷歌Home和亚马逊的Echo这样的智能扬声器实现分离人群中的声音可能还要再经历一段时间，但多亏了AI，它们或许有一天能够像人类一样过滤掉声音。

谷歌和位于Switerzland的Idiap研究所的研究人员发表在Arxiv上的一篇论文中描述了一种新的解决方案。他们训练了两个独立的神经网络——说话者识别网络（a speaker recognition network）和声谱掩码网络（a spectrogram masking network）——这两个网络一起“显著”降低了多说话者信号的语音识别词错误率（WER）。

他们的工作建立在麻省理工学院计算机科学和人工智能实验室今年早些时候发表的一篇论文的基础上，该论文描述了一个名为PixelPlayer的系统，该系统能够将单个乐器的声音从YouTube视频中分离出来。

论文：

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking

论文地址：

https://arxiv.org/pdf/1810.04826.pdf

在最新的论文中，研究人员写道：“我们的任务是将一部分感兴趣的说话者的声音与所有其他说话者和声音的共性分离开来。例如，这样的子集可以由一个目标扬声器对个人移动设备发出语音查询，或者由一个家庭成员对一个共享的家庭设备进行交谈而形成。”

研究人员的语音过滤系统分为两部分，包括LSTM模型和卷积神经网络(只有一个LSTM层)。第一个采用预处理的语音采样和输出扬声器嵌入（即矢量形式的声音表示）作为输入，而后者预测来自嵌入的软掩模或滤波器以及根据噪声音频计算的幅度谱图。掩模用于生成增强幅度谱图，当与噪声音频的相位（声波）组合并变换时，产生增强的波形。

AI系统被训练以便最大限度地减少屏蔽幅度频谱图与从干净音频计算的目标幅度频谱图之间的差异。

该团队为训练样本提供了两个数据集：(1)来自13.8万名演讲者的大约3400万个匿名语音查询日志；(2)开源语音库LibriSpeech、VoxCeleb和VoxCeleb2的汇编。VoiceFilter网络对来自CSTR VCTK数据集(由爱丁堡大学维护的一组语音数据)和LibriSpeech的2338个贡献者的语音样本进行了训练，并使用来自73名演讲者的话语进行评估。

在测试中，VoiceFilter在双扬声器方案中将字错误率从55.9％降低到23.4％。

研究人员写道：“我们已经证明了使用经过专门训练的扬声器编码器来调整语音分离任务的有效性。这样的系统更适用于真实场景，因为它不需要事先知道扬声器的数量……我们的系统完全依赖于音频信号，可以很容易地通过使用具有高度代表性的嵌入向量来推广到未知的扬声器。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6170

浏览量
105455
神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100824
语音识别

语音识别

+关注

关注
38

文章
1741

浏览量
112683

原文标题：谷歌神经网络人声分离技术再突破！词错率低至23.4%

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

神经网络教程（李亚非）

　　第1章概述　　1.1 人工神经网络研究与发展　　1.2 生物神经元　　1.3 人工神经网络的构成　　第2章人工神经网络基本模型　　2.

发表于 03-20 11:32

人类首创能生成神经细胞的“迷你大脑”，更精确模拟神经网络！

`近日，凯斯西储大学医学院、纽约干细胞基金会（NYSCF）研究所和乔治华盛顿大学的研究人员联合提出了一种新方法，通过人类胚胎干细胞培育生成3D版的“迷你大脑”。这些“迷你大脑”名为“大脑类器官

发表于 08-21 09:26

【案例分享】ART神经网络与SOM神经网络

今天学习了两个神经网络，分别是自适应谐振（ART）神经网络与自组织映射（SOM）神经网络。整体感觉不是很难，只不过一些最基础的概念容易理解不清。首先ART

发表于 07-21 04:30

如何移植一个CNN神经网络到FPGA中？

训练一个神经网络并移植到Lattice FPGA上，通常需要开发人员既要懂软件又要懂数字电路设计，是个不容易的事。好在FPGA厂商为我们提供

发表于 11-26 07:46

基于BP神经网络的PID控制

最近在学习电机的智能控制，上周学习了基于单神经元的PID控制，这周研究基于BP神经网络的PID控制。神经网络具有任意非线性表达能力，可以通过对系统性能的学习来实现具有最佳组合的PID控

发表于 09-07 07:43

图像预处理和改进神经网络推理的简要介绍

为提升识别准确率，采用改进神经网络，通过Mnist数据集进行训练。整体处理过程分为两步：图像预处理和改进神经网络推理。图像预处理主要根据图像的特征，将数据处理成规范的格式，而改进

发表于 12-23 08:07

卷积神经网络模型发展及应用

network，DBN）[24]，从此拉开了深度学习大幕。随着深度学习理论的研究和发展，研究人员提出了一系列卷积神经网络模型。为了比较不同模型的质量，收集并整理了文献中模型在分类任务上的识别率，如图 1

发表于 08-02 10:39

如何进行高效的时序图神经网络的训练

现有的图数据规模极大，导致时序图神经网络的训练需要格外长的时间，因此使用多GPU进行训练变得成为尤为重要，如何有效地将多GPU用于时序图神经网络训练

发表于 09-28 10:37

谷歌最新AI算法递归神经网络绘制大脑神经图像

谷歌研究人员使用了一种边缘检测算法，该算法可以识别神经突（神经元本体的分支）的边界，以及一种复发性卷积神经网络（复发性

发表于 07-20 09:45 •2348次阅读

研究人员开发解释多义词的神经网络

艾伦人工智能研究所和华盛顿大学的研究人员正在使用可以根据上下文来确定英文单词含义的神经网络。

发表于 09-12 15:52 •2212次阅读

神经网络有什么天生的性质

谷歌大脑研究人员通过精简神经网络结构，在前几代中发现了最小架构的神经网络能够控制此处所示的双足机器人，即使它的得分不高。

发表于 02-05 16:55 •1223次阅读

边缘计算中深度神经网络剪枝压缩的研究

深度神经网络与其他很多机器学习模型一样，可分为训练和推理两个阶段。训练阶段根据数据学习模型中的参数（对神经网络来说主要是

发表于 03-27 15:50 •2988次阅读

研究人员开发“液态”神经网络 可适应快速变化的训练环境

设计出了一种具有重大改进的“液态”神经网络。其特点是能够在投入训练阶段之后，极大地扩展 AI 技术的灵活性。通常情况下，研究人员会在训练阶段向神经

发表于 01-29 10:46 •1564次阅读

BP神经网络的研究进展

通过对传统BP神经网络缺点的分析，从参数选取、BP算法、激活函数、网络结构4个方面综述了其改进方法。介绍了各种方法的原理、应用背景及其在BP神经网络中的应用，同时分析了各种方法的优缺点

发表于 06-01 11:28 •5次下载

怎么对神经网络重新训练

重新训练神经网络是一个复杂的过程，涉及到多个步骤和考虑因素。引言 神经网络是一种强大的机器学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。然而，随着时间的推移，数据分布可

发表于 07-11 10:25 •467次阅读

搜索历史

谷歌和Idiap研究所的研究人员训练了两个独立的神经网络

评论

神经网络教程（李亚非）

人类首创能生成神经细胞的“迷你大脑”，更精确模拟神经网络！

【案例分享】ART神经网络与SOM神经网络

如何移植一个CNN神经网络到FPGA中？

基于BP神经网络的PID控制

图像预处理和改进神经网络推理的简要介绍

卷积神经网络模型发展及应用

如何进行高效的时序图神经网络的训练

谷歌最新AI算法递归神经网络绘制大脑神经图像

研究人员开发解释多义词的神经网络

神经网络有什么天生的性质

边缘计算中深度神经网络剪枝压缩的研究

研究人员开发“液态”神经网络可适应快速变化的训练环境

BP神经网络的研究进展

怎么对神经网络重新训练