0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过YouTube视频中的图像和声音来训练深度神经网络

NVIDIA英伟达企业解决方案 来源:未知 作者:李倩 2018-09-12 14:19 次阅读

如何从混杂的背景噪音中过滤出特定的声音,这一“经典鸡尾酒会问题”有望在AI的帮助下得以解决。

因为我们的大脑可以专注于想听到的内容,所以人耳可以准确地从嘈杂声中分辨出特定的声音。然而,基于机器的“声源分离”技术多年来却一直让工程师们束手无策。麻省理工学院的研究人员正在利用MV(音乐短片)训练神经网络,以便更好地定位声音来源。

该团队的深度学习系统可以“直接通过一些未经标记的YouTube视频进行学习,分辨出每种物体对应的声音,”麻省理工学院研究人员Hang Zhao说道。他也曾是NVIDIA研究部门的实习生。

Zhao认为,该技术极具突破性,在语音、听力学、音乐和机器人学领域均有广泛的应用。

通过“刷视频”来学习

麻省理工学院开发出了一种新方法,即通过YouTube视频中的图像和声音来训练深度神经网络。他们的目标是让神经网络能够精确定位视频中图像的位置(精确到像素级)。

该团队将其系统称为PixelPlayer,并通过YouTube上的MV对PixelPlayer进行了60个小时的训练。到目前为止,该系统已经可以识别20多种乐器。

该团队在麻省理工学院的计算机科学和人工智能实验室 (Computer Science and Artificial Intelligence Lab) 开展了这项研究,共开发出了三个卷积神经网络,它们可协同工作以生成相应结果。其中一个卷积神经网络负责对视觉输入进行编码,一个负责对音频输入进行编码,第三个则负责基于视觉和音频输入合成输出。

PixelPlayer训练数据集由714个YouTube视频组成。“由于我们使用了四块NVIDIA GPU,卷积神经网络才能够以非常快的速度处理数据,”Zhao表示,“它大约用了一天的时间便学会了。”

PixelPlayer是一个自我监督型(self-supervised)的系统。这意味着该系统不需要人类对乐器或乐器声音进行任何标注,也可以识别出大号和小号等乐器的外观、乐器声音以及发声方式。

吹响胜利的号角

对视频中的声源进行定位后,PixelPlayer即可分离出其波形。目前,PixelPlayer在识别两种或三种不同乐器时表现最佳,但该团队的目标是尽快扩大其识别范围。在谈到分离乐器声音的过程时,Zhao说道:“我们正在努力将一个MP3文件分离为多个MP3文件。”

PixelPlayer在音乐领域有诸多用途。据Zhao介绍,音频工程师可以应用此款AI工具增强某些音量较低的乐器声音,或去除某种背景噪音。此外,它还可以帮助音频工程师改善现场录音或重新灌录音乐的效果。

改善助听器功能也是研究人员为“鸡尾酒会问题”开发深度学习解决方案的目的。

不仅是音乐和听力学领域,其应用范围还可用于识别我们周围的声音。例如,聆听森林中珍稀鸟类的鸣叫声。“机器人也可以借助该系统理解周围环境中的声音。”Zhao补充道。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4733

    浏览量

    100410
  • 人工智能
    +关注

    关注

    1789

    文章

    46636

    浏览量

    236985
  • 深度学习
    +关注

    关注

    73

    文章

    5463

    浏览量

    120876

原文标题:让音乐更悦耳:AI助力解决“鸡尾酒会问题”

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何训练这些神经网络解决问题?

    神经网络建模,经常会出现关于神经网络应该有多复杂的问题,即它应该有多少层,或者它的滤波器矩阵应该有多大。这个问题没有简单的答案。与此相关,讨论网络过拟合和欠拟合非常重要。过拟合是模
    发表于 11-24 15:35 684次阅读
    如何<b class='flag-5'>训练</b>这些<b class='flag-5'>神经网络</b><b class='flag-5'>来</b>解决问题?

    详解深度学习、神经网络与卷积神经网络的应用

    在如今的网络时代,错综复杂的大数据和网络环境,让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年,深度学习逐渐走进人们的视线,通过深
    的头像 发表于 01-11 10:51 1826次阅读
    详解<b class='flag-5'>深度</b>学习、<b class='flag-5'>神经网络</b>与卷积<b class='flag-5'>神经网络</b>的应用

    从AlexNet到MobileNet,带你入门深度神经网络

    通过堆叠卷积层使得模型更深更宽,同时借助GPU使得训练再可接受的时间范围内得到结果,推动了卷积神经网络甚至是深度学习的发展。下面是AlexNet的架构:AlexNet的特点有:1.借助
    发表于 05-08 15:57

    基于赛灵思FPGA的卷积神经网络实现设计

    FPGA 上实现卷积神经网络 (CNN)。CNN 是一类深度神经网络,在处理大规模图像识别任务以及与机器学习类似的其他问题方面已大获成功。在当前案例
    发表于 06-19 07:24

    如何移植一个CNN神经网络到FPGA

    )第二步:使用Lattice sensAI 软件编译已训练好的神经网络,定点化网络参数。该软件会根据神经网络结构和预设的FPGA资源进行分析并给出性能评估报告,此外用户还可以在软件
    发表于 11-26 07:46

    图像预处理和改进神经网络推理的简要介绍

    为提升识别准确率,采用改进神经网络通过Mnist数据集进行训练。整体处理过程分为两步:图像预处理和改进神经网络推理。
    发表于 12-23 08:07

    卷积神经网络模型发展及应用

    神经网络已经广泛应用于图像分类、目标检测、语义分割以及自然语言处理等领域。首先分析了典型卷积神经网络模型为提高其性能增加网络深度以及宽度的模
    发表于 08-02 10:39

    NVIDIA GPU加快深度神经网络训练和推断

    深度学习是推动当前人工智能大趋势的关键技术。在 MATLAB 可以实现深度学习的数据准备、网络设计、训练和部署全流程开发和应用。联合高性能
    的头像 发表于 02-18 13:31 1995次阅读

    卷积神经网络如何识别图像

    多层卷积层、池化层和全连接层。CNN模型通过训练识别并学习高度复杂的图像模式,对于识别物体和进行图像分类等任务有着非常优越的表现。本文将会详细介绍卷积神经网络如何识别
    的头像 发表于 08-21 16:49 1870次阅读

    卷积神经网络深度神经网络的优缺点 卷积神经网络深度神经网络的区别

    深度神经网络是一种基于神经网络的机器学习算法,其主要特点是由多层神经元构成,可以根据数据自动调整神经元之间的权重,从而实现对大规模数据进行预
    发表于 08-21 17:07 3850次阅读

    如何训练和优化神经网络

    神经网络是人工智能领域的重要分支,广泛应用于图像识别、自然语言处理、语音识别等多个领域。然而,要使神经网络在实际应用取得良好效果,必须进行有效的
    的头像 发表于 07-01 14:14 378次阅读

    卷积神经网络训练的是什么

    卷积神经网络(Convolutional Neural Networks,简称CNN)是一种深度学习模型,广泛应用于图像识别、视频分析、自然语言处理等领域。本文将详细介绍卷积
    的头像 发表于 07-03 09:15 311次阅读

    bp神经网络深度神经网络

    BP神经网络(Backpropagation Neural Network)是一种常见的前馈神经网络,它使用反向传播算法训练网络。虽然BP
    的头像 发表于 07-03 10:14 579次阅读

    怎么对神经网络重新训练

    重新训练神经网络是一个复杂的过程,涉及到多个步骤和考虑因素。 引言 神经网络是一种强大的机器学习模型,广泛应用于图像识别、自然语言处理、语音识别等领域。然而,随着时间的推移,数据分布可
    的头像 发表于 07-11 10:25 400次阅读

    残差网络深度神经网络

    残差网络(Residual Network,通常简称为ResNet) 是深度神经网络的一种 ,其独特的结构设计在解决深层网络训练
    的头像 发表于 07-11 18:13 931次阅读