0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

训练深度神经网络的感觉就像买彩票,“打了折”的深度学习

DPVg_AI_era 来源:lq 2019-05-10 09:09 次阅读

MIT CSAIL近期发表文章《彩票假设:寻找稀疏可训练的神经网络》认为神经网络就像中彩票并不是每一张都有用,但应设法找到最能中奖的那个,因此可通过消除神经网络结构件不必要的连接(也称修剪)适应低功率设备,在一系列条件下不断重复该过程,神经网络可缩小10%到20%,但并不影响准确率,甚至比原始网络跟快。

根据齐鲁晚报报道,最近威海一彩民获得了1219万大奖,可以说是非常幸运了,看的一众神经网络“炼丹师”们羡慕不已。

训练深度神经网络的感觉就像买彩票

HackerNews网友opwieurposiu就吐槽,做DNN其实根本和买彩票没什么区别:先是收集训练数据,然后写一个python脚本,支付大约1美元的GPU时间,跑一下。所不同的是,你盯着的不是轮盘的转针,而是损失函数图。

95%的时间都是废的,但是每隔一段时间你就会得到很大的回报。中奖的时候,你可能觉得自己真是个天才!但复盘的时候又发现,你根本不知道为什么A方式有效而B就不行。这种感觉,跟压彩票非常相似。

1美元的神经网络很小了。为了更好地学习,神经网络就必须非常大,需要海量数据集,整个训练过程可能要持续好多天。投入100美元、1000美元、10000美元……的时候,你可能感受到的不仅仅是经费在燃烧了。

可是,如果说,实际上神经网络不一定要那么大呢?

不修剪了,把没用的部分直接砍掉!

MIT CSAIL的两位研究人员Jonathan Frankle和Michael Carbin发表过一篇论文《彩票假设:寻找稀疏的、可训练的神经网络》刚刚被评为ICLR最佳论文。

论文指出,神经网络剪枝技术可以在不影响精度的前提下,将训练网络的参数数量减少90%以上,降低存储需求并提高推理的计算性能。然而,当前的经验是,剪枝产生的稀疏架构从一开始就很难训,然而同时也能提高了效率。

Frankle和Carbin发现,一个标准的修剪技巧可以自然的显露出一个子网络,初始化该网络就能提高训练效率。因此他们提出了 “彩票假设”(lottery ticket hypothesis):任何密集、随机初始化的前馈网络,都包含一个子网络,以便在隔离训练时可以在最多相同数量的训练迭代中,匹配原始网络的准确性。

然而,在成功的找到这个子网络之前,必须经过多次训练和“修剪”整个网络。这就好像你去买了一大包彩票,然后从里面找出中奖的那个。神经网络的好处是,所有的彩票都在你的手中,你总能找出来中奖的那个。

如果能确切的定位到原始网络中哪个子网络跟最终预测相关,那么也就用不着多次训练和“修建”,直接砍掉无关的部分即可。这样又进一步的降低了工作量,提高了效率。这就意味着,要通过一种技巧,使得每次买彩票必中!

彩票假设也可能迁移学习产生影响,在这种情况下,为图像识别等任务训练的网络可以帮助完成不同的任务。

“打了折”的深度学习

感谢大家对神经网络的过度热捧,使得越来越多的人感叹于神经网络的神奇效果,但很少有人理解训练一个神经网络有多难。一来成本高昂,二来耗时漫长。所以研究人员必须做出许多让步,在模型的大小、训练耗时和最终表现等多个方面进行权衡。

包括今天两位主角提出的“彩票假设”的验证过程。他们首先采用一种通用的方法,用最低的“权重”“修剪”连接来消除受过训练的网络的不必要连接,使其适用于智能手机等低功耗设备。

“彩票假设”的关键创新,是发现经过网络训练之后,修剪连接可能根本就没有必要。为了测试这个假设,他们尝试再次训练完全相同的网络,但没有修剪连接。

重要的是,他们将每个连接“重置”到训练开始时分配的权重。这些初始权重对于帮助中奖来说至关重要,没有它们,被修剪的网络将无法学习。通过修剪越来越多的连接,最终确定了哪些是可以删掉而不影响模型预测能力。

为了验证这一假设,他们在各种条件下在许多不同的网络上重复了这个过程数万次。实验结果显示MNIST和CIFAR10的“中奖彩票”的规模,始终要小于几个全连接架构和卷积前馈架构的10%-20%。这样的话,不仅深度网络在体积上打了折扣,成本、耗时都大打折扣。

下一步,该团队计划探索为什么某些子网特别擅长学习,以及有效找出这些子网的方法。

Google已经用Python实现了彩票假设算法,并在Github上开源:

https://github.com/google-research/lottery-ticket-hypothesis

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4597

    浏览量

    99461
  • 深度学习
    +关注

    关注

    73

    文章

    5264

    浏览量

    120170
  • 迁移学习
    +关注

    关注

    0

    文章

    72

    浏览量

    5521

原文标题:ICLR最佳论文:MIT科学家提出彩票假设,神经网路缩小10倍并不影响结果

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用深度循环神经网络对心电图降噪

    进行训练。我们还研究了使用合成数据 集如何影响网络性能。 我们建议使用深度循环去噪神经网络(DRDNN) 对心电图信号进行去噪。它们是一种深度
    发表于 05-15 14:42

    助听器降噪神经网络模型

    抑制任务是语音增强领域的一个重要学科, 随着深度神经网络的兴起,提出了几种基于深度模型的音频处理新方法[1,2,3,4]。然而,这些通常是为离线处理而开发的,不需要考虑实时性。当使用神经网络
    发表于 05-11 17:15

    利用神经网络对脑电图(EEG)降噪

    数据与干净的EEG数据构成训练数据,并且分成训练、验证和测试数据集。 绘制有噪声EEG数据与干净的EEG数据 显然,传统的任何算法很难将EEG数据从噪声中滤出来。 定义神经网络结构,之所以选择长短期记忆
    发表于 04-30 20:40

    FPGA在深度学习应用中或将取代GPU

    硬件公司供货的不断增加,GPU 在深度学习中的市场需求还催生了大量公共云服务,这些服务为深度学习项目提供强大的 GPU 虚拟机。 但是显卡也受硬件和环境的限制。Larzul 解释说:
    发表于 03-21 15:19

    详解深度学习神经网络与卷积神经网络的应用

    在如今的网络时代,错综复杂的大数据和网络环境,让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年,深度学习逐渐走进人们的视线
    的头像 发表于 01-11 10:51 1144次阅读
    详解<b class='flag-5'>深度</b><b class='flag-5'>学习</b>、<b class='flag-5'>神经网络</b>与卷积<b class='flag-5'>神经网络</b>的应用

    浅析深度神经网络压缩与加速技术

    深度神经网络深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似
    的头像 发表于 10-11 09:14 490次阅读
    浅析<b class='flag-5'>深度</b><b class='flag-5'>神经网络</b>压缩与加速技术

    深度学习在语音识别中的应用及挑战

    的挑战。 二、深度学习在语音识别中的应用 1.基于深度神经网络的语音识别:深度神经网络(DNN)
    的头像 发表于 10-10 18:14 615次阅读

    卷积神经网络深度神经网络的优缺点 卷积神经网络深度神经网络的区别

    深度神经网络是一种基于神经网络的机器学习算法,其主要特点是由多层神经元构成,可以根据数据自动调整神经
    发表于 08-21 17:07 3134次阅读

    卷积神经网络模型训练步骤

    卷积神经网络模型训练步骤  卷积神经网络(Convolutional Neural Network, CNN)是一种常用的深度学习算法,广泛
    的头像 发表于 08-21 16:42 1317次阅读

    基于传感器和深度学习神经网络的血压监测系统

    这项研究开发了一款基于保形(conformal)柔性应变传感器阵列和深度学习神经网络的智能血压和心功能监测系统。该传感器具有高灵敏度、高线性度、快速响应与恢复、高各向同性等多种优点。
    发表于 08-20 09:53 616次阅读
    基于传感器和<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>神经网络</b>的血压监测系统

    卷积神经网络原理:卷积神经网络模型和卷积神经网络算法

    卷积神经网络原理:卷积神经网络模型和卷积神经网络算法 卷积神经网络(Convolutional Neural Network,CNN)是一种基于深度
    的头像 发表于 08-17 16:30 1096次阅读

    深度学习框架区分训练还是推理吗

    深度学习框架区分训练还是推理吗 深度学习框架是一个非常重要的技术,它们能够加速深度
    的头像 发表于 08-17 16:03 1135次阅读

    什么是深度学习算法?深度学习算法的应用

    。 在深度学习中,使用了一些快速的算法,比如卷积神经网络以及深度神经网络,这些算法在大量数据处理和图像识别上面有着非常重要的作用。
    的头像 发表于 08-17 16:03 1666次阅读

    深度学习基本概念

    深度学习基本概念  深度学习是人工智能(AI)领域的一个重要分支,它模仿人类神经系统的工作方式,使用大量数据
    的头像 发表于 08-17 16:02 1372次阅读

    AI、机器学习深度学习的区别及应用

    深度学习神经网络的区别在于隐藏层的深度。一般来说,神经网络的隐藏层要比实现深度
    发表于 07-28 10:44 402次阅读
    AI、机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的区别及应用