训练深度神经网络的感觉就像买彩票，“打了折”的深度学习-电子发烧友网

MIT CSAIL近期发表文章《彩票假设：寻找稀疏可训练的神经网络》认为神经网络就像中彩票并不是每一张都有用，但应设法找到最能中奖的那个，因此可通过消除神经网络结构件不必要的连接（也称修剪）适应低功率设备，在一系列条件下不断重复该过程，神经网络可缩小10%到20%，但并不影响准确率，甚至比原始网络跟快。

根据齐鲁晚报报道，最近威海一彩民获得了1219万大奖，可以说是非常幸运了，看的一众神经网络“炼丹师”们羡慕不已。

训练深度神经网络的感觉就像买彩票

HackerNews网友opwieurposiu就吐槽，做DNN其实根本和买彩票没什么区别：先是收集训练数据，然后写一个python脚本，支付大约1美元的GPU时间，跑一下。所不同的是，你盯着的不是轮盘的转针，而是损失函数图。

95%的时间都是废的，但是每隔一段时间你就会得到很大的回报。中奖的时候，你可能觉得自己真是个天才！但复盘的时候又发现，你根本不知道为什么A方式有效而B就不行。这种感觉，跟压彩票非常相似。

1美元的神经网络很小了。为了更好地学习，神经网络就必须非常大，需要海量数据集，整个训练过程可能要持续好多天。投入100美元、1000美元、10000美元……的时候，你可能感受到的不仅仅是经费在燃烧了。

可是，如果说，实际上神经网络不一定要那么大呢？

不修剪了，把没用的部分直接砍掉！

MIT CSAIL的两位研究人员Jonathan Frankle和Michael Carbin发表过一篇论文《彩票假设：寻找稀疏的、可训练的神经网络》刚刚被评为ICLR最佳论文。

论文指出，神经网络剪枝技术可以在不影响精度的前提下，将训练网络的参数数量减少90%以上，降低存储需求并提高推理的计算性能。然而，当前的经验是，剪枝产生的稀疏架构从一开始就很难训，然而同时也能提高了效率。

Frankle和Carbin发现，一个标准的修剪技巧可以自然的显露出一个子网络，初始化该网络就能提高训练效率。因此他们提出了 “彩票假设”(lottery ticket hypothesis)：任何密集、随机初始化的前馈网络，都包含一个子网络，以便在隔离训练时可以在最多相同数量的训练迭代中，匹配原始网络的准确性。

然而，在成功的找到这个子网络之前，必须经过多次训练和“修剪”整个网络。这就好像你去买了一大包彩票，然后从里面找出中奖的那个。神经网络的好处是，所有的彩票都在你的手中，你总能找出来中奖的那个。

如果能确切的定位到原始网络中哪个子网络跟最终预测相关，那么也就用不着多次训练和“修建”，直接砍掉无关的部分即可。这样又进一步的降低了工作量，提高了效率。这就意味着，要通过一种技巧，使得每次买彩票必中！

彩票假设也可能迁移学习产生影响，在这种情况下，为图像识别等任务训练的网络可以帮助完成不同的任务。

“打了折”的深度学习

感谢大家对神经网络的过度热捧，使得越来越多的人感叹于神经网络的神奇效果，但很少有人理解训练一个神经网络有多难。一来成本高昂，二来耗时漫长。所以研究人员必须做出许多让步，在模型的大小、训练耗时和最终表现等多个方面进行权衡。

包括今天两位主角提出的“彩票假设”的验证过程。他们首先采用一种通用的方法，用最低的“权重”“修剪”连接来消除受过训练的网络的不必要连接，使其适用于智能手机等低功耗设备。

“彩票假设”的关键创新，是发现经过网络训练之后，修剪连接可能根本就没有必要。为了测试这个假设，他们尝试再次训练完全相同的网络，但没有修剪连接。

重要的是，他们将每个连接“重置”到训练开始时分配的权重。这些初始权重对于帮助中奖来说至关重要，没有它们，被修剪的网络将无法学习。通过修剪越来越多的连接，最终确定了哪些是可以删掉而不影响模型预测能力。

为了验证这一假设，他们在各种条件下在许多不同的网络上重复了这个过程数万次。实验结果显示MNIST和CIFAR10的“中奖彩票”的规模，始终要小于几个全连接架构和卷积前馈架构的10%-20%。这样的话，不仅深度网络在体积上打了折扣，成本、耗时都大打折扣。

下一步，该团队计划探索为什么某些子网特别擅长学习，以及有效找出这些子网的方法。

Google已经用Python实现了彩票假设算法，并在Github上开源：

https://github.com/google-research/lottery-ticket-hypothesis

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4789

浏览量
101527
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121832
迁移学习

迁移学习

+关注

关注
0

文章
74

浏览量
5611

原文标题：ICLR最佳论文：MIT科学家提出彩票假设，神经网路缩小10倍并不影响结果

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

BP神经网络与深度学习的关系

），是一种多层前馈神经网络，它通过反向传播算法进行训练。BP神经网络由输入层、一个或多个隐藏层和输出层组成，通过逐层递减的方式调整网络权重，目的是最小化

发表于 02-12 15:15 •238次阅读

深度学习入门：简单神经网络的构建与实现

深度学习中，神经网络是核心模型。今天我们用 Python 和 NumPy 构建一个简单的神经网络。 神经网络由多个

发表于 01-23 13:52 •193次阅读

深度学习中的卷积神经网络模型

深度学习近年来在多个领域取得了显著的进展，尤其是在图像识别、语音识别和自然语言处理等方面。卷积神经网络作为深度学习的一个分支，因其在图像处理

发表于 11-15 14:52 •467次阅读

FPGA在深度神经网络中的应用

随着人工智能技术的飞速发展，深度神经网络（Deep Neural Network, DNN）作为其核心算法之一，在图像识别、语音识别、自然语言处理等领域取得了显著成果。然而，传统的深度神经网络

发表于 07-24 10:42 •888次阅读

残差网络是深度神经网络吗

残差网络（Residual Network，通常简称为ResNet）是深度神经网络的一种，其独特的结构设计在解决深层网络训练中的梯度消失

发表于 07-11 18:13 •1268次阅读

简单认识深度神经网络

深度神经网络（Deep Neural Networks, DNNs）作为机器学习领域中的一种重要技术，特别是在深度学习领域，已经取得了显著的

发表于 07-10 18:23 •1370次阅读

深度神经网络概述及其应用

深度神经网络（Deep Neural Networks, DNNs）作为机器学习的一种复杂形式，是广义人工神经网络（Artificial Neural Networks, ANNs）的

发表于 07-04 16:08 •1887次阅读

深度神经网络与基本神经网络的区别

在探讨深度神经网络（Deep Neural Networks, DNNs）与基本神经网络（通常指传统神经网络或前向神经网络）的区别时，我们需

发表于 07-04 13:20 •1198次阅读

深度神经网络的设计方法

深度神经网络（Deep Neural Networks, DNNs）作为人工智能领域的重要技术之一，通过模拟人脑神经元之间的连接，实现了对复杂数据的自主学习和智能判断。其设计方法不仅涉

发表于 07-04 13:13 •649次阅读

bp神经网络是深度神经网络吗

BP神经网络（Backpropagation Neural Network）是一种常见的前馈神经网络，它使用反向传播算法来训练网络。虽然BP神经网络

发表于 07-03 10:14 •1023次阅读

卷积神经网络训练的是什么

、训练过程以及应用场景。 1. 卷积神经网络的基本概念 1.1 卷积神经网络的定义卷积神经网络是一种前馈深度

发表于 07-03 09:15 •608次阅读

深度学习与卷积神经网络的应用

随着人工智能技术的飞速发展，深度学习和卷积神经网络（Convolutional Neural Network, CNN）作为其中的重要分支，已经在多个领域取得了显著的应用成果。从图像识别、语音识别

发表于 07-02 18:19 •1111次阅读

深度神经网络模型cnn的基本概念、结构及原理

深度神经网络模型CNN（Convolutional Neural Network）是一种广泛应用于图像识别、视频分析和自然语言处理等领域的深度学习模型。引言

发表于 07-02 10:11 •1w次阅读

深度神经网络模型有哪些

、Sigmoid或Tanh。卷积神经网络（Convolutional Neural Networks，CNN）：卷积神经网络是深度学习中最重

发表于 07-02 10:00 •1786次阅读

利用深度循环神经网络对心电图降噪

进行训练。我们还研究了使用合成数据集如何影响网络性能。我们建议使用深度循环去噪神经网络（DRDNN）对心电图信号进行去噪。它们是一种深度

发表于 05-15 14:42

搜索历史

训练深度神经网络的感觉就像买彩票，“打了折”的深度学习

评论

BP神经网络与深度学习的关系

深度学习入门：简单神经网络的构建与实现

深度学习中的卷积神经网络模型

FPGA在深度神经网络中的应用

残差网络是深度神经网络吗

简单认识深度神经网络

深度神经网络概述及其应用

深度神经网络与基本神经网络的区别

深度神经网络的设计方法

bp神经网络是深度神经网络吗

卷积神经网络训练的是什么

深度学习与卷积神经网络的应用

深度神经网络模型cnn的基本概念、结构及原理

深度神经网络模型有哪些

利用深度循环神经网络对心电图降噪