将训练神经网络看作是抽奖?如何找到“中奖彩票”的官方解释-电子发烧友网

我们现在所使用的神经网络模型，可能有 80% - 90% 的体积是多余的，这浪费了巨大的处理能力。

近日，麻省理工学院的计算机科学与人工智能实验室（MIT CSAIL）公布了一项新的研究成果，用富有创意的“彩票机制”修剪了传统神经网络模型，选择性地剔除了对结果意义不大的连接（权重），使其变为更小的子神经网络。

最终，在保证预测准确率前提下，他们将实验中的子网络模型的体积减少了 80% - 90%，进而降低了对训练数据量和硬件的需求，而且学习速度还有所提升。

研究团队将这一方法称为“彩票假设（Lottery Ticket Hypothesis）”，成果以论文形式发表在最近召开的 ICLR 2019 大会上，并且被评选为两篇最佳论文之一。《麻省理工科技评论》报道了这一成果，预测这种构建微小神经网络的新方法，可以在手机上创建强大的人工智能。

将训练神经网络看作是抽奖

如今，深度学习技术已经成为了计算机科学领域的最热门研究方向，从应用自然语言处理的语音识别，到应用计算机视觉的自动驾驶，都十分依赖于构建（深度）神经网络。而为了达到最佳学习效果，构建神经网络通常需要非常庞大的数据集，用来训练和测试模型。很多研究团队都在想办法优化这一过程，在不牺牲准确度的前提下，让神经网络和模型变得更小巧轻便。

传统神经网络由很多层和神经元构成，神经元之间的连接可以用权重来衡量，通过调整某些权重的参数，我们就可以改变相应的连接在整个网络中的作用。权重一般都是随机初始化的，随着模型经过大量训练，神经网络会慢慢“学会”哪些神经元和连接更重要，继而改变对应的权重参数，输出准确率更高的结果。

图 | 神经网络剪枝示意图（来源：Dr. Lance Eliot, the AI Trends Insider）

在 MIT 研究人员看来，这就像是一个抽奖过程：最开始我们手里有一大堆数字，但只有少部分数字最富价值，所以我们可以在训练过程中将它们筛选出来，用这些数字组合成一张“中奖彩票”，也就是实现了准确预测的目的。

如果我们可以在最开始就知道哪些数字能够或者更容易中奖，那么就可以*直接**去除**剩下**那些价值不大的**数字*，从而在保证准确率的情况下，缩小神经网络的体积，甚至是提高训练效率。

研究人员将这一思路命名为“彩票假设”。他们认为，一个随机初始化的密集神经网络包含一个（一些）子网络，在独立初始化并训练相同迭代次数后，它们的预测准确率能够媲美原始的神经网络。

图 |“彩票假设”定义

“稀疏剪枝”法修剪出微小神经网络

值得注意的是，目前已存在多种神经网络剪枝（Pruning）技术，AI 大牛 Yann LeCun 就曾提出过。在最理想的情况下，可以将网络体积缩小 90%。但修剪之后的网络普遍难以重新训练，而且重新训练还会导致准确率降低等问题。

相比之下，MIT 团队想要找到一种，可以在最开始就训练修剪过的小型神经网络的方法。

为了验证“彩票假设”，研究人员先进行了复杂的数学推导，从理论上证明了实现的可行性。然后随机初始化了一个神经网络，并且迭代训练 N 次，获得了第 N 次迭代之后的所有参数，再按照特定的比例和方法剪掉部分参数，比如剔除数量级最小的权重，创造出一个蒙版。最后将所有剩余参数还原到初始值，套上刚刚得到的参数蒙版，由此创建了一套“中奖彩票”，再进行重新初始化和训练。

图 | 如何找到“中奖彩票”的官方解释

研究团队使用了全连接网络和卷积神经网络来测试“彩票假设”的效果，分别建立在 MNIST 和 CIFAR10 数据集之上——两者都是深度学习领域知名数据集。

针对这两种网络，他们在多种条件下重复进行了数万次实验，尝试分析和组合很多不同的方法，从而确定在不牺牲学习能力和准确度的前提下，可以最多删除多少个参数。

结果显示，“稀疏剪枝（Sparse Pruning）”方法是找到“中奖彩票”的最有效手段。由此生成的子网络大小只有原始网络前馈架构大小的 10% - 20%，而且在某些情况下，例如使用早停，Dropout 或随机重初始化等方法，还可以使学习速度加快，甚至是获得超过原始网络的准确度。

研究人员认为，这样的成果还只是起步，如果想找到合适的子网络，必须经过多次迭代、训练和修剪，对于算力有较高要求，而且存在一定的局限性，因为他们只找到了“稀疏剪枝”这一种寻求“彩票”的方法，还只考虑了数据集相对较小的视觉分类任务。

不过“彩票假设”的新思路可以激发机器学习领域的其它团队，尝试更多类似的网络压缩和优化研究。研究团队下一步将围绕更多的剪枝方法展开研究，分析为什么迭代剪枝（Iterative Pruning）在更深的网络中无法找到“中奖彩票”，同时对参数初始化机制进行更透彻的研究。

他们相信，如果投入更多的努力，能够找到最有效的剪枝手段，或许有望加速很多深度学习模型的训练过程，节省可观的开支和工作量，甚至是创造更有价值的新模型。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4767

浏览量
100663
人工智能

人工智能

+关注

关注
1791

文章
47059

浏览量
238047

原文标题：ICLR最佳论文：训练神经网络就像买彩票？

文章出处：【微信号：deeptechchina，微信公众号：deeptechchina】欢迎添加关注！文章转载请注明出处。

如何使用经过训练的神经网络模型

使用经过训练的神经网络模型是一个涉及多个步骤的过程，包括数据准备、模型加载、预测执行以及后续优化等。

发表于 07-12 11:43 •918次阅读

脉冲神经网络怎么训练

脉冲神经网络（SNN, Spiking Neural Network）的训练是一个复杂但充满挑战的过程，它模拟了生物神经元通过脉冲（或称为尖峰）进行信息传递的方式。以下是对脉冲神经网络

发表于 07-12 10:13 •551次阅读

怎么对神经网络重新训练

发生变化，导致神经网络的泛化能力下降。为了保持神经网络的性能，需要对其进行重新训练。本文将详细介绍重新训练

发表于 07-11 10:25 •438次阅读

BP神经网络的基本结构和训练过程

网络结构，通过误差反向传播算法（Error Backpropagation Algorithm）来训练网络，实现对复杂问题的学习和解决。以下将详细阐述BP

发表于 07-10 15:07 •3929次阅读

BP<b class='flag-5'>神经网络</b>的基本结构和<b class='flag-5'>训练</b>过程

神经网络如何用无监督算法训练

标记数据的处理尤为有效，能够充分利用互联网上的海量数据资源。以下将详细探讨神经网络如何用无监督算法进行训练，包括常见的无监督学习算法、训练过程、应用及挑战。

发表于 07-09 18:06 •739次阅读

如何利用Matlab进行神经网络训练

，使得神经网络的创建、训练和仿真变得更加便捷。本文将详细介绍如何利用Matlab进行神经网络训练，包括网

发表于 07-08 18:26 •1771次阅读

人工神经网络模型训练的基本原理

图像识别、语音识别、自然语言处理等。本文将介绍人工神经网络模型训练的基本原理。 1. 神经网络的基本概念 1.1 神经元

发表于 07-05 09:16 •628次阅读

深度神经网络与基本神经网络的区别

在探讨深度神经网络（Deep Neural Networks, DNNs）与基本神经网络（通常指传统神经网络或前向神经网络）的区别时，我们需要从多个维度进行深入分析。这些维度包括

发表于 07-04 13:20 •776次阅读

反向传播神经网络和bp神经网络的区别

神经网络在许多领域都有广泛的应用，如语音识别、图像识别、自然语言处理等。然而，BP神经网络也存在一些问题，如容易陷入局部最优解、训练时间长、对初始权重敏感等。为了解决这些问题，研究者们提出了一些改进的BP

发表于 07-03 11:00 •750次阅读

bp神经网络和卷积神经网络区别是什么

结构、原理、应用场景等方面都存在一定的差异。以下是对这两种神经网络的比较：基本结构 BP神经网络是一种多层前馈神经网络，由输入层、隐藏层和输出层组成。每个神经元之间通过权重连接，并通

发表于 07-03 10:12 •1115次阅读

卷积神经网络训练的是什么

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。本文将详细介绍卷积神经网络的基本概念、结构

发表于 07-03 09:15 •381次阅读

卷积神经网络的原理是什么

卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习模型，广泛应用于图像识别、语音识别、自然语言处理等领域。本文将详细介绍卷积神经网络的原理，包括其

发表于 07-02 14:44 •610次阅读

卷积神经网络的基本原理、结构及训练过程

、训练过程以及应用场景。一、卷积神经网络的基本原理卷积运算卷积运算是卷积神经网络的核心，它是一种数学运算，用于提取图像中的局部特征。卷积运算的过程如下：（1）定义卷积核：卷积核是一个小的矩阵，用于在输入图像上滑动，提取局

发表于 07-02 14:21 •2363次阅读

如何训练和优化神经网络

神经网络是人工智能领域的重要分支，广泛应用于图像识别、自然语言处理、语音识别等多个领域。然而，要使神经网络在实际应用中取得良好效果，必须进行有效的训练和优化。本文将从神经网络的

发表于 07-01 14:14 •440次阅读

Kaggle知识点：训练神经网络的7个技巧

科学神经网络模型使用随机梯度下降进行训练，模型权重使用反向传播算法进行更新。通过训练神经网络模型解决的优化问题非常具有挑战性，尽管这些算法在实践中表现出色，但不能保证它们会及时收敛到一

发表于 12-30 08:27 •648次阅读

搜索历史

将训练神经网络看作是抽奖?如何找到“中奖彩票”的官方解释

评论

如何使用经过训练的神经网络模型

脉冲神经网络怎么训练

怎么对神经网络重新训练

BP神经网络的基本结构和训练过程

神经网络如何用无监督算法训练

如何利用Matlab进行神经网络训练

人工神经网络模型训练的基本原理

深度神经网络与基本神经网络的区别

反向传播神经网络和bp神经网络的区别

bp神经网络和卷积神经网络区别是什么

卷积神经网络训练的是什么

卷积神经网络的原理是什么

卷积神经网络的基本原理、结构及训练过程

如何训练和优化神经网络

Kaggle知识点：训练神经网络的7个技巧