0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ICLR-17最佳论文《理解深度学习需要重新思考泛化》

DPVg_AI_era 来源:lq 2019-02-13 10:26 次阅读

ICLR-17最佳论文《理解深度学习需要重新思考泛化》曾引发学界热议。现作者张驰原和Samy Bengio等再出新作,指出神经网络每个层并非“生而平等”,进一步拓展对神经网络泛化的理解。

今天新智元要介绍的论文是ICLR 2017最佳论文奖得主、《理解深度学习需要重新思考泛化》的作者张弛原和Samy Bengio等人的新作:

神经网络的各个层生而平等吗?(Are All Layers Created Equal?)

张弛原、Samy Bengio等人新作:神经网络各个层生而平等吗?

在ICLR 2017那篇“重新思考泛化”的文章中,张驰原等人得出结论认为,只要参数的数量超过实践中通常的数据点的数量,即便是简单的层数为2的神经网络,就已经具有完美的有限样本表现力(finite sample expressivity)。

而在这篇新的论文中,张弛原等人继续探讨深度神经网络的泛化能力,深入到“层”的级别,并指出在研究深度模型时,仅关注参数或范数(norm)的数量是远远不够的。

研究深度模型时,只考虑参数和范数的数量是不够的

理解深层架构的学习和泛化能力是近年来一个重要的研究目标,《理解深度学习需要重新思考泛化》发表后在学界卷起了一股风暴,有人甚至称其为“势必颠覆我们对深度学习理解”。

ICLR 2017最佳论文《理解深度学习需要重新思考泛化》

ICLR 2017那篇文章指出,传统方法无法解释大规模神经网络在实践中泛化性能好的原因,并提出了两个新的定义——“显示正则化”和“隐示正则化”来讨论深度学习。

作者通过在CIFAR10和ImageNet的几个不同实验发现:

神经网络的有效容量对于整个数据集的暴力记忆是足够大的;

对随机标签进行优化的过程很容易。与对真实标签的训练相比,随机标签的训练时间只增加了一个小的恒定因子;

标签进行随机化只是一种数据变换,神经网络要学习的问题的所有其他属性不变。

更准确地说,当对真实数据的完全随机标记进行训练时,神经网络实现了零训练误差——当然,测试误差并不比随机概率好,因为训练标签和测试标签之间没有相关性。

换句话说,通过单独使标签随机化,我们可以迫使模型的泛化能力显著提升,而不改变模型、大小、超参数或优化器。

这一次,论文又提出了两个新的概念——(训练后)“重新初始化”和“重新随机化鲁棒性”,并认为神经网络的层可以分为“关键层”和“鲁棒层”;与关键层相比,将鲁棒层重置为其初始值没有负面影响,而且在许多情况下,鲁棒层在整个训练过程中几乎没有变化。

作者根据经验研究了过度参数化深度模型的分层功能结构,为神经网络层的异构特征提供了证据。

再次思考神经网络泛化:各个层并非“生而平等”

深度神经网络在现实世界的机器学习实例中已经得到了非常成功的应用。在将这一系统应用于许多关键领域时,对系统的深层理解至少与其最先进的性能同样重要。最近,关于理解为什么深度网络在实践中表现优异的研究主要集中在网络在漂移下的表现,甚至是数据分布等问题上。

与此类研究相关的另一个有趣的研究是,我们如何解释并理解受过训练的网络的决策函数。虽然本文的研究问题与此相关,但采取了不同的角度,我们主要关注网络层在受过训练的网络中的作用,然后将经验结果与泛化、鲁棒性等属性联系起来。

本文对神经网络表达力的理论进行了深入研究。众所周知,具有足够宽的单个隐藏层的神经网络是紧凑域上的连续函数的通用逼近器。

最近的研究进一步探讨了深度网络的表达能力,是否真的优于具有相同数量的单元或边缘的浅层网络。同时,也广泛讨论了用有限数量的样本表示任意函数的能力。

然而,在上述用于构建近似于特定功能的网络的研究中,使用的网络结构通常是“人工的”,且不太可能通过基于梯度的学习算法获得。我们重点关注的是实证深层网络架构中不同网络层发挥的作用,网络采用基于梯度的训练。

深度神经网络的泛化研究引起了很多人的兴趣。由于大神经网络无法在训练集上实现随机标记,这使得在假设空间上基于均匀收敛来应用经典学习的理论结果变得困难。

本文提供了进一步的经验证据,并进行了可能更细致的分析。尤其是,我们凭经验表明,深层网络中的层在表示预测函数时所起的作用并不均等。某些层对于产生良好的预测结果至关重要,而其他层对于在训练中分配其参数则具备相当高的鲁棒性。

此外,取决于网络的容量和目标函数的不同复杂度,基于梯度的训练网络可以不使用过剩容量来保持网络的复杂度。本文讨论了对“泛化“这一概念的确切定义和涵盖范围。

全连接层(FCN)

图1:MNIST数据集上FCN 3×256的鲁棒性结果。(a)测试错误率:图中每行对应于网络中的每一层。第一列指定每个层的鲁棒性w.r.t重新随机化,其余列指定不同检查点的重新初始化鲁棒性。最后一列为最终性能(在训练期间设置的最后一个检查点)作为参考。(b-c)权重距离:热图中的每个单元表示训练参数与其初始权重的标准化2范数(b)或∞范数(c)距离

图2:MNIST数据集上FCN 5×256的层鲁棒性研究。两个子图使用与图1(a)相同的布局。两个子图分别表示在测试错误(默认值)和测试损失中评估的鲁棒性

大规模卷积网络(CNN)

图3:重新初始化所有层的鲁棒性,但第一次使用检查点0用于不同维度的隐藏层的FCN。每个条形表示完全训练后的模型有具有一层重新初始化的模型之间的分类误差的差异。误差条表示通过使用不同的随机初始化运行实验得到的一个标准偏差。

图4:使用CIFAR10上的VGG网络进行分层鲁棒性分析。热图使用与图1中相同的布局,但加以转置,以便更有效地对更深层的架构进行可视化。

残差网络(ResNets)

图5:在CIFAR10上训练的ResNets残差块的分层鲁棒性分析。

图6:在ImageNet上训练的ResNets残差块的分层鲁棒性分析

图7:采用/不采用下采样跳过分支的残余块(来自ResNets V2)。C,N和R分别代表卷积、(批量)归一化和ReLU激活

网络层的联合鲁棒性

图8:MNIST上FCN 5×256的联合鲁棒性分析。布局与图1中的相同,但是图层分为两组(每个图层中图层名称上的*标记表示),对每组中的所有图层全部应用重新随机化和重新初始化。

图9:CIFAR10上ResNets的联合鲁棒性分析,基于对所有剩余阶段中除第一个残余块之外的所有剩余块进行分组的方案。分组由图层名称上的*表示。

图10:CIFAR10上ResNets的联合鲁棒性分析,以及其他分组方案。分组由图层名称上的*表示

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100874
  • 网络架构
    +关注

    关注

    1

    文章

    93

    浏览量

    12598
  • 深度学习
    +关注

    关注

    73

    文章

    5506

    浏览量

    121259

原文标题:ICLR-17最佳论文一作张弛原新作:神经网络层并非“生而平等”

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ICLR 2019论文解读:深度学习应用于复杂系统控制

    的影响。最近在信息论里,深度学习也产生了重要影响。使用深度学习可以对不同形式编码的信息进行自动解码。如今,深度
    的头像 发表于 01-10 14:53 7937次阅读
    <b class='flag-5'>ICLR</b> 2019<b class='flag-5'>论文</b>解读:<b class='flag-5'>深度</b><b class='flag-5'>学习</b>应用于复杂系统控制

    谷歌工程师机器学习干货:从表现力、可训练性和三方面详解

    这篇文章可能是本年度最佳机器学习技术及研究总结之一,当我阅读机器学习论文时,我会问自己,这篇论文的贡献是否属于:1)表现力(Expressi
    的头像 发表于 11-26 22:02 5288次阅读

    谷歌工程师浅谈Bengio深度学习论文的重要性

    理解深度学习需要重新思考
    发表于 01-06 09:31 1031次阅读

    深度学习如何确定最佳深度

    确定最佳深度可以降低运算成本,同时可以进一步提高精度。针对深度置信网络深度选择的问题,文章分析了通过设定阈值方法选择最佳
    发表于 04-04 15:46 3881次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>如何确定<b class='flag-5'>最佳</b><b class='flag-5'>深度</b>?

    探索机器“视觉”演进的无限可能性 Qualcomm AI研究人员获得ICLR殊荣

    Qualcomm AI研究人员获得ICLR殊荣:“球面卷积神经网络(spherical Convolutional Neural Networks,缩写CNNs)”荣获ICLR 2018年度最佳
    的头像 发表于 05-10 14:08 5217次阅读

    ICLR 2019在官网公布了最佳论文奖!

    今年 ICLR 共接收 1578 篇投稿,相较去年 981 篇有了很大的增加,录用结果如下:1.5% 录用为 oral 论文(24 篇)、30.2% 录用为 poster 论文(476 篇),58%
    的头像 发表于 05-07 09:00 4453次阅读
    <b class='flag-5'>ICLR</b> 2019在官网公布了<b class='flag-5'>最佳</b><b class='flag-5'>论文</b>奖!

    ICLR 2019最佳论文日前揭晓 微软与麻省等获最佳论文奖项

    ICLR 2019最佳论文日前揭晓。来自微软研究院、加拿大蒙特利尔学习算法研究所 (MILA)和来自麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)夺得本次大会的
    的头像 发表于 05-11 09:10 2382次阅读

    谷歌发表论文EfficientNet 重新思考CNN模型缩放

    谷歌AI研究部门华人科学家再发论文《EfficientNet:重新思考CNN模型缩放》,模型缩放的传统做法是任意增加CNN的深度和宽度,或使用更大的输入图像分辨率进行训练,而使
    的头像 发表于 06-03 14:19 6171次阅读
    谷歌发表<b class='flag-5'>论文</b>EfficientNet <b class='flag-5'>重新</b><b class='flag-5'>思考</b>CNN模型缩放

    在电力物联网的发展真的需要5G吗

    站在产业智能升级、电力市场带来的新机会、在物联技术生态配套等不同角度去理解思考
    发表于 07-12 15:28 988次阅读

    自监督学习与Transformer相关论文

    将在明年5月4日举行,目前,本次大会投稿已经结束,最后共有3013篇论文提交。ICLR 采用公开评审机制,任何人都可以提前看到这些论文。 为了分析最新研究动向,我们精选了涵盖自监督学习
    的头像 发表于 11-02 15:50 2704次阅读
    自监督<b class='flag-5'>学习</b>与Transformer相关<b class='flag-5'>论文</b>

    如何理解深度学习领域尚未解决的基础问题

    如何理解深度学习领域尚未解决的基础问题之一。为什么使用有限训练数据集优化模型能使模型在预留测试集上取得良好表现?这一问题距今已有 50
    的头像 发表于 04-08 17:56 2665次阅读
    如何<b class='flag-5'>理解</b><b class='flag-5'>泛</b><b class='flag-5'>化</b>是<b class='flag-5'>深度</b><b class='flag-5'>学习</b>领域尚未解决的基础问题

    基于深度学习的评论文本推荐方法

    传统推荐系统依赖人工进行规则设计和特征提取,对评论文本內容的特征和隐信息的提取能力有限。针对该问题,融合注意力机制并基于深度学习对推荐系统进行改进,提出一种对评论文
    发表于 06-09 15:39 5次下载

    基于评分矩阵与评论文本的深度学习模型

    基于评分矩阵与评论文本的深度学习模型
    发表于 06-24 11:20 58次下载

    深度学习顶级学术会议ICLR 2023录用结果已经公布!

    在机器学习社区中,ICLR 是较为「年轻」的学术会议,它由深度学习巨头、图灵奖获得者 Yoshua Bengio 和 Yann LeCun 牵头举办,2013 年才刚刚举办第一届。不过
    的头像 发表于 02-07 11:10 1637次阅读

    PyTorch教程5.5之深度学习中的

    电子发烧友网站提供《PyTorch教程5.5之深度学习中的.pdf》资料免费下载
    发表于 06-05 15:31 1次下载
    PyTorch教程5.5之<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中的<b class='flag-5'>泛</b><b class='flag-5'>化</b>