0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google AI的研究人员的最新研究提出一个全新概念:刚度(Stiffness)

DPVg_AI_era 来源:lp 2019-03-21 09:14 次阅读

Google AI的研究人员的最新研究提出一个全新概念:刚度(Stiffness),为探索神经网络的训练和泛化问题提供了一个新视角。

Google AI的研究人员最近在arxiv发表的一篇新论文,探索了神经网络的训练和泛化问题的一个新视角。

论文题为“Stiffness: A New Perspective on Generalization in Neural Networks”,作者是谷歌 AI 苏黎世研究中心的Stanislav Fort等人。

论文提出“刚度”(stiffness)这个概念,透过这个概念研究了神经网络的训练和泛化问题。

研究人员通过分析一个示例中的小梯度步骤如何影响另一个示例的损失来测量网络的“刚度”。

具体来说,他们在4个分类数据集(MNIST、FASHION MNIST、CIFAR-10、CIFAR-100)上分析了全连接卷积神经网络的刚度。他们关注的是刚度如何随着1) 类隶属度(class membership),2)数据点之间的距离,3)训练迭代,和4)学习率而变化。

研究表明,当在固定的验证集上计算时,刚度与泛化(generalization)直接相关。刚度函数的灵活性较差,因此不太容易对数据集的特定细节进行过拟合。

结果表明,“刚度”的概念有助于诊断和表征泛化。

学习率的选择对学习函数的刚度特性有显著影响。高学习率会导致函数逼近在更大的距离上“更刚”(stiffer),并且学习到的特征可以更好地泛化到来自不同类的输入。另一方面,较低的学习率似乎能学到更详细、更具体的特征,即使在训练集上导致同样的损失,也不能泛化到其他类。

这表明,高学习率的优势不仅在于收敛所需的步骤更少,还在于它们倾向于学习的特性具有更高的泛化性,即高学习率充当了有效的正则化器。

刚度(Stiffness)的定义

刚度的定义如下:

如果点处的损失相对于网络权重的梯度是,并且点处的梯度是 ,则我们定义“刚度”为

图1:“刚度”概念的图示

如图1所示,“刚度”可以看做是通过应用基于另一个输入的梯度更新引起的输入损失的变化,相当于两个输入的梯度之间的梯度对齐(gradient alignment)。

实验和结果

基于类隶属度关系的刚度特性

我们基于验证集数据点的类隶属度(class membership )作为训练迭代函数,研究了验证集数据点的刚度特性。

对于带有真实标签的MNIST、FASHION MNIST和CIFAR-10数据集,结果分别显示为图3、图5、图6,对于带有随机排列训练集标签的MNIST数据集,结果为图4.

图3:MNIST上完全连接网络刚度的Class-membership dependence

图4:MNIST上完全连接网络刚度的Class-membership dependence,训练时使用随机排列的标签

图5:FASHION MNIST上完全连接网络刚度的Class-membership dependence

图6:CIFAR-10上卷积神经网络刚度的Class-membership dependence

图3、图5和图6都显示了4个训练阶段的刚度矩阵:初始化阶段(任何梯度步骤之前)、优化早期阶段和两个后期阶段。

学习率对刚度的影响

图8:在MNIST 和 FASHION MNIST上以不同学习率训练,不同类别的刚度。

如图8所示,这两幅图给出了三种不同训练损失的 class dependent刚度矩阵。较高的学习率导致来自不同类的输入之间的刚度更高,表明它们学习的特性在不同类之间更加可泛化(generalizable)。

结论

我们探讨了神经网络刚度的概念,并用它来诊断和表征泛化。我们研究了在真实数据集上训练的模型的刚度,并测量了其随训练迭代、类隶属度、数据点之间的距离和学习率的选择而变化的情况。为了探讨泛化和过拟合,我们重点研究了验证集中数据点的刚度。

总结而言,本文定义了刚度的概念,证明了它的实用性,为更好地理解神经网络中的泛化特性提供了一个新的视角,并观察了其随学习率的变化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1757

    浏览量

    57393
  • 神经网络
    +关注

    关注

    42

    文章

    4759

    浏览量

    100465
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24629

原文标题:你的模型刚不刚?谷歌提出“刚度”概念,探索神经网络泛化新视角

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    东京大学的研究人员:新开发的电子皮肤有LED显示屏

    过去的几年出现了很多柔性电子皮肤贴片概念,可以管理药物或监测健康状况,但是东京大学的研究人员最新开发的版本增加了LED显示屏。
    发表于 05-15 08:46 1443次阅读

    Google研究人员开发增强现实显微镜检测癌细胞

    Google研究人员开发了种增强现实显微镜(ARM),该显微镜可以从经过训练的神经网络中获取实时数据,以检测癌细胞,并将其显示在查看
    发表于 04-23 12:09 2232次阅读

    带你了解AI研究人员年薪百万背后的真相

    近期,纽约时报记者卡德梅茨爆料了条令人「震惊」的消息——AI 研究人员年薪百万(哪怕是在 OpenAI 这样的非营利机构里),个个都是人生赢家。
    的头像 发表于 05-28 17:46 5645次阅读

    深度学习全新打开方式Google Brain提出概念激活向量新方法

    最近,Google Brain团队的研究人员发表了篇论文,提出种名为概念激活向量(Conc
    的头像 发表于 07-31 14:11 2966次阅读

    研究人员提出系列新的点云处理模块

    为了探索这些问题的解决办法、来自伦敦大学学院的研究人员提出系列新的点云处理模块,从效率、信息共享和点云卷积操作等方面进行了研究,得到了更宽、更深、更快效率更高的点云处理网络,让更
    的头像 发表于 08-02 14:44 3034次阅读
    <b class='flag-5'>研究人员</b>们<b class='flag-5'>提出</b>了<b class='flag-5'>一</b>系列新的点云处理模块

    Facebook的研究人员提出了Mesh R-CNN模型

    研究的目标是通过单张图像输入,对图像中的物体进行检测、获取不同物体的类别、掩膜和对应的三维网格,并对真实世界中的复杂模型进行有效处理。在2D深度网络的基础上,研究人员改进并提出了新
    的头像 发表于 08-02 15:51 3849次阅读
    Facebook的<b class='flag-5'>研究人员</b><b class='flag-5'>提出</b>了Mesh R-CNN模型

    Google AI发布项新研究 可以“近乎即时”地预报天气

    近日,据外媒报道,Google AI发布项新研究,称可以“近乎即时”地预报天气。谷歌的研究人员描述了如何能够以仅数分钟的计算,以1公里的分
    发表于 01-17 11:47 594次阅读

    研究人员已经使用机器学习来开发血液测试

    这个由来自哈佛医学院,克利夫兰诊所,梅奥诊所等众多研究人员研究人员组成的多机构团队对来自3,052名参与者的数据进行了AI训练。其中,1,531例患有癌症,1,521例没有。
    的头像 发表于 05-21 10:17 1939次阅读

    AI研究人员如何应对透明AI

    许多现代的AI系统都在神经网络上运行,而我们仅了解其基础知识,因为算法本身很少提供解释方式。缺乏解释性通常被称为AI系统的“黑匣子”。研究人员将注意力集中在神经网络如何工作的细节上
    的头像 发表于 07-14 16:31 1861次阅读

    研究人员发现可窃取AWS凭证的加密货币蠕虫

    研究人员近期发现可以窃取AWS凭证的加密货币蠕虫。这是首个含有AWS特定功能的蠕虫,该蠕虫可以窃取本地凭证、扫描错误配置的Docker平台的网络。研究人员发现黑客组织TeamTNT
    的头像 发表于 08-26 14:04 1571次阅读
    <b class='flag-5'>研究人员</b>发现<b class='flag-5'>一</b><b class='flag-5'>个</b>可窃取AWS凭证的加密货币蠕虫

    研究人员宣布了种新的AI机器学习工具

    南加州大学(USC)的Victor Martinez是AI研究的首席研究员该软件将于本月在2020年自然语言处理经验方法会议论文集上首次亮相。其他研究人员USC克里希纳包括和Soman
    的头像 发表于 11-23 15:10 1859次阅读

    研究人员发明全新AI感应设备

    12月23日消息,据国外媒体报道,加州大学伯克利分校的研究人员发明了种装置,利用可穿戴传感器和人工智能软件来确定一个人想要做出的手势。
    的头像 发表于 12-23 16:51 2698次阅读

    研究人员为锂硫电池提出种新阴极设计概念

    研究团队,为锂硫电池(Li–S)提出种新颖的阴极设计概念,将可大幅提升此类具有发展前景的下代电池的性能。
    发表于 12-29 10:48 520次阅读

    研究人员制造出种复制人类的行为下棋的AI

    我们这些凡人在国际象棋上已经很久没有真正与人工智能竞争了。距人类在国际象棋比赛中征服计算机已有15年了。但是,近日,研究人员开发了AI国际象棋engine,它的出现并不是打算碾
    的头像 发表于 02-23 09:38 1524次阅读

    小到分子!研究人员开发种微小的压电电阻器

    使用压阻的电子传感器在许多设备中都很常见,包括汽车、医疗可穿戴设备和智能手机。现在,澳大利亚的研究人员开发了种微小的压电电阻器,小到分子,可以实现
    的头像 发表于 10-31 16:52 843次阅读