0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

神经网络的黑盒属性,一直是困扰研究人员和开发者最头疼的问题之一

DPVg_AI_era 来源:lq 2018-12-20 09:17 次阅读

神经网络的黑盒属性,一直是困扰研究人员和开发者最头疼的问题之一。以至于大家给神经网络戴了了一个炼丹术的帽子。但是OpenAI发现,梯度噪声量表是一种简单的统计度量,可以预测神经网络训练在各种任务中的可并行性。

由于复杂的任务往往具有更嘈杂的梯度,因此越来越大的batch计算包,可能在将来变得有用,从而消除了AI系统进一步增长的一个潜在限制。

更广泛地说,这些结果表明神经网络训练不需要被认为是一种炼丹术,而是可以被量化和系统化。

在过去的几年里,AI研究人员通过数据并行技术,在加速神经网络训练方面取得了越来越大的成功,数据并行性将大batch数据分散到许多机器上。

研究人员成功地使用了成各种的batch进行图像分类和语言建模,甚至玩Dota 2。

这些大batch数据允许将越来越多的计算量有效地投入到单个模型的训练中,并且是人工智能训练计算快速增长的重要推动者。

但是,batch如果太大,则梯度消失。并且不清楚为什么这些限制对于某些任务影响更大而对其他任务影响较小。

我们已经发现,通过测量梯度噪声标度,一个简单的统计量来量化网络梯度的信噪比,我们可以近似预测最大有效batch大小。

同理,噪声尺度可以测量模型所见的数据变化(在训练的给定阶段)。当噪声规模很小时,快速并行查看大量数据变得多余;反之,我们仍然可以从大batch数据中学到很多东西。

这种类型的统计数据被广泛用于样本量选择,并且已被提议用于深度学习,但尚未被系统地测量或应用于现代训练运行。

我们对上图所示的各种机器学习任务进行了验证,包括图像识别,语言建模,Atari游戏和Dota。

由于大batch通常需要仔细和昂贵的调整或特殊高效的学习率,因此提前知道上限在训练新模型方面提供了显著的实际优势。

我们发现,根据训练的现实时间和我们用于进行训练的总体积计算(与美元成本成比例)之间的权衡,可视化这些实验的结果是有帮助的。

在非常小的batch的情况下,batch加倍可以让我们在不使用额外计算的情况下减少一半的训练。在非常大的batch,更多的并行化不会导致更快的训练。中间的曲线中存在“弯曲”,渐变噪声标度预测弯曲发生的位置。

我们通过设置性能水平(比如在Beam Rider的Atari游戏中得分为1000)来制作这些曲线,并观察在不同batch大小下训练到该性能所需的时间。 结果与绩效目标的许多不同值相对较紧密地匹配了我们模型的预测。

梯度噪声尺度中的模式

我们在梯度噪声量表中观察到了几种模式,这些模式提供了人工智能训练未来可能存在的线索。

首先,在我们的实验中,噪声标度通常在训练过程中增加一个数量级或更多。

直观地,这意味着网络在训练早期学习任务的“更明显”的特征,并在以后学习更复杂的特征。

例如,在图像分类器的情况下,网络可能首先学习识别大多数图像中存在的小尺度特征(例如边缘或纹理),而稍后将这些部分组合成更一般的概念,例如猫和狗。

要查看各种各样的边缘或纹理,网络只需要看到少量图像,因此噪声比例较小;一旦网络更多地了解更大的对象,它就可以一次处理更多的图像,而不会看到重复的数据。

我们看到一些初步迹象表明,在同一数据集上不同模型具有相同的效果。更强大的模型具有更高的梯度噪声标度,但这仅仅是因为它们实现了更低的损耗。

因此,有一些证据表明,训练中增加的噪声比例不仅仅是收敛的假象,而是因为模型变得更好。如果这是真的,那么我们期望未来的更强大的模型具有更高的噪声规模,因此可以更加并行化。

在监督学习的背景下,从MNIST到SVHN到ImageNet都有明显的进展。在强化学习的背景下,从Atari Pong到Dota 1v1到Dota 5v5有明显的进展,最佳batch大小相差10,000倍以上。

因此,随着AI进入新的和更困难的任务,我们希望模型能够容忍更高的batch。

启示

数据并行度显着影响AI功能的进展速度。更快的训练使更强大的模型成为可能,并通过更快的迭代时间加速研究。

在早期研究中,我们观察到用于训练最大ML模型的计算,每3.5个月翻一番。我们注意到这种趋势是由经济能力和算法并行训练的能力共同决定的。

后一因素(算法可并行性)更难以预测,其局限性尚不清楚,但我们目前的结果代表了系统化和量化的一步。

特别是,我们有证据表明,在同一任务中,更困难的任务和更强大的模型将允许比我们迄今为止看到的更激进的数据并行性,这为训练计算的持续快速指数增长提供了关键驱动因素。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4778

    浏览量

    101024
  • 图像分类
    +关注

    关注

    0

    文章

    93

    浏览量

    11944
  • 机器学习
    +关注

    关注

    66

    文章

    8438

    浏览量

    132901

原文标题:OpenAI发现打破神经网络黑盒魔咒新思路:梯度噪声量表

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    人类首创能生成神经细胞的“迷你大脑”,更精确模拟神经网络

    ”,可以为细胞提供与实际人类大脑相似的交互环境,研究人员可以在这些环境中更清晰地观察大脑的发育和功能,研究相关大脑疾病的疗法,并对有应用前景的新药物进行测试。髓鞘是种覆盖在神经纤维上
    发表于 08-21 09:26

    【案例分享】ART神经网络与SOM神经网络

    今天学习了两个神经网络,分别是自适应谐振(ART)神经网络与自组织映射(SOM)神经网络。整体感觉不是很难,只不过些最基础的概念容易理解不清。首先ART
    发表于 07-21 04:30

    如何设计BP神经网络图像压缩算法?

    神经网络(Neural Networks)是人工神经网络(Ar-tificial Neural Networks)的简称,是当前的研究热点之一。人脑在接受视觉感官传来的大量图像信息后,
    发表于 08-08 06:11

    如何移植个CNN神经网络到FPGA中?

    训练神经网络并移植到Lattice FPGA上,通常需要开发人员既要懂软件又要懂数字电路设计,是个不容易的事。好在FPGA厂商为我们提供了许多工具和IP,我们可以在这些工具和IP的基础上做
    发表于 11-26 07:46

    人工智能发展第阶段

    化学会志》期刊报导项新的研究成果:研究人员开发种可用近红外光激发的电压荧光纳米探针,并用它监测斑马鱼和小鼠脑中
    发表于 07-28 07:51

    matlab实现神经网络 精选资料分享

    神经神经网络,对于神经网络的实现是如何一直没有具体实现下:现看到个简单的
    发表于 08-18 07:25

    隐藏技术: 种基于前沿神经网络理论的新型人工智能处理器

    隐藏技术: 种基于前沿神经网络理论的新型人工智能处理器 Copy东京理工大学的研究人员开发种名为“ Hiddenite”的新型加速器芯
    发表于 03-17 19:15

    卷积神经网络模型发展及应用

    network,DBN)[24], 从此拉开了深度学习大幕。随着深度学习理论的研究和发展,研究人员提 出了系列卷积神经网络模型。为了比较不同模型 的质量,收集并整理了文献中模型在分
    发表于 08-02 10:39

    机器人神经网络逆系统阻抗控制方法研究

    机器人动力学控制由于其数学模型的不确定性,一直是困扰该领域的难题之一。本文研究了通过神经网络逆系统方法实现机器人的解耦,然后在外环施加控制的
    发表于 01-11 16:54 11次下载

    详细解析神经网络的含义、挑战、类型、应用

    Statsbot深度学习开发者Jay Shah带你入门神经网络起了解自动编码器、卷积神经网络、循环神经网络等流行的
    的头像 发表于 01-15 17:11 9377次阅读

    研究人员开发解释多义词的神经网络

    艾伦人工智能研究所和华盛顿大学的研究人员正在使用可以根据上下文来确定英文单词含义的神经网络
    的头像 发表于 09-12 15:52 2230次阅读

    研究人员开发种新颖的机器学习管道

    研究人员通过种特殊的神经网络模型,它以“基本块”(计算指令的基本摘要)形式训练标记的数据,以自动预测其持续时间使用给定的芯片执行以前看不见的基本块。结果表明,这种神经网络模型的性能要
    的头像 发表于 04-15 16:42 1868次阅读

    BERT是种用于自然语言处理的先进神经网络方法

    您今天可能已经与BERT网络进行了互动。这是Google搜索引擎的基础技术之一,自Google于2018年发布BERT以来,它一直引起研究人员的兴奋。BERT是
    的头像 发表于 12-13 10:08 3674次阅读

    研究人员开发“液态”神经网络 可适应快速变化的训练环境

    设计出了种具有重大改进的“液态”神经网络。其特点是能够在投入训练阶段之后,极大地扩展 AI 技术的灵活性。 通常情况下,研究人员会在训练阶段向神经网络算法提供大量相关的目标数据,来磨
    的头像 发表于 01-29 10:46 1584次阅读

    卷积神经网络的实现工具与框架

    卷积神经网络因其在图像和视频处理任务中的卓越性能而广受欢迎。随着深度学习技术的快速发展,多种实现工具和框架应运而生,为研究人员开发者提供了强大的支持。 TensorFlow 概述
    的头像 发表于 11-15 15:20 303次阅读