0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Dropout如何成为SDR的特殊情况

zhKF_jqr_AI 来源:未知 作者:李倩 2018-08-15 08:32 次阅读

编者按:多层神经网络在多种基准任务上都有了显著成果,例如文本、语音和图像处理。尽管如此,这些深层神经网络会导致高维非线性的参数空间,让搜索难以进行,并且还会导致过度拟合和较差的泛化。早期由于数据不足、无法恢复梯度损失以及不良局部最小值而引起的高捕捉概率,让使用反向传播的神经网络很容易失败。

2006年,Hinton的深度学习提出了一些创新的方法以减少这些过度拟合和过度参数化的问题,包括减少连续梯度损失的ReLU和Dropout等。在这篇文章中,美国罗格斯大学的两位研究者将关注深层网络的过度参数化问题,尽管现在各项分类任务都有大量可用的数据。本文已提交到NIPS 2018,以下是论智对原文的大致编译,如有错误请批评指正。

Dropout是用来减轻过度参数化、深度学习的过拟合以及避免偶然出现的不良局部最小值。具体说来,Dropout在每次更新时会添加一个带有概率p的Bernoulli随机变量、删除隐藏的单元以及网络中的连接,从而创造一个稀疏的网络架构。学习结束后,深度学习网络会通过计算每个权重的期望值进行重组。大多数案例证明,深度学习的Dropout能将常见基准的错误减少50%以上。

在这篇论文中,我们将介绍一种通用的Dropout类型,它可以在权重层面操作,在每次更新中插入梯度相关的噪音,称为随机Delta规则(SDR)。SDR是在每个权重上执行一个随机变量,并对随机变量中的每个参数提供更新之后的规则。虽然SDR在任意随机变量下都能工作,但是我们将展示,Dropout在拥有二项式随机变量中的固定参数下是非常特别的。最终我们在含有高斯SDR的标准基准下测试DenseNet,结果证明二项式Dropout有着非常大的优势。

随机delta规则(SDR)

众所周知,神经传输会包含噪声。如果皮质分离的神经元受到周期性、相同的刺激,将会产生不同的反应。SDR的部分motivation是基于生命系统中信号在神经元之间传播的随机性。显然,平滑的神经速率函数是基于很多刺激实验得来的平均值,这使得我们认为两个神经元之间的突触可以用一个具有固定参数的分布建模。

图1显示了我们用一个高斯随机变量和平均µwij以及σwij实施的SDR算法。每个权重都会从高斯随机变量中进行采样。实际上,和Dropout一样,很多网络都是在训练时的更新中进行采样。这里和Dropout的不同之处在于,SDR在更新时,会根据错误的梯度调整权重和隐藏单元。

图1

因此,每个权重梯度就是基于隐藏单元的随机变量,基于此,系统可以:

给定相同的样本/奖励,生成多个回复假设

保持历史预测,而不像Dropout一样只有局部的隐藏单元权重

有可能会返回到不良局部最小值而造成贪婪搜索,但同时越来越远离更好的局部最小值

最后一个优点是,如Hinton所说,局部噪声的插入可能会导致收敛到更好的局部最小值的速度更快、更稳定。

实施SDR有三个更新规则,以下是权重分布中的权重值的更新规则:

第一个更新规则用于计算权重分布的平均数:

第二个用于权重分布的标准偏差:

第三种是将标准偏差收敛到0,让平均权重值达到一个固定点,将所有样本都聚集起来:

接下来,我们将讲述Dropout如何成为SDR的特殊情况。最明显的方法是首先将随机搜索看作一种特殊的采样分布。

将Dropout看作SDR的二项式固定参数

如之前所说,Dropout需要将每层的隐藏单元在Bernoulli过程中删除。如果我们在同样的网络中,将Dropout和SDR进行对比,可以发现二者的不同在于随机处理是否影响了权重或隐藏单元。图2我们描述了Dropout在隐藏单元采样时的收敛。可以看到明显的不同是,SDR在适应性地更新随机变量参数,而Dropout是用固定参数进和Binomial随机变量进行采样。另一个重要区别在于,SDR在隐藏层中的共享权重比Dropout的更“局部”。

图2

那么,SDR所表现出的参数的增加,是否使得搜索更加有效、更加稳定?下一步我们将开展实验。

测试及结果

这里我们采用了在TensorFlow上搭建的经过改进的DenseNet。模型用DenseNet-40、DenseNet-100和DenseNet-BC 100网络,它们经过了CIFAR-10和CIFAR-100的训练,初始DenseNet参数相同。

最终的结果显示,将SDR换成Dropout后的DenseNet测试中,错误率下降了50%以上。

同时在错误率分别为15、10和5的情况下,训练所需次数也比单独DenseNet减少:

训练精确度(DenseNet-100橙色,有SDR的DenseNet-100,蓝色)

结语

这篇文章展示了一个基础的深度学习算法(Dropout)是如何实施随机搜索并帮助解决过度拟合的。未来我们将展示SDR是如何超越Dropout在深度学习分类中的表现的。

数据科学家、fast.ai创始人Jeremy Howard点评:“如果该论文结果真的这么好,那绝对值得关注。”

但是谷歌机器学习专家David Ha有不同意见:“结果看上去很可疑(我觉得他们搞错了)。CIFAR-10的准确率能到98.64%,CIFAR-100真的能到94.84%吗?”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经元
    +关注

    关注

    1

    文章

    363

    浏览量

    18449
  • Dropout
    +关注

    关注

    0

    文章

    13

    浏览量

    10051
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121111

原文标题:争议 | 错误减少50%!这难道是更快更准确的深度学习?

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    SDR_SDR是什么意思

    本内容介绍了SDRSDR是什么意思?SDR (Software Definition Radio), “软件定义的无线电”  一种无线电广播通信技术,它基于软件定义的无线通信协议而非通过硬连线实现。
    发表于 12-07 17:40 1w次阅读

    IN612 SDR API介绍

    SDR
    橙群微电子
    发布于 :2023年03月03日 09:07:19

    73.73 对象分配的特殊情况

    代码项目开发
    充八万
    发布于 :2023年07月18日 06:19:49

    SDR软件

    哪位有SDR的软件给个学习学习。
    发表于 05-19 19:17

    介绍SDR的技术原理 以SDR LTE系统为例进一步解析SDR系统的工作流程

    本文档通俗地介绍SDR的技术原理:先简单介绍SDR的概念,SDR系统的分类,基于GPP的SDR系统,接着详细介绍SDR系统原理,最后再以
    发表于 05-11 16:47

    CCFD SDR平台有哪些应用

    CCFD SDR平台有哪些应用?CCFD SDR平台主要由哪些部分组成?CCFD SDR平台有何功能?
    发表于 10-08 06:30

    ref sdr sdram verilog代码

    ref-sdr-sdram-verilog代码 SDR SDRAM Controller v1.1 readme.txt This readme file for the SDR SDRAM
    发表于 06-14 08:50 33次下载

    SDR SDRAM Controller (White Pa

    SDR SDRAM Controller August 2002, ver. 1.1 1M-WP-SDR-1.1 IntroductionThe single data rate (SDR
    发表于 06-14 08:51 95次下载

    ref sdr sdram vhdl代码

    ref-sdr-sdram-vhdl代码 SDR SDRAM Controller v1.1 readme.txt This readme file for the SDR SDRAM
    发表于 06-14 08:52 46次下载

    dropout正则化技术介绍

    dropout技术是神经网络和深度学习模型的一种简单而有效的正则化方式。 本文将向你介绍dropout正则化技术,并且教你如何在Keras中用Python将其应用于你的模型。 读完本文之后,你将了
    发表于 10-10 10:38 2次下载

    SDR的技术原理介绍及案例分析

    本文档通俗地介绍SDR的技术原理:先简单介绍SDR的概念,SDR系统的分类,基于GPP的SDR系统,接着详细介绍SDR系统原理,最后再以
    发表于 11-21 18:43 3.7w次阅读
    <b class='flag-5'>SDR</b>的技术原理介绍及案例分析

    基于动态dropout的改进堆叠自动编码机方法

    针对堆叠自动编码机( SA)容易产生过拟合而降低垃圾邮件分类精度的问题,提出了一种基于动态dropout的改进堆叠自动编码机方法。首先分析了垃圾邮件分类问题的特殊性,将dropout算法引入到堆叠
    发表于 12-26 14:37 0次下载
    基于动态<b class='flag-5'>dropout</b>的改进堆叠自动编码机方法

    执行节点分析时的特殊情况介绍

    当我们在设计电子电路时,了解流过元件的电流量或电路中特定节点在其工作的关键点存在多少电压始终是很重要的。使用基尔霍夫电路定律可以完成任一测量。允许我们找到这些值的两种分析类型是网格分析和节点分析。如果我们试图在一个点(节点)找到电压,那么我们可以使用基尔霍夫电流定律(KCL)进行节点分析。
    的头像 发表于 09-01 09:23 4017次阅读
    执行节点分析时的<b class='flag-5'>特殊情况</b>介绍

    特殊情况下,封装压电陶瓷可倒置使用

    在通常情况下,封装式压电陶瓷默认为正立使用,即移动端在上方,带载后进行垂直方向的升降运动控制调节。但在特殊情况下,封装压电陶瓷也可以横向或倒置使用,但在这两种情况下,必须提前告知,在生产时我们会进行
    发表于 09-10 14:48 767次阅读

    SINUMERIK 808D诊断手册免费下载

    本手册主要帮助目标使用人群来识别错误和故障,并做相应的响应措施。 使用它操作者可以对机床进行: • 在操作机床时,正确地识别特殊情况。 • 在特殊情况下,确定系统的反应。 • 发生特殊情况后,采用各种可能措施以便继续操作
    发表于 06-06 09:51 3次下载