0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入浅出地介绍了牛顿法、动量法、RMSProp、Adam优化算法

zhKF_jqr_AI 来源:未知 作者:李倩 2018-10-08 09:15 次阅读

编者按:DRDO研究人员Ayoosh Kathuria深入浅出地介绍了牛顿法、动量法、RMSProp、Adam优化算法

本系列的上一篇文章介绍了随机梯度下降,以及如何应对陷入局部极小值或鞍点的问题。在这篇文章中,我们将查看另一个困扰神经网络训练的问题,病态曲率。

局部极小值和鞍点会使训练停滞,而病态曲率则会减慢训练速度,以至于机器学习从业者可能会觉得搜索收敛到了一个次优极小值。让我们深入了解下什么是病态曲率。

病态曲率

考虑下面的损失曲面。

如你所见,我们从随机点开始,渐渐进入蓝色的沟壑区。(颜色表示损失函数在特定点的值是高是低,红色表示高值,蓝色表示低值。)

在到达最小值之前,我们需要首先穿过沟壑区,也就是病态曲率。让我们放大一下这一区域,看看为什么称病态?

红线为梯度下降的路径;蓝线为理想路径

如上图所示,梯度下降在沟壑区的脊间反复振荡,极其缓慢地向最小值处移动。这是因为w1方向要陡峭得多。

考虑下图中A点的梯度,可以分解为w1、w2方向的两个分量。w1方向的梯度要大很多,因此梯度的方向大为偏向w1,而不是w2(但w2才是能够更快到达最小值处的梯度方向)。

通常情况下,我们使用低学习率来应对这样的反复振荡,但在病态曲率区域使用低学习率,可能要花很多时间才能达到最小值处。事实上,有论文报告,防止反复振荡的足够小的学习率,也许会导致从业者相信损失完全没有改善,干脆放弃训练。

大概,我们需要找到一种方法,首先缓慢地进入病态曲率的平坦底部,然后加速往最小值方向移动。二阶导数可以帮助我们做到这一点。

牛顿法

梯度下降是一阶优化方法。它只考虑损失函数的一阶导数,不考虑高阶函数。基本上这意味着它对损失函数的曲率一无所知。梯度下降可以告诉我们损失是否下降,下降得有多快,但无法区分曲线的的弯曲程度。

上图三条曲线,红点处的梯度都是一样的,但曲率大不一样。解决方案?考虑二阶导数,或者说梯度改变得有多快。

使用二阶导数解决这一问题的一个非常流行的技术是牛顿法(Newton's Method)。为了避免偏离本文的主题,我不会过多探究牛顿法的数学。相反,我将尝试构建牛顿法的直觉。

牛顿法可以提供向梯度方向移动的理想步幅。由于我们现在具备了损失曲面的曲率信息,步幅可以据此确定,避免越过病态曲率的底部。

牛顿法通过计算Hessian矩阵做到这一点。Hessian矩阵是损失函数在所有权重组合上的二阶导数的矩阵。

Hessian提供了损失曲面每一点上的曲率估计。正曲率意味着随着我们的移动,损失曲面变得不那么陡峭了。负曲率则意味着,损失曲面变得越来越陡峭了。

注意,如果这一步的计算结果是负的,那就意味着我们可以切换回原本的算法。这对应于下面梯度变得越来越陡峭的情形。

然而,如果梯度变得越来越不陡峭,那么我们也许正向病态曲率的底部移动。这时牛顿算法提供了一个修正过的学习步幅,和曲率成反比。换句话说,如果损失曲面变得不那么陡峭,学习步幅就下降。

为何我们不常使用牛顿法?

你已经看到公式中的Hessian矩阵了。Hessian矩阵需要我们计算损失函数在所有权重组合上的梯度。也就是说,需要做的计算的数量级是神经网络所有权重数量的平方。

现代神经网络架构的参数量可能是数亿,计算数亿的平方的梯度在算力上不可行。

虽然高阶优化方法在算力上不太可行,但二阶优化关于纳入梯度自身如何改变的想法是可以借鉴的。虽然我们无法准确计算这一信息,但我们可以基于之前梯度的信息使用启发式算法引导优化过程。

动量

搭配SGD使用的一个非常流行的技术是动量(Momentum)。动量法不仅使用当前的梯度,同时还利用之前的梯度提供的信息。

上面的第一个等式就是动量,动量等式由两部分组成,第一项是上一次迭代的动量,乘以“动量系数”。

比如,假设我们将初始动量v设为0,系数定为0.9,那么后续的更新等式为:

我们看到,后续的更新保留了之前的梯度,但最近的梯度权重更高。(致喜欢数学的读者,这是梯度的指数平均。)

下面我们来看看动量法如何帮助我们缓解病态曲率的问题。下图中,大多数梯度更新发生在之字形方向上,我们将每次更新分解为w1和w2方向上的两个分量。如果我们分别累加这些梯度的两个分量,那么w1方向上的分量将互相抵消,而w2方向上的分量得到了加强。

也就是说,基于动量法的更新,积累了w2方向上的分量,清空了w1方向上的分量,从而帮助我们更快地通往最小值。从这个意义上说,动量法也有助于抑制振荡。

动量法同时提供了加速度,从而加快收敛。但你可能想要搭配模拟退火,以免跳过最小值。

在实践中,动量系数一般初始化为0.5,并在多个epoch后逐渐退火至0.9.

RMSProp

RMSProp,也就是均方根传播的历史很有趣。它是传奇人物Geoffrey Hinton在Coursera授课时初次提出的。

RMSProp也试图抑制振荡,但采取的方法和动量不同。此外,RMSProp可以自动调整学习率。还有,RMSProp为每个参数选定不同的学习率。

在第一个等式中,类似之前的动量法,我们计算了梯度平方的指数平均。由于我们为每个参数单独计算,这里的梯度gt表示正更新的参数上的梯度投影。

第二个等式根据指数平均决定步幅大小。我们选定一个初始学习率η,接着除以平均数。在我们上面举的例子中,w1的梯度指数平均比w2大得多,所以w1的学习步幅比w2小得多。这就帮助我们避免了脊间振荡,更快地向最小值移动。

第三个等式不过是权重更新步骤。

上面的等式中,超参数ρ一般定为0.9,但你可能需要加以调整。等式2中的ε是为了确保除数不为零,一般定为1e-10.

注意RMSProp隐式地应用了模拟退火。在向最小值移动的过程中,RMSProp会自动降低学习步幅,以免跳过最小值。

Adam

Adam,即Adaptive Moment Optimization算法结合了动量和RMSProp的启发式算法。

这里,我们计算了梯度的指数平均和梯度平方的指数平均(等式1和等式2)。为了得出学习步幅,等式3在学习率上乘以梯度的平均(类似动量),除以梯度平方平均的均方根(类似RMSProp)。等式4是权重更新步骤。

超参数β1一般取0.9,β2一般取0.99. ε一般定为1e-10.

结语

本文介绍了三种应对病态曲率同时加速训练过程的梯度下降方法。

在这三种方法之中,也许动量法用得更普遍,尽管从论文上看Adam更吸引人。经验表明这三种算法都能收敛到给定损失曲面的不同的最优局部极小值。然而,动量法看起来要比Adam更容易找到比较平坦的最小值,而自适应方法(自动调整学习率)倾向于迅速地收敛于较尖的最小值。比较平坦的最小值概括性更好。

尽管这些方法有助于我们驯服深度网络难以控制的损失平面,随着网络日益变深,它们开始变得不够用了。除了选择更好的优化方法,有相当多的研究试图寻找能够生成更平滑的损失曲面的架构。批量归一化(Batch Normalization)和残差连接(Residual Connections)正是这方面的两个例子。我们会在后续的文章中详细介绍它们。但这篇文章就到此为止了

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4778

    浏览量

    101024
  • 函数
    +关注

    关注

    3

    文章

    4345

    浏览量

    62864

原文标题:深度学习优化算法入门:二、动量、RMSProp、Adam

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    深居AutoCAD二次开发

    深居AutoCAD二次开发,net版
    发表于 01-06 14:12 0次下载

    深入浅出RISC-V调试

    ;DTM模块 在DTM模块里实现一个TAP控制器(状态机),其中IR寄存器的长度最少为5位,当TAP控制器复位时,IR的值默认为5\'b00001,即选择的是IDCODE寄存器。DTM模块的寄存器(DR
    发表于 11-28 22:00

    数学建模(2)--TOPSIS

    @TOC 概括 TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution )是C.L.Hwang
    发表于 09-06 16:38

    节点电压和回路电流的选取原则

    节点电压和回路电流是电路分析中两种常用的方法。它们各有优缺点,适用于不同的电路类型和分析需求,它们的选择原则主要基于电路的特性和求解的便利性。以下是对这两种方法选取原则的介绍: 节点电压
    的头像 发表于 08-09 17:22 2078次阅读

    回路电流和节点电压适用范围

    回路电流和节点电压是电路分析中两种常用的方法,它们各自具有不同的适用范围和优势。 回路电流适用范围 回路电流,简称回路,是以回路电
    的头像 发表于 08-09 17:18 1884次阅读

    回路电流和支路电流的实质是什么

    回路电流和支路电流是电路分析的两种基本方法,它们在电路设计和分析中具有重要的应用价值。 一、引言 电路是电子技术的基础,而电路分析则是电路设计和应用的关键。在电路分析中,有两种基本的方法:回路
    的头像 发表于 08-09 17:13 1001次阅读

    深入浅出系列之代码可读性

    原创声明:该文章是个人在项目中亲历后的经验总结和分享,如有搬运需求请注明出处。 这是“深入浅出系列”文章的第一篇,主要记录和分享程序设计的一些思想和方法论,如果读者觉得所有受用,还请“一键三连
    的头像 发表于 08-09 16:00 287次阅读

    开路电压和短路电流的优缺点

    开路电压和短路电流是两种常用的电路分析方法,它们在电路设计和分析中有着广泛的应用。 一、开路电压 开路电压的定义 开路电压是一种基
    的头像 发表于 08-07 14:33 4180次阅读

    节点电压的实质是什么

    的未知量。以下是对节点电压介绍: 节点电压的基本概念 节点电压的基本思想是将电路中的每一个节点(除了参考节点)都赋予一个电压值,然后通过求解这些节点电压来得到电路中的电流和电压
    的头像 发表于 08-06 17:08 1164次阅读

    电源纹波平行线与靠测的区别

    电源纹波是电源输出电压中的高频波动,它会影响电子设备的正常工作。为了测量电源纹波,通常采用两种方法:平行线和靠测。 平行线 平行线是一种常用的电源纹波测量方法,其原理是将待测电
    的头像 发表于 08-02 09:43 811次阅读

    自然语言列举描述各自的特点

    自然语言文本。在自然语言处理中,列举和描述是两种常见的方法。 列举 列举是一种基于规则的方法,它通过列举所有可能的情况来解决问题。在自然语言处理中,列举
    的头像 发表于 07-03 14:13 1149次阅读

    基于动EDA电磁大脑EMOptimizer®独创快速产生模拟/射频电路图及其优化结果

    EMOptimizer基于动EDA电磁大脑,独创快速产生模拟/射频电路图及其优化结果。EMOptimizer由中国射频EDA领军品牌动EDA研发成功。
    的头像 发表于 03-17 14:56 1490次阅读
    基于<b class='flag-5'>法</b>动EDA电磁大脑EMOptimizer®独创快速产生模拟/射频电路图及其<b class='flag-5'>优化</b>结果

    网孔电流和回路电流怎么选择比较好

    网孔电流和回路电流是电路分析中常用的两种方法。它们在分析复杂电路时都能产生较好的结果,但在选择使用哪种方法时,需要考虑电路的结构、目标和实际情况等因素。 首先,我们来了解一下网孔电流。网孔电流
    的头像 发表于 03-01 11:02 1935次阅读

    深入浅出理解三极管

    记忆(比如在介绍相对论中引力扭曲时空的概念时,国外科学家们就用生活中的漩涡,或者在弹性膜中间的重球,来类比星体引力对时空的影响,这样会大大简化我们学习、理解和记忆的过程,这种学习方法被称为类比学习)。 我们
    的头像 发表于 02-23 08:41 742次阅读
    <b class='flag-5'>深入浅出</b>理解三极管

    节点电压怎么列方程 节点电压流入为正还是负

    节点电压(Node Voltage Method)是一种用于解析电路中各节点电压的分析方法,也是电路分析中的一项重要技术。本文将详细介绍节点电压的基本原理和应用。 一、节点电压
    的头像 发表于 01-30 11:20 6421次阅读