一文看懂常用的梯度下降算法 - 全文

编辑：祝鑫泉

一

概述

梯度下降算法（Gradient Descent Optimization）是神经网络模型训练最常用的优化算法。对于深度学习模型，基本都是采用梯度下降算法来进行优化训练的。梯度下降算法背后的原理：目标函数

关于参数

的梯度将是目标函数上升最快的方向。对于最小化优化问题，只需要将参数沿着梯度相反的方向前进一个步长，就可以实现目标函数的下降。这个步长又称为学习速率

。参数更新公式如下：

其中

是参数的梯度，根据计算目标函数

采用数据量的不同，梯度下降算法又可以分为批量梯度下降算法（Batch Gradient Descent），随机梯度下降算法（Stochastic GradientDescent）和小批量梯度下降算法（Mini-batch Gradient Descent）。对于批量梯度下降算法，其

是在整个训练集上计算的，如果数据集比较大，可能会面临内存不足问题，而且其收敛速度一般比较慢。随机梯度下降算法是另外一个极端，

是针对训练集中的一个训练样本计算的，又称为在线学习，即得到了一个样本，就可以执行一次参数更新。所以其收敛速度会快一些，但是有可能出现目标函数值震荡现象，因为高频率的参数更新导致了高方差。小批量梯度下降算法是折中方案，选取训练集中一个小批量样本计算

，这样可以保证训练过程更稳定，而且采用批量训练方法也可以利用矩阵计算的优势。这是目前最常用的梯度下降算法。

对于神经网络模型，借助于BP算法可以高效地计算梯度，从而实施梯度下降算法。但梯度下降算法一个老大难的问题是：不能保证全局收敛。如果这个问题解决了，深度学习的世界会和谐很多。梯度下降算法针对凸优化问题原则上是可以收敛到全局最优的，因为此时只有唯一的局部最优点。而实际上深度学习模型是一个复杂的非线性结构，一般属于非凸问题，这意味着存在很多局部最优点（鞍点），采用梯度下降算法可能会陷入局部最优，这应该是最头疼的问题。这点和进化算法如遗传算法很类似，都无法保证收敛到全局最优。因此，我们注定在这个问题上成为“高级调参师”。可以看到，梯度下降算法中一个重要的参数是学习速率，适当的学习速率很重要：学习速率过小时收敛速度慢，而过大时导致训练震荡，而且可能会发散。理想的梯度下降算法要满足两点：收敛速度要快；能全局收敛。为了这个理想，出现了很多经典梯度下降算法的变种，下面将分别介绍它们。

Momentum optimization

冲量梯度下降算法是BorisPolyak在1964年提出的，其基于这样一个物理事实：将一个小球从山顶滚下，其初始速率很慢，但在加速度作用下速率很快增加，并最终由于阻力的存在达到一个稳定速率。对于冲量梯度下降算法，其更新方程如下：

一文看懂常用的梯度下降算法

可以看到，参数更新时不仅考虑当前梯度值，而且加上了一个积累项（冲量），但多了一个超参

一文看懂常用的梯度下降算法

，一般取接近1的值如0.9。相比原始梯度下降算法，冲量梯度下降算法有助于加速收敛。当梯度与冲量方向一致时，冲量项会增加，而相反时，冲量项减少，因此冲量梯度下降算法可以减少训练的震荡过程。TensorFlow中提供了这一优化器：tf.train.MomentumOptimizer(learning_rate=learning_rate,momentum=0.9)。

NAG

NAG算法全称Nesterov Accelerated Gradient,是YuriiNesterov在1983年提出的对冲量梯度下降算法的改进版本，其速度更快。其变化之处在于计算“超前梯度”更新冲量项，具体公式如下：

一文看懂常用的梯度下降算法

既然参数要沿着

一文看懂常用的梯度下降算法

更新，不妨计算未来位置

一文看懂常用的梯度下降算法

的梯度，然后合并两项作为最终的更新项，其具体效果如图1所示，可以看到一定的加速效果。在TensorFlow中，NAG优化器为：tf.train.MomentumOptimizer(learning_rate=learning_rate,momentum=0.9, use_nesterov=True)

一文看懂常用的梯度下降算法

图1 NAG效果图

AdaGrad

AdaGrad是Duchi在2011年提出的一种学习速率自适应的梯度下降算法。在训练迭代过程，其学习速率是逐渐衰减的，经常更新的参数其学习速率衰减更快，这是一种自适应算法。其更新过程如下：

一文看懂常用的梯度下降算法

其中是梯度平方的积累量，在进行参数更新时，学习速率要除以这个积累量的平方根，其中加上一个很小值是为了防止除0的出现。由于是该项逐渐增加的，那么学习速率是衰减的。考虑如图2所示的情况，目标函数在两个方向的坡度不一样，如果是原始的梯度下降算法，在接近坡底时收敛速度比较慢。而当采用AdaGrad，这种情况可以被改观。由于比较陡的方向梯度比较大，其学习速率将衰减得更快，这有利于参数沿着更接近坡底的方向移动，从而加速收敛。

一文看懂常用的梯度下降算法

图2 AdaGrad效果图

前面说到AdaGrad其学习速率实际上是不断衰减的，这会导致一个很大的问题，就是训练后期学习速率很小，导致训练过早停止，因此在实际中AdaGrad一般不会被采用，下面的算法将改进这一致命缺陷。不过TensorFlow也提供了这一优化器：tf.train.AdagradOptimizer。

RMSprop

RMSprop是Hinton在他的课程上讲到的，其算是对Adagrad算法的改进，主要是解决学习速率过快衰减的问题。其实思路很简单，类似Momentum思想，引入一个超参数，在积累梯度平方项进行衰减：

一文看懂常用的梯度下降算法

可以认为仅仅对距离时间较近的梯度进行积累，其中一般取值0.9，其实这样就是一个指数衰减的均值项，减少了出现的爆炸情况，因此有助于避免学习速率很快下降的问题。同时Hinton也建议学习速率设置为0.001。RMSprop是属于一种比较好的优化算法了，在TensorFlow中当然有其身影：tf.train.RMSPropOptimizer(learning_rate=learning_rate,momentum=0.9, decay=0.9, epsilon=1e-10)。

不得不说点题外话，同时期还有一个Adadelta算法，其也是Adagrad算法的改进，而且改进思路和RMSprop很像，但是其背后是基于一次梯度近似代替二次梯度的思想，感兴趣的可以看看相应的论文，这里不再赘述。

Adam

Adam全称Adaptive moment estimation，是Kingma等在2015年提出的一种新的优化算法，其结合了Momentum和RMSprop算法的思想。相比Momentum算法，其学习速率是自适应的，而相比RMSprop，其增加了冲量项。所以，Adam是两者的结合体：

一文看懂常用的梯度下降算法

可以看到前两项和Momentum和RMSprop是非常一致的，由于和的初始值一般设置为0，在训练初期其可能较小，第三和第四项主要是为了放大它们。最后一项是参数更新。其中超参数的建议值是

一文看懂常用的梯度下降算法

。Adm是性能非常好的算法，在TensorFlow其实现如下： tf.train.AdamOptimizer(learning_rate=0.001,beta1=0.9, beta2=0.999, epsilon=1e-08)。

二

学习速率

前面也说过学习速率的问题，对于梯度下降算法，这应该是一个最重要的超参数。如果学习速率设置得非常大，那么训练可能不会收敛，就直接发散了；如果设置的比较小，虽然可以收敛，但是训练时间可能无法接受；如果设置的稍微高一些，训练速度会很快，但是当接近最优点会发生震荡，甚至无法稳定。不同学习速率的选择影响可能非常大，如图3所示。

一文看懂常用的梯度下降算法

图3 不同学习速率的训练效果

理想的学习速率是：刚开始设置较大，有很快的收敛速度，然后慢慢衰减，保证稳定到达最优点。所以，前面的很多算法都是学习速率自适应的。除此之外，还可以手动实现这样一个自适应过程，如实现学习速率指数式衰减：

一文看懂常用的梯度下降算法

在TensorFlow中，你可以这样实现：

initial_learning_rate = 0.1
decay_steps = 10000
decay_rate = 1/10
global_step = tf.Variable(0, trainable=False)
learning_rate = tf.train.exponential_decay(initial_learning_rate,
global_step, decay_steps, decay_rate)
# decayed_learning_rate = learning_rate *
# decay_rate ^ (global_step / decay_steps)
optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.9)
training_op = optimizer.minimize(loss, global_step=global_step)

三

总结

本文简单介绍了梯度下降算法的分类以及常用的改进算法，总结来看，优先选择学习速率自适应的算法如RMSprop和Adam算法，大部分情况下其效果是较好的。还有一定要特别注意学习速率的问题。其实还有很多方面会影响梯度下降算法，如梯度的消失与爆炸，这也是要额外注意的。最后不得不说，梯度下降算法目前无法保证全局收敛还将是一个持续性的数学难题。

四

参考文献

Anoverview of gradient descent optimization algorithms: .

Hands-OnMachine Learning with Scikit-Learn and TensorFlow, Aurélien Géron, 2017.

NAG:.

Adagrad:.

RMSprop:~tijmen/csc321/slides/lecture_slides_lec6.pdf.

Adadelta:https://arxiv.org/pdf/1212.5701v1.pdf.

Adam:https://arxiv.org/pdf/1412.6980.pdf.

不同的算法的效果可视化：https://imgur.com/a/Hqolp.

欢迎大家加群在群中探讨

欢迎留言或赞赏。

推

荐

阅

读

Object Detection R-CNN

扫描个人微信号，

拉你进机器学习大牛群。

福利满满，名额已不多…

80%的AI从业者已关注我们微信公众号

阅读全文

上一页 1 2 3 4全文

一文看懂常用贴片电感封装规格可以升级吗

一文看懂常用贴片电感封装规格可以升级吗编辑：谷景电子贴片电感作为电感产品中非常重要的一个类型，它的应用普及度是非常广泛的。可以说在各种大家熟悉的电子产品中都能看到贴片电感的身影。关于贴片电感的类型

2022-12-17 14:25:46

一文看懂LoraNET协议

的次数也可配置，以便根据实际应用的功耗需求，取一个功耗和可靠性的折中方案。2、带防碰撞算法的定时主动上报LORA模块自带的LoraNET协议栈，支持防碰撞算法，当大量LORA模块在同一个区域内上报

2020-12-13 21:47:48

一文看懂PID算法

滞后的被控对象，比例+微分(PD)控制器能改善系统在调节过程中的动态特性。综上所述得到一个一条公式，这个就是模拟PID下面是关于应用，增量式PID算法。其实PID的算法可以做很深，但没必要，一

2018-07-19 16:54:49

一文看懂芯片设计

的电路图。图中可以看到蓝、红、绿、黄等不同颜色，每种不同的颜色就代表着一张光罩。至于光罩究竟要如何运用呢？▲ 常用的演算芯片- FFT 芯片，完成电路布局与绕线的结果。1层层光罩，叠起一颗芯片　　首先

2016-06-29 11:13:51

一文教你如何看懂电源电路单元

组成的。因此初学者只要先熟悉常用的基本单元电路，再学会分析和分解电路的本领，看懂一般的电路图应该是不难的。按单元电路的功能可以把它们分成若干类，每一类又有好多种，全部单元电路大概总有几百种。下面我们选

2019-02-20 18:33:27

一堂课帮你搞定PID算法

/1399.html这三种是最简单的基本算法，各有其特点，一般能满足控制的大部份要求，而本课程也主要针对这三种算法进行详细讲解。本课程主要讲解什么？常用的控制算法与PID控制算法的异同点；PID控制算法的理论分析

2018-07-25 14:21:23

常用的一些PID算法有哪些？

PID的原理是什么？常用的一些PID算法有哪些？

2022-01-21 06:48:09

常用的校验算法有哪些？

常用的校验算法有哪些，是不是和通信规约有关。比如MODBUS一般都用CRC16（不确定是不是叫这个）。这些校验算法是之前积累下来的吗。自己也可以定义一个校验算法吧，只要发送端和接收端用同一个算法就可以？比较常见的校验有哪些呢。

2023-11-03 06:50:59

常用的经典滤波算法有哪些？？

2012-07-01 15:15:23

梯度更新算法的选择

深度学习入门（四）梯度更新算法的选择(附执行代码)

2020-06-09 11:02:14

AD转换常用滤波算法

2016-08-01 10:46:57

AI算法中比较常用的模型都有什么？

AI算法中比较常用的模型都有什么

2022-08-27 09:19:06

C语言实现常用排序算法是什么？

2021-10-19 06:41:46

MATLAB多维极值之单纯形法算法原理

一、算法原理1、问题引入在之前讲解过的多维极值的算法中（最速下降法、牛顿法、共轭梯度法、拟牛顿法等），我们都利用了目标函数的导数值，因为函数的导数值是函数性态的反应。但在实际的工程应用中，会出现目标

2021-08-17 09:24:08

MATLAB语言常用算法程序集

2012-05-10 22:26:13

Matlab数学建模常用的十大算法

2012-05-20 17:33:09

TensorFlow优化器种类及其用法详解

高中数学学过，函数在一阶导数为零的地方达到其最大值和最小值。梯度下降算法基于相同的原理，即调整系数（权重和偏置）使损失函数的梯度下降。在回归中，使用梯度下降来优化损失函数并获得系数。本节将介绍

2020-07-28 14:39:34

canny算法的具体程序

求助canny算法的具体步骤程序啊，老师不让直接使用canny函数，不会啊，泪奔。步骤如下：1.用高斯滤波器平滑图像．2.用一阶偏导有限差分计算梯度幅值和方向.3.对梯度幅值进行非极大值抑制．4.用双阈值算法检测和连接边缘.求程序啊

2013-09-29 22:52:14

c语言常用算法

非常实用的《c语言常用算法程序集》针对工程中常用的行之有效的算法而编写，其主要内容包括多项式的计算、复数运算、随机数的产生、矩阵运算、矩阵特征值与特征向量的计算、线性代数方程组的求解、非线性

2022-04-11 16:41:52

keras内置的7个常用的优化器介绍

=0.004)上述优化器可以分为两类：1 梯度下降算法类 2 自适应学习率类。这些算法的基础都是梯度下降算法，只是在梯度下降算法的基础上做了一些优化。 1 梯度下降算法包括基础的梯度下降算法、批量梯度下降

2023-08-18 06:32:13

【最新课程推荐】PID控制算法

发烧友学院提供，本次课程主要讲解常用的控制算法与PID控制算法的异同点；PID控制算法的理论分析；基于单片机的PID算法实现；PID算法的工程应用的一些注意事项；演示板电路分析；PID算法C语言

2016-10-12 15:27:27

【转帖】一文教你看懂电路图

少数几个单元电路组成的。只要先熟悉常用的基本单元电路，再学会分析和分解电路的本领，看懂一般的电路图应该是不难的。一、电子电路的意义电路图是人们为了研究和工程的需要，用约定的符号绘制的一种表示电路结构

2018-04-03 15:20:57

从梯度下降法、牛顿法到拟牛顿法它们的联系与区别是什么

从梯度下降法、牛顿法到拟牛顿法，浅谈它们的联系与区别

2020-05-21 11:06:52

分享一个自己写的机器学习_Logistic分类算法

假设函数：代价函数：利用极大似然估计代价函数实现了凸函数特征梯度下降算法：设定初始值收敛至局部最小值

2018-10-18 12:25:14

分享一个自己写的机器学习线性回归梯度下降算法

单变量线性回归算法，利用Batch梯度梯度下降算法迭代计算得到误差最小的代价函数theta0,theta1。调节学习率a可以观察拟合得到的函数和代价函数误差收敛情况。

2018-10-02 21:48:58

单片机C语言常用算法

2014-10-03 16:58:44

回归算法有哪些，常用回归算法（3种）详解

回归是数学建模、分类和预测中最古老但功能非常强大的工具之一。回归在工程、物理学、生物学、金融、社会科学等各个领域都有应用，是数据科学家常用的基本工具。回归通常是机器学习中使用的第一个算法。通过学习

2020-07-28 14:36:05

如何看懂电路图

的555电路如何看懂电路图1－－学电子跟我来系列文章top电子设备中有各种各样的图。能够说明它们工作原理的是电原理图，简称电路图。电路图有两种，一种是说明模拟电子电路工作原理的。它用各种图形符号表

2014-04-15 16:23:11

如何更新权重实现梯度下降

实现梯度下降

2019-07-15 10:09:11

怎样学会去用并看懂快速傅里叶变换等算法

本人学过点51单片机看到别人做的东西都跑了算法自己也好奇想自己也尝试下在网上看到那些代码没太看懂请教下各位大神怎么去学看懂这些算法我也学过复变信号与系统但是只是考考试没怎么去用过所以想请教一下多谢各位大神了！！！

2016-11-22 01:16:20

机器学习新手必学的三种优化算法（牛顿法、梯度下降法、最速下降法）

转换的算法复杂度是非常高的（O(n³)），因此牛顿法在这种情形下并不常用。梯度下降梯度下降是目前为止在机器学习和其他优化问题中使用的最多的优化算法。梯度算法的基本思想是，在每次迭代中向梯度方向走一

2019-05-07 08:30:00

深度学习RCNN算法

目标检测算法图解：一文看懂RCNN系列算法

2019-08-29 09:50:56

电机控制之常用算法概述（3）

和驱动顺序是不变的。未完待续！！本文相关文章1､电机控制之常用算法概述（1）2､电机控制之常用算法概述（2）

2018-10-29 16:45:58

电机控制之常用算法概述（4）

产生随时间变化的电压。其开关频率范围一般为10-20 KHz，以消除噪声。这一通用电机的控制方法可以获得更佳的电流控制和更佳的EMI性能，因此，效率更高。本文相关文章1､电机控制之常用算法概述（1）2､电机控制之常用算法概述（2）3､电机控制之常用算法概述（3）

2018-10-26 11:00:57

电源常用技术与算法

电源常用技术与算法2.1有效值检波技术2.1.1均值检波技术2.1.2峰值检波技术2.1.3均方根值检波技术2.2高精度采样技术2.2.1AD的选择2.2.1.1A/D转换器的性能指标

2021-07-26 08:09:08

电源常用技术与算法是什么？

2021-09-27 06:40:27

经典常用算法（源程序_Matlab）

2013-12-12 00:24:22

经典算法大全（51个C语言算法+单片机常用算法+机器学十大算法）

算法的描述：是对要解决一个问题或要完成一项任务所采取的方法和步骤的描述，包括需要什么数据（输入什么数据、输出什么结果）、采用什么结构、使用什么语句以及如何安排这些语句等。通常使用自然语言、结构化

2018-10-23 14:31:12

请问改进的Ferret算法和目前常用的测量算法有哪些不同？

数字图像处理原理是什么？简单Ferret算法原理是什么？改进的Ferret算法原理有哪些步骤？改进的Ferret算法和目前常用的测量算法有哪些不同？

2021-04-15 06:58:37

轻松看懂机器学习十大常用算法

`通过本篇文章可以对ML的常用算法有个常识性的认识，没有代码，没有复杂的理论推导，就是图解一下，知道这些算法是什么，它们是怎么应用的，例子主要是分类问题。每个算法都看了好几个视频，挑出讲的最清晰明了

2017-08-02 16:58:02

火电站负荷调度混沌变步长混合遗传算法

结合混沌运动的遍历性和遗传算法的群体搜索性,提出一种基于混沌变尺度梯度下降的混合遗传算法,应用于电厂负荷优化调度。算法采用梯度下降法对遗传变异获得的优良个体进行局

2009-02-05 12:13:16

基于预条件共轭梯度法的混凝土层析成像

根据常规图像重建的共轭梯度迭代算法，提出一种预条件共轭梯度法。用一种新的预条件子M来改善系数矩阵的条件数，结合一般的共轭梯度法，导出预条件共轭梯度法。实验结果表

2009-04-10 09:08:41

基于边缘梯度方向直方图的图像检索算法

在基于内容的图像检索中，不同图像对形状细节的要求不同及形状特征对旋转的敏感性，影响检索性能。对此，本文提出了一种基于边缘梯度方向直方图的图像检索算法：利用B样

2009-06-25 14:03:26

磁共振成像梯度放大器控制算法

针对磁共振成像梯度放大器的性能要求，本文提出了一种使用状态反馈和比例积分相结合的控制算法。文章首先介绍了放大器的主电路结构和部分参数，并对输出滤波器的参数做了

2010-02-18 12:43:05

传感器网络定向扩散机制中梯度生成算法的研究

如何生成优化的梯度是传感器网络定向扩散中的一个关键问题, 本文在分析一种基本梯度生成算法的问题基础之上,利用兴趣包的转发次数对其进行改进, 设计了一种分布式的最短

2010-09-28 15:49:31

随机梯度估值在盲均衡算法中的影响

该文引人随机梯度估值，在梯度向量中加入噪声成分，结合梯度估值引起的权偏差相关系数，分析其对盲均衡算法的影响．理论研究和仿真结果表明，随机梯度估值引起权值偏差，影响

2012-03-07 14:41:04

[9.5.1]--9.5梯度下降法和反向传播算法

算法

学习电子知识发布于 2023-02-17 20:17:35

Matlab语言常用算法程序集

Matlab语言常用算法程序集，又需要的下来看看。

2016-05-19 14:31:12

基于多新息随机梯度算法的网侧变流器参数辨识方法研究

基于多新息随机梯度算法的网侧变流器参数辨识方法研究_张敏

2017-01-02 15:24:00

随机并行梯度下降图像匹配方法性能研究及优化_李松洋

2017-03-14 08:00:00

单片机常用算法设计

单片机常用算法归纳

2017-04-05 14:01:34

基于梯度下降法和互补滤波的航向姿态参考系统

针对微型无人机航向姿态参考系统低成本、小型化的工程实现需求，基于三轴陀螺仪、加速度计和磁力计，提出了一种在线实时姿态估计算法。该算法采用四元数描述系统模型，采用改进的梯度下降法预处理加速度计和磁力计

2017-11-16 10:29:24

一种结合梯度下降法的二层搜索粒子群算法

针对标准粒子群优化（PSO）算法在求解复杂优化问题中出现的早熟收敛问题，提出一种结合梯度下降法的二次搜索粒子群算法。首先，当全局极值超过预设的最大不变迭代次数时，判断全局极值点处于极值陷阱中；然后

2017-11-27 17:28:12

一种改进的梯度投影算法

的Barzilai-Borwein （B-B）梯度投影（Barzilai-Borwein Gradient Projection for Sparse Reconstruction，GPSR-BB）算法的基础上，采用预测校正

2017-11-27 18:09:33

机器学习：随机梯度下降和批量梯度下降算法介绍

随机梯度下降（Stochastic gradient descent）批量梯度下降（Batch gradient descent）梯度下降（GD）是最小化风险函数、损失函数的一种常用方法，随机

2017-11-28 04:00:28

8197

一种改进扩展卡尔曼的四旋翼姿态估计算法

为了提高标准扩展卡尔曼姿态估计算法的精确度和快速性，将运动加速度抑制的动态步长梯度下降算法融入扩展卡尔曼中，提出一种改进扩展卡尔曼的四旋翼姿态估计算法。该算法在卡尔曼测量更新中采用梯度下降法进行

2017-12-04 11:31:26

改进蚁群算法求解多约束服务质量路由

针对目前多数改进蚁群算法求解多约束服务质量路由（ QoSR）存在收敛速度慢、易陷入局部最优从而效率不高的问题，提出一种引入梯度下降的蚁群算法（ ACAGD）。该算法将梯度下降法引入到蚁群的局部搜索

2017-12-05 15:28:23

一种解决连续问题的真实在线自然梯度行动者-评论家算法

式自然梯度行动者一评论家算法（TOINAC）.TOINAC算法采用优于传统梯度的自然梯度，在真实在线时间差分（TOTD）算法的基础上。提出了一种新型的向前观点，改进了自然梯度行动者一评论家算法．在评论家部分，利用TOTD算法高效性的特点

2017-12-19 16:14:37

基于灰度平均梯度与粒子群优化PSO算法的散焦图像模糊参数估计

针对散焦模糊图像的复原问题，提出一种基于灰度平均梯度与粒子群优化（PSO）算法相结合的散焦图像模糊参数估计方法。首先，利用PSO算法随机生成一群不同模糊半径的点扩散函数，分别用维纳滤波算法处理模糊

2017-12-21 09:27:42

基于梯度角度的直方图HGA的图像匹配算法

针对传统的局部特征描述子在图像匹配效果和效率上很难兼顾的问题，提出了一种基于梯度角度的直方图（ HGA）的图像匹配算法。该算法先通过加速片段测试特征（FAST）获取的图像关键点，然后采用块梯度计算

2018-01-12 11:42:14

从方向导数这个角度来解析梯度的负方向为什么是局部下降最快的方向

刚接触梯度下降这个概念的时候，是在学习机器学习算法的时候，很多训练算法用的就是梯度下降，然后资料和老师们也说朝着梯度的反方向变动，函数值下降最快，但是究其原因的时候，很多人都表达不清楚。所以我整理出自己的理解，从方向导数这个角度把这个结论证明出来，让我们知其然也知其所以然。

2018-02-05 13:42:13

9340

计算机常用算法设计方法分享

常用算法设计方法

2018-03-22 14:38:09

基于复杂梯度网络的能效优化路由算法

为缓解快速增长的网络数据带来较大的能耗，响应节能减排的发展需求，提高能源的使用效率，提出一种能效优化的路由算法。利用以无标度网络为底网构建的复杂梯度网络进行建模，定义节点势，该节点势由邻居节点

2018-03-29 15:56:13

机器学习中梯度下降法的过程

梯度下降法是一个用于寻找最小化成本函数的参数值的最优化算法。当我们无法通过分析计算（比如线性代数运算）求得函数的最优解时，我们可以利用梯度下降法来求解该问题。

2018-04-26 16:44:00

3221

梯度下降两大痛点：陷入局部极小值和过拟合

基于梯度下降训练神经网络时，我们将冒网络落入局部极小值的风险，网络在误差平面上停止的位置并非整个平面的最低点。这是因为误差平面不是内凸的，平面可能包含众多不同于全局最小值的局部极小值。

2018-04-27 17:01:36

19033

梯度下降算法及其变种：批量梯度下降，小批量梯度下降和随机梯度下降

现在我们来讨论梯度下降算法的三个变种，它们之间的主要区别在于每个学习步骤中计算梯度时使用的数据量，是对每个参数更新（学习步骤）时的梯度准确性与时间复杂度的折衷考虑。

2018-05-03 15:55:34

20236

讲解随机梯度下降、类别数据编码、Vowpal Wabbit机器学习库

在数据量不大的情况下，上面的数学效果不错（我们这里不讨论局部极小值、鞍点、学习率选择、动量等问题，请参考《深度学习》一书的数值计算那一章）。批量梯度下降有一个问题——梯度演算需要累加训练集中所有对象

2018-07-17 09:11:43

5797

机器学习优化算法中梯度下降,牛顿法和拟牛顿法的优缺点详细介绍

梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。

2018-08-04 11:40:10

50637

简单的梯度下降算法，你真的懂了吗？

梯度下降算法的公式非常简单，”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以

2018-09-19 00:17:01

668

深入浅出地介绍了梯度下降这一概念

初始化权重时，我们在损失曲面的A点。我们首先要做的，是检查一下，在x-y平面上的所有可能方向中，沿着哪个方向移动能带来最陡峭的损失值下降。这就是我们需要移动的方向。这一方向恰好是梯度的反方向。梯度，导数的高维表兄弟，为我们提供了最陡峭的上升方向。

2018-09-28 09:06:47

4992

回溯的共轭梯度迭代硬阈值算法如何解决迭代次数多重构时间长的问题

并成候选集；然后，在候选集所对应的矩阵列张成的空间中选择新的支撑集，以此减少支撑集被反复选择的次数，确保正确的支撑集被快速找到；最后，根据前后迭代支撑集是否相等的准则来决定使用梯度下降法或共轭梯度法作为寻优方法，加速算法

2018-12-20 14:08:49

为什么基于梯度的方法能够在深度学习的优化中行之有效

神经网络的优化本质上是一个非凸问题，而简单的基于梯度的算法在实践中似乎总是能够解决这类问题。

2018-12-24 09:41:21

3477

数据挖掘常用算法

本视频主要详细介绍了数据挖掘常用算法，分别是朴素贝叶斯、逻辑回归（logisticregression）、最近邻算法——KNN、决策树、Adaboosting。

2019-04-10 16:32:33

13064

以线性回归算法来对三种梯度下降法进行比较

从上面公式可以注意到，它得到的是一个全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果样本数目 m 很大，那么可想而知这种方法的迭代速度！所以，这就引入了另外一种方法，随机梯度下降。

2019-04-19 17:03:26

3827

常用的三种机器学习优化算法介绍和比较

其中，gradient(x_n)是函数位于x_n点时的梯度向量，hessian_matrix是一个尺寸为 nxn 的黑塞矩阵（hessian matrix），其值是函数位于x_n的二阶导数。我们都知道，矩阵转换的算法复杂度是非常高的（O(n³)），因此牛顿法在这种情形下并不常用。

2019-04-29 10:47:02

5553

机器学习之感知机python是如何实现的

算法选择，最终的目标是求损失函数的最小值，利用机器学习中最常用的梯度下降GD或者随机梯度下降SGD来求解。

2020-03-30 09:36:51

845

2815

各种梯度下降法是如何工作的

导读一图胜千言，什么？还是动画，那就更棒啦！本文用了大量的资源来解释各种梯度下降法（gradient descents），想给大家直观地介绍一下这些方法是如何工作的。

2022-08-17 11:50:18

785

关于机器学习的六种基础算法来源、用途、演变

这六种算法分别是：线性回归、逻辑回归、梯度下降、神经网络、决策树与k均值聚类算法。

2022-11-04 10:18:06

659

机器学习常用术语汇总，中英对照！

在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算（并缓存）每个节点的输出值，然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

2023-03-13 10:23:33

1661

详解神经网络中反向传播和梯度下降

摘要：反向传播指的是计算神经网络参数梯度的方法。

2023-03-14 11:07:10

589

梯度下降法在机器学习中的应用

梯度下降法沿着梯度的反方向进行搜索，利用了函数的一阶导数信息。

2023-05-18 09:20:34

768

边缘计算卸载算法--CD梯度下降

背景：我实现该算法是在边缘计算单个工作流任务环境中，下面可以看到此背景下的java代码实现。此处假设我们的工作流任务中只有3个任务节点（构成一个有向无环图），下面基于此假设分析算法。

2023-05-18 17:16:57

人工智能领域的梯度学习研究

前向梯度学习通常用于计算含有噪声的方向梯度，是一种符合生物学机制、可替代反向传播的深度神经网络学习方法。然而，当要学习的参数量很大时，标准的前向梯度算法会出现较大的方差。

2023-05-30 10:34:07

191

230

PyTorch教程-12.5。小批量随机梯度下降

12.5。小批量随机梯度下降¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:31

485

已全部加载完成

搜索历史

一文看懂常用的梯度下降算法 - 全文

评论