0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍机器学习中常用的三种优化算法

汽车玩家 来源:人工智能遇见磐创 作者:Walker 2020-05-04 18:19 次阅读

本文主要介绍了常用的一些机器学习中常用的优化算法

在机器学习的世界中,通常我们会发现有很多问题并没有最优的解,或是要计算出最优的解要花费很大的计算量,面对这类问题一般的做法是利用迭代的思想尽可能的逼近问题的最优解。我们把解决此类优化问题的方法叫做优化算法,优化算法本质上是一种数学方法,常见的优化算法包括梯度下降法、牛顿法、Momentum,Nesterov Momentum,Adagrad,Adam等。其实大部分机器学习算法的本质都是建立优化模型,通过优化算法对损失函数(优化的目标函数)进行优化,从而训练出最好的模型。

(1)梯度下降法

梯度下降法是最常用的一种优化算法。其核心思想是:在当前位置寻找梯度下降最快的方向,来逐渐逼近优化的目标函数。且离目标函数越近,逼近的“步伐”也就越小。梯度下降法本质是一种迭代方法,常用于机器学习算法的模型参数求解。其示意图如下图1所示:

图1梯度下降法

梯度下降法的更新公式为:

介绍机器学习中常用的三种优化算法

其中α为梯度上每次逼近的步长,前边的“-”表示搜索方向为负梯度的方向,L我损失函数。算法更新终止的条件是梯度向量接近于0即可。此外需要特别注意的是,梯度下降法不一定能够找到全局的最优解,很有可能找到的是一个局部最优解。

(2)梯度下降法的变式

通常基于梯度的下降方法又有很多变式,我们主要为大家介绍:随机梯度下降法(SGD), Momentum, Nesterov Momentum, Adagrad, Adam。

随机梯度下降法是每次使用一批数据进行梯度的计算,而非计算全部数据的梯度,因为如果每次计算全部数据的梯度,会导致运算量加大,运算时间变长,容易陷入局部最优解,而随机梯度下降可能每次不是朝着真正最小的方向,这样反而可以跳出局部的最优解。

Momentum是在随机梯度下降法的基础上,增加了动量(Momentum)的技术。其核心是通过优化相关方向的训练和弱化无关方向的振荡,来加速SGD训练。Momentum的方法能够在一定程度上缓解随机梯度下降法收敛不稳定的问题,并且有一定的摆脱陷入局部最优解的能力。

Nesterov Momentum是基于Momentum的加速算法,相比于传统的动量算法,最大的优化是计算经过动量更新之后的位置梯度。

Adagrad即adaptive gradient,是一种自适应学习率的梯度法。它通过记录并调整每次迭代过程中的前进方向和距离,使得针对不同问题都有一套自适应学习率的方法。Adagrad最大的优势是不需要手动来调整学习率,但与此同时会降低学习率。

Adam即Adaptive Moment Estimation,是能够自适应时刻的估计方法,能够针对每个参数,计算自适应学习率。这是一种综合性的优化方法,在机器学习实际训练中,往往能够取得不错的效果。

(3)牛顿法和拟牛顿法

与上述梯度类型的优化算法最大的不同是,牛顿法是一种二阶收敛算法,所以它的收敛速度相较于一阶算法会更快。牛顿法二阶的意义在于它不仅会沿着梯度最大的方向下降,还会考虑走的下一步坡度是不是也很大,它能够以较远的目光全局的逼近目标函数。其算法的具体步骤为:

1)首先选择接近于函数f(x)的零点x0,并计算f(x0)处的斜率f’(x0)。然后我们求解以下方程,得到比刚刚的x0更加准确的解x1。

2)接下来我们利用x1进行下一轮的迭代,迭代公式如下所示。这样经过反复的迭代过程,我们便能取得函数f(x)的最优解。

介绍机器学习中常用的三种优化算法

牛顿法的迭代示意图如下所示:

介绍机器学习中常用的三种优化算法

图2 牛顿法

虽然牛顿法相较于梯度下降法等优化算法收敛速度更快,但每一步都需要求解复杂的Hessian矩阵,计算非常不易。所以后来美国Argonne国家实验室的物理学家W.C.Davidon又针对牛顿法计算复杂的缺陷提出了拟牛顿法。它的核心思想是使用正定矩阵来近似Hessian矩阵的逆,从而简化了运算的复杂。另外,因为拟牛顿法不需要二阶导数的信息,所以现在拟牛顿法在机器学习实际问题中应用更加的广泛。

【总结】:除了以上几类较为常见的优化算法以外,还有共轭梯度法、启发式优化算法等。在实际的机器学习问题中,往往需要具体问题具体分析,根据每类优化问题的特征,选择合适的优化算法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4607

    浏览量

    92840
  • 机器学习
    +关注

    关注

    66

    文章

    8406

    浏览量

    132565
收藏 人收藏

    评论

    相关推荐

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升,对计算资源的需求也在不断增长。NPU作为一专门为深度
    的头像 发表于 11-15 09:19 433次阅读

    Windows管理内存的三种主要方式

    Windows操作系统提供了多种方式来管理内存,以确保系统资源的有效利用和性能的优化。以下是关于Windows管理内存的三种主要方式的详细阐述,包括堆内存管理、虚拟内存管理以及共享内存管理,每种方式都将从概念、原理、运作机制和应用等方面进行
    的头像 发表于 10-12 17:09 706次阅读

    干货!恒流电路常用三种设计方案

    作为硬件研发工程师相信对恒流电路不会陌生,本文介绍三种恒流电路的原理图。 极管恒流电路 极管恒流电路 极管的恒流电路,主要是利用Q
    发表于 09-09 10:40

    常用的pwm跟踪控制方式是哪三种

    PWM(脉宽调制)跟踪控制是一广泛应用于电机控制、电源管理、通信等领域的技术。它通过调整脉冲的宽度来控制输出信号的占空比,从而实现对系统的精确控制。常用的PWM跟踪控制方式主要有三种:增量式PWM
    的头像 发表于 08-14 10:34 1130次阅读

    请问IR900NAT配置常用三种情景是什么?

    IR900NAT配置常用三种情景
    发表于 07-26 07:02

    放大电路的三种组态可以放大什么

    是对这三种放大电路组态的介绍。 1. 共射放大电路(Common Emitter Amplifier) 共射放大电路是三种组态中最常用的一
    的头像 发表于 07-09 14:31 1036次阅读

    机器视觉中常用的光源类型及优点?

    机器视觉是一利用计算机视觉技术来实现对图像的获取、处理和分析的技术。在机器视觉系统中,光源是至关重要的组成部分,它直接影响到图像的质量,进而影响到整个系统的准确性和可靠性。本文将详细介绍
    的头像 发表于 07-04 10:28 592次阅读

    机器学习算法原理详解

    机器学习作为人工智能的一个重要分支,其目标是通过让计算机自动从数据中学习并改进其性能,而无需进行明确的编程。本文将深入解读几种常见的机器学习
    的头像 发表于 07-02 11:25 987次阅读

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一相应的关系。Iris鸢尾花数据集是一个经典数据集,在统计
    的头像 发表于 06-27 08:27 1639次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典<b class='flag-5'>算法</b>与应用

    abb工业机器人手动操作有哪三种模式?

    插补模式和手动重定位模式。下面,我们将详细介绍三种模式的特点、操作方法以及应用场景。 一、手动单轴移动模式 模式特点 手动单轴移动模式是ABB工业机器人最基本的手动操作模式。在这种模式下,操作者可以通过控制
    的头像 发表于 06-16 16:44 4391次阅读

    伺服电机常用三种控制模式有哪些

    伺服电机是一高精度、高响应速度的电机,广泛应用于自动化设备、机器人、数控机床等领域。伺服电机的控制模式对于整个系统的稳定性、精度和性能至关重要。本文将详细介绍伺服电机常用
    的头像 发表于 06-05 15:51 5447次阅读

    浅析FreeRTOS任务调度器的三种调度算法和应用

    FreeRTOS在MCU领域应用非常广泛,今天就给大家讲解一下FreeRTOS调度器中的三种调度算法,以及在瑞萨RZ/T2L MPU中的应用。
    的头像 发表于 05-10 14:02 7319次阅读
    浅析FreeRTOS任务调度器的<b class='flag-5'>三种</b>调度<b class='flag-5'>算法</b>和应用

    gis中常用的空间分析方法

    将详细介绍GIS中常用的空间分析方法,包括空间插值、缓冲区分析、空间统计、领域分析、网络分析和多标准决策等。 一、空间插值 空间插值是一将有限数量的点数据转换为连续表面的方法。常见的空间插值方法包括反距离加权插值(IDW)、克
    的头像 发表于 02-25 13:44 5499次阅读

    VMware虚拟机的三种网络模式

    。VMware提供了三种网络模式:桥接模式、NAT模式和主机模式。在本文中,我们将详细介绍三种网络模式的特点和用途。 1. 桥接模式: 桥接模式是虚拟机最常用的网络模式之一。在桥接模
    的头像 发表于 02-04 11:17 1986次阅读

    介绍三种建模方式

    据量大,而是指样本的完备性。还有就是大数据或者AI被专业学者或者行业工程师所诟病的就是,纯粹的数据驱动搞不出所以然出来,需要领域知识(即Domain Knowledge)的协助。此外,还有第三种建模方式就是混合驱动,即基础物理模型加上数据驱动的方式。下文详细介绍一下
    的头像 发表于 01-23 10:48 1804次阅读