0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Adam模型的新改进“Rectified Adam”

DPVg_AI_era 来源:lq 2019-09-13 16:31 次阅读

UIUC华人博士生团队提出了对常用机器学习模型优化器Adam的新改进RAdam,省去了使用Adam必须的“预热”环节,既能保证学习率和收敛速度,又能有效避免模型陷入“局部最优解”的陷阱,堪称Adam的优秀接班人!

近日,UIUC的华人博士生Liyuan Liu等人的一篇新论文中介绍了Adam模型的新改进“Rectified Adam”(简称RAdam)。这是基于原始Adam作出的改进,它既能实现Adam快速收敛的优点,又具备SGD方法的优势,令模型收敛至质量更高的结果。

有国外网友亲测,效果拔群。

以下是网友测试过程和RAdam的简介:

我已经在FastAI框架下测试了RAdam,并快速获得了高精度新记录,而不是ImageNette上两个难以击败的FastAI排行榜得分。我今年测试了许多论文中的模型,大部分模型似乎在文中给出的特定数据集上表现良好,而在我尝试的新的数据集上表现不佳。但RAdam不一样,看起来真的实现了性能提升,可能成为vanilla Adam的永久“接班人”。

RAdam具备在多种学习率下的强大性能,同时仍能快速收敛并实现更高的性能(CIFAR数据集)

RAdam和XResNet50,5个epoch精度即达到86%

Imagenette排行榜:达到当前最高性能84.6%

下面来看看RAdam的内部机制,看看为什么能够实现更优质的收敛,更好的训练稳定性(相对所选择的学习率更不敏感),为何基于几乎所有AI应用都能实现更好的准确性和通用性。

不只是对于CNN:RAdam在Billion Word Dataset上的表现优于LSTM

RAdam:无需预热,避免模型收敛至“局部最优解”

作者指出,虽然每个人都在努力实现快速稳定的优化算法,但包括Adam,RMSProp等在内的自适应学习率优化器都存在收敛到质量较差的局部最优解的可能。因此,几乎每个人都使用某种形式的“预热”方式来避免这种风险。但为什么需要预热?

由于目前对AI社区中对于“预热”出现的潜在原因,甚至最佳实践的理解有限,本文作者试图揭示这个问题的基础。他们发现,根本问题是自适应学习率优化器具有太大的变化,特别是在训练的早期阶段,并且可能由于训练数据量有限出现过度跳跃,因此可能收敛至局部最优解。

使用原始Adam必须预热,否则正态分布会变得扭曲,是否预热的分布对比见上图

因此,当优化器仅使用有限的训练数据时,采用“预热”(这一阶段的学习率要慢得多)是自适应优化器要求抵消过度方差的要求。

简而言之,vanilla Adam和其他自适应学习速率优化器可能会基于训练早期数据太少而做出错误决策。因此,如果没有某种形式的预热,很可能在训练一开始便会收敛局部最优解,这使得训练曲线由于糟糕的开局而变得更长、更难。

然后,作者在不用预热的情况下运行了Adam,但是在前2000次迭代(adam-2k)中避免使用动量,结果实现了与“Adam+预热”差不多的结果,从而验证了“预热”在训练的初始阶段中起到“降低方差”的作用,并可以避免Adam在没有足够数据的情况下在开始训练时即陷入局部最优解。

适用于多个数据集,堪称Adam的优秀“接班人”

我们可以将“预热”作为降低方差的方法,但所需的预热程度未知,而且具体情况会根据数据集不同而变化,本文确定了一个数学算法,作为“动态方差减少器”。作者建立了一个“整流项”,可以缓慢而稳定地允许将自适应动量作为基础方差的函数进行充分表达。完整模型是这样的:

作者指出,在某些情况下,由于衰减率和基本方差的存在,RAdam可以在动量等效的情况下退化为SGD。

实验表明,RAdam优于传统的手动预热调整,其中需要预热或猜测需要预热的步骤数。RAdam自动提供方差缩减,在各种预热长度和各种学习率下都优于手动预热。

总之,RAdam可以说是AI最先进的优化器,可以说是Adam的优秀接班人!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4344

    浏览量

    62857
  • 机器学习
    +关注

    关注

    66

    文章

    8435

    浏览量

    132887
  • 数据集
    +关注

    关注

    4

    文章

    1209

    浏览量

    24772

原文标题:Adam可以换了?UIUC中国博士生提出RAdam,收敛快精度高,大小模型通吃

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FPC&FFC连接器图纸

    Adam Tech PCB系列柔性印刷电路(FPC)和柔性扁平电缆(FFC)连接器是LIF(低插入力)设计,可提供低成本,快速,轻松可靠的柔性印刷电路到PCB的连接。Adam Tech的特殊触点
    发表于 01-08 17:57 0次下载

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    介绍了如何使用分类任务进行手写数字的分类。相信大家脑海中可能会产生如下疑问: 数据依赖性强:分类模型的表现通常依赖于大量的标注数据进行训练。获取高质量、大规模的数据集既耗时又昂贵。 泛化能力有限:模型
    发表于 12-19 14:33

    Al大模型机器人

    丰富的知识储备。它们可以涵盖各种领域的知识,并能够回答相关问题。灵活性与通用性: AI大模型机器人具有很强的灵活性和通用性,能够处理各种类型的任务和问题。持续学习和改进: 这些模型可以通过持续的训练
    发表于 07-05 08:52

    基于MM32F5270的Ethernet实现LwIP协议栈移植

    LwIP是轻量化的TCP/IP协议,由瑞典计算机科学院(SICS)的Adam Dunkels 开发的一个小型开源的TCP/IP协议栈。LwIP具有高度可移植性、代码开源,提供了三种编程接口(API):RAW API、NETCONN API 和 Socket API,用于与TCP/IP代码进行通信。
    的头像 发表于 06-21 10:28 1287次阅读
    基于MM32F5270的Ethernet实现LwIP协议栈移植

    AWS换帅:Adam Selipsky卸任,Matt Garman接任

    亚马逊云计算服务AWS近日宣布,首席执行官Adam Selipsky将于下个月卸任。这位在AWS工作了14年的领导者,将于6月3日正式离开公司。
    的头像 发表于 05-16 09:32 494次阅读

    求助,大家开发以太网时候使用什么协议比较多?

    UIP由瑞典计算机科学学院(网络嵌入式系统小组)的Adam Dunkels开发。 1) 代码非常少,其协议栈代码不到 6K,很方便阅读和移植。 2) 占用的内存数非常少,RAM 占用仅几百字节。 3
    发表于 05-16 08:01

    助听器降噪神经网络模型

    增强,并在大规 模数据集上进行训练。我们能够展示在堆叠网络 方法中使用两种类型的分析和综合基础的优势。 DTLN 模型在嘈杂的混响环境中运行稳健。尽管 我们将基本训练设置与简单的架构相结合,但我 们观察到相对于噪声条件的所有主观评估在 MOS 方面的绝对改进为 0.22。
    发表于 05-11 17:15

    【大语言模型:原理与工程实践】大语言模型的应用

    的创造力进行结合,从而创造出更加丰富多样的内容。随着技术的不断发展,自动提示生成技术有望逐渐成熟。这将使大语言模型变得更加自主,能够自行构建和改进提示词以达到理想的结果。这将极大地提高大语言模型的工作效率和应用范围,为其在未来的
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的评测

    和优化至关重要,它们能够提供准确的反馈,指导模型在训练和调优过程中的改进方向。 大语言模型对话能力评测:对话能力评测是大语言模型性能评估的核心环节,涉及多种交互场景,如闲聊、常识问答
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的基础技术

    全面剖析大语言模型的核心技术与基础知识。首先,概述自然语言的基本表示,这是理解大语言模型技术的前提。接着,详细介绍自然语言处理预训练的经典结构Transformer,以及其工作原理,为构建大语言
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】核心技术综述

    我也不打算把网上相关的信息在总结一下,这样的话,工作量很大。 我主要看了-大语言模型基础技术这节 大语言模型(Large Language Models,LLMs)的核心技术涵盖了从模型的架构设计到
    发表于 05-05 10:56

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    了随着模型规模扩大,其性能和能力提升速度的变化规律。这一定律在深度学习中表现为模型规模与性能改进之间的关系,通常表明扩大模型规模可以提升性能。大语言
    发表于 05-04 23:55

    防止AI大模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    在设计防止AI大模型被黑客病毒入侵时,需要考虑到复杂的加密和解密算法以及模型的实现细节,首先需要了解模型的结构和实现细节。 以下是我使用Python和TensorFlow 2.x实现深度学习
    发表于 03-19 11:18

    蔚来2024款车型交付,全新ADAM平台及8295座舱芯片亮相

    据悉,除了外观上有所改进之外,2024款车型还会采用全新的ADAM中央计算平台以及高通骁龙8295座舱处理器。此外,新车还将配备4颗英伟达OrinX芯片以及8096个浮点运算单元,整体性能卓越。
    的头像 发表于 03-10 10:29 1571次阅读

    蔚来2024款车型开启预售,性能提升、体验升级,售价未变

    此外,为了提高车辆的智能化程度,蔚来选择从硬件层面对中央计算平台ADAM进行全面升级。预计下一代蔚来车型将全部采用全新设计,其搭载的高通骁龙8295座舱芯片,使得整体算力有显著提升。
    的头像 发表于 02-22 10:47 856次阅读