0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中国博士生Liyuan Liu提出了一个新的优化器RAdam

智能感知与物联网技术研究所 来源:通信信号处理研究所 2019-12-06 15:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

找到一种快速稳定的优化算法,是所有AI研究人员的目标。

但是鱼和熊掌不可兼得。Adam、RMSProp这些算法虽然收敛速度很快,当往往会掉入局部最优解的“陷阱”;原始的SGD方法虽然能收敛到更好的结果,但是训练速度太慢。

最近,一位来自UIUC的中国博士生Liyuan Liu提出了一个新的优化器RAdam。

它兼有Adam和SGD两者的优点,既能保证收敛速度快,也不容易掉入局部最优解,而且收敛结果对学习率的初始值非常不敏感。在较大学习率的情况下,RAdam效果甚至还优于SGD。

RAdam意思是“整流版的Adam”(Rectified Adam),它能根据方差分散度,动态地打开或者关闭自适应学习率,并且提供了一种不需要可调参数学习率预热的方法。

一位Medium网友Less Wright在测试完RAdam算法后,给予了很高的评价:

RAdam可以说是最先进的AI优化器,可以永远取代原来的Adam算法了。

目前论文作者已将RAdam开源,FastAI现在已经集成了RAdam,只需几行代码即可直接调用。

补众家之短

想造出更强的优化器,就要知道前辈们的问题出在哪:

像Adam这样的优化器,的确可以快速收敛,也因此得到了广泛的应用。

但有个重大的缺点是不够鲁棒,常常会收敛到不太好的局部最优解 (Local Optima) ,这就要靠预热(Warmup)来解决——

最初几次迭代,都用很小的学习率,以此来缓解收敛问题。

为了证明预热存在的道理,团队在IWSLT’14德英数据集上,测试了原始Adam和带预热的Adam。

结果发现,一把预热拿掉,Transformer语言模型的训练复杂度 (Perplexity) ,就从10增到了500。

另外,BERT预训练也是差不多的情况。

为什么预热、不预热差距这样大?团队又设计了两个变种来分析:

缺乏样本,是问题根源

一个变种是Adam-2k:

在前2000次迭代里,只有自适应学习率是一直更新的,而动量 (Momentum) 和参数都是固定的。除此之外,都沿袭了原始Adam算法。

实验表明,在给它2000个额外的样本来估计自适应学习率之后,收敛问题就消失了:

另外,足够多的样本可以避免梯度分布变扭曲 (Distorted) :

这些发现证明了一点:早期缺乏足够数据样本,就是收敛问题的根源。

下面就要证明,可以通过降低自适应学习率的方差来弥补这个缺陷。

降低方差,可解决问题

一个直接的办法就是:

把ψ-cap里面的ϵ增加。假设ψ-cap(. ) 是均匀分布,方差就是1/12ϵ^2。

这样就有了另一个变种Adam-eps。开始把ϵ设成一个可以忽略的1×10^-8,慢慢增加,到不可忽略的1×10^-4。

从实验结果看,它已经没有Adam原本的收敛问题了:

这就证明了,真的可以通过控制方差来解决问题。另外,它和Adam-2k差不多,也可以避免梯度分布扭曲。

然而,这个模型表现比Adam-2k和带预热的Adam差很多。

推测是因为ϵ太大,会给自适应学习率带来重大的偏差 (Bias) ,也会减慢优化的过程。

所以,就需要一个更加严格的方法,来控制自适应学习率。

论文中提出,要通过估算自由度ρ来实现量化分析。

RAdam定义

RAdam算法的输入有:步长αt;衰减率{β1, β2},用于计算移动平均值和它的二阶矩。

输出为θt。

首先,将移动量的一阶矩和二阶矩初始化为m0,v0,计算出简单移动平均值(SMA)的最大长度ρ∞←2/(1-β2)-1。

然后按照以下的迭代公式计算出:第t步时的梯度gt,移动量的二阶矩vt,移动量的一阶矩mt,移动偏差的修正和SMA的最大值ρt。

如果ρ∞大于4,那么,计算移动量二阶矩的修正值和方差修正范围:

如果ρ∞小于等于4,则使用非自适应动量更新参数:

以上步骤都完成后,得出T步骤后的参数θT。

测试结果

RAdam在图像分类任务CIFAR-10和ImageNet上测试的结果如下:

尽管在前几个周期内整流项使得RAdam比Adam方法慢,但是在后期的收敛速度是比Adam要更快的。

尽管RAdam在测试精度方面未能超越SGD,但它可以带来更好的训练性能。

此外,RAdam算法对初始学习率是具有鲁棒性的,可以适应更宽范围内的变化。在从0.003到0.1一个很宽的范围内,RAdam表现出了一致的性能,训练曲线末端高度重合。

亲测过的网友Less Wright说,RAdam和他今年测试的许多其它论文都不一样。

其他方法常常是在特定数据集上有良好的效果,但是放在新的数据集上往往表现不佳。

而RAdam在图像分类、语言建模,以及机器翻译等等许多任务上,都证明有效。

(也侧面说明,机器学习的各类任务里,广泛存在着方差的问题。)

Less Wright在ImageNette上进行了测试,取得了相当不错的效果(注:ImageNette是从ImageNet上抽取的包含10类图像的子集)。在5个epoch后,RAdam已经将准确率快速收敛到86%。

如果你以为RAdam只能处理较小数据集上的训练,或者只有在CNN上有较好的表现就大错特错了。即使大道有几十亿个单词的数据集的LSTM模型,RAdam依然有比Adam更好的表现。

总之,RAdam有望提供更好的收敛性、训练稳定性,以及几乎对所有AI应用都用更好的通用性。

关于作者

论文的作者Liyuan Liu是一位90后,本科毕业于中国科学技术大学,曾在微软亚洲研究院实习。而这项工作,也得益于与微软的合作。

早在本科期间,Liyuan Liu就师从国家杰出青年基金获得者,中科大陈恩红教授,以第一作者的身份在ICDM发表过文章。

2016年,Liyuan Liu小哥本科毕业,加入了美国伊利诺伊大学香槟分校数据挖掘小组(DMG),成为美国计算机协会和IEEE院士韩家炜教授课题组的一名CS博士,从事NLP研究。

读博以来,Liyuan Liu开始在各大顶会上崭露头角。在2018年NLP领域国际顶会EMNLP当中,他的一作论文《Efficient Contextualized Representation: Language Model Pruning for Sequence Labeling》就被收录为口头报告。

又是一位闪闪发光的少年英才啊。

论文地址:
https://arxiv.org/abs/1908.03265v1

源代码:
https://github.com/LiyuanLucasLiu/RAdam

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41109

    浏览量

    302596
  • 开源
    +关注

    关注

    3

    文章

    4346

    浏览量

    46442

原文标题:中国博士生提出最先进AI训练优化器,收敛快精度高,网友亲测:Adam可以退休了

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    第九届中国研究创芯大赛概伦电子赛题发布

    公司发展的长期战略,为中国集成电路产业打造多层次的专业人才培养机制,已连续多年支持中国研究创“芯”大赛。作为命题企业之,现正式公布两道企业命题,诚邀国内外在读研究
    的头像 发表于 04-23 10:48 216次阅读
    第九届<b class='flag-5'>中国</b>研究<b class='flag-5'>生</b>创芯大赛概伦电子赛题发布

    [VirtualLab] 倾斜光栅的参数优化及公差分析

    摘要 对于背光系统、光内连和近眼显示等许多应用来说,将光高效地耦合到引导结构中是重要的问题。对于这种应用,倾斜光栅以能够高效地耦合单色光而闻名。在本例中,
    发表于 04-22 08:18

    第九届中国研究创芯大赛新思科技赛题发布

    2026 年,新思科技再度携手中国研究创 “芯” 大赛,倾力提供赛题。以产业前沿需求对接科研攻关方向,赋能高校人才培养。诚邀国内外在读研究勇攀技术巅峰。
    的头像 发表于 04-14 16:12 331次阅读

    山西大学在量子增强相位噪声滤波研究中取得新进展

    领域取得重要进展,首次实验实现了“量子增强激光相位噪声滤波”。相关研究成果以“Quantum-enhanced laser phase noise filter”为题发表于Optica。该论文第作者为光电研究所博士生李瑞鑫,
    的头像 发表于 03-10 06:40 126次阅读
    山西大学在量子增强相位噪声滤波<b class='flag-5'>器</b>研究中取得新进展

    2026年NVIDIA研究奖学金名单公布

    25 年来,NVIDIA 研究奖学金计划致力于为在与 NVIDIA 技术相关的前沿领域开展研究的硕博研究提供支持。近日,该计划公布了最新批奖学金授予结果:10 位博士生脱颖而出,
    的头像 发表于 12-13 09:44 1211次阅读

    直播预约 |开源芯片系列讲座第30期:“一生芯”计划——从零开始设计自己的RISC-V处理芯片

    鹭岛论坛开源芯片系列讲座第30期「“一生芯”计划从零开始设计自己的RISC-V处理芯片」11月17日(周三)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目“一生
    的头像 发表于 11-10 12:03 1133次阅读
    直播预约 |开源芯片系列讲座第30期:“<b class='flag-5'>一生</b><b class='flag-5'>一</b>芯”计划——从零开始设计自己的RISC-V处理<b class='flag-5'>器</b>芯片

    亿纬锂能受邀出席北大国际博士生学术论坛

    10月26日,北京大学“博雅材思”国际博士生学术论坛在燕园举行,亿纬锂能人力资源中心总监张清刚博士受邀出席,并发表《亿纬锂能材料学人才职业发展》专题报告。
    的头像 发表于 10-31 12:36 772次阅读

    新思科技连续八年助力中国研究创“芯”大赛

    作为中国研究创 “芯” 大赛的创始合作方,新思科技始终秉持初心,连续八年全力支持这赛事,致力于为中国本土集成电路设计领域培育后备力量,以实际行动推动产业人才生态建设。
    的头像 发表于 08-15 15:40 1180次阅读

    Cadence连续八年助力中国研究创“芯”大赛

    中国研究创“芯”大赛是中国研究创新实践系列赛事之,是项面向全国高等院校和科研院所在读研究
    的头像 发表于 08-06 15:05 1444次阅读

    博士学位论文-永磁同步电机脉振高频信号注入无位置传感技术研究

    用于无结构凸极性的表贴式永磁同步电机。实现永磁同步电机无位置传感控制的首要问题是转子初始位置检测,本文提出了种表贴式永磁同步电机转子初始位置检测的新方法。它是基于定子电感非线性饱和特性,在估计
    发表于 07-17 14:34

    山西大学实现种压缩激光新型光源

    lasing through the parametric coupling”发表于物理学顶级期刊Physical Review Letters上。山西大学为第单位和通讯单位。其中,山西大学光电研究所博士生
    的头像 发表于 07-17 09:44 513次阅读
    山西大学实现<b class='flag-5'>一</b>种压缩激光新型光源

    维智科技为什么提出时空人工智能

    世界的关键转折点。为此,陶闯博士提出“时空人工智能”(Spatio-Temporal AI)概念,试图系统性地回答问题:如何让AI看得懂空间、学得会语义、做得了决策?
    的头像 发表于 06-12 14:30 1041次阅读

    VirtualLab 应用:倾斜光栅的参数优化及公差分析

    摘要 对于背光系统、光内连和近眼显示等许多应用来说,将光高效地耦合到引导结构中是重要的问题。对于这种应用,倾斜光栅以能够高效地耦合单色光而闻名。在本例中,
    发表于 05-22 08:52

    DEKRA德凯林博士荣获TIC理事会“Merit Award for Advocacy”奖项

    5月13日,TIC理事会总部年度会员大会公布了TIC Merit Award的获奖者。DEKRA德凯集团执行副总裁、亚太区总裁,TIC理事会中国地区指导委员会主席林博士(Dr. Kilian
    的头像 发表于 05-15 11:29 987次阅读
    DEKRA德凯林<b class='flag-5'>一</b>墨<b class='flag-5'>博士</b>荣获TIC理事会“Merit Award for Advocacy”奖项

    小设备大模型 创盈芯特邀中南大学何世文教授、博导揭秘AI新趋势

    当全球前2%顶尖科学家走进创盈芯,会碰撞出怎样的智慧火花? 4月25日,创盈芯特邀 中南大学博士生导师、IEEE国际标准制定专家何世文教授 开展《 无线内智能通信基础理论与应用研究 》专题培训
    的头像 发表于 05-06 17:54 783次阅读
    小设备大模型 创盈芯特邀中南大学何世文教授、博导揭秘AI新趋势