中国博士生Liyuan Liu提出了一个新的优化器RAdam-电子发烧友网

找到一种快速稳定的优化算法，是所有AI研究人员的目标。

但是鱼和熊掌不可兼得。Adam、RMSProp这些算法虽然收敛速度很快，当往往会掉入局部最优解的“陷阱”；原始的SGD方法虽然能收敛到更好的结果，但是训练速度太慢。

最近，一位来自UIUC的中国博士生Liyuan Liu提出了一个新的优化器RAdam。

它兼有Adam和SGD两者的优点，既能保证收敛速度快，也不容易掉入局部最优解，而且收敛结果对学习率的初始值非常不敏感。在较大学习率的情况下，RAdam效果甚至还优于SGD。

RAdam意思是“整流版的Adam”（Rectified Adam），它能根据方差分散度，动态地打开或者关闭自适应学习率，并且提供了一种不需要可调参数学习率预热的方法。

一位Medium网友Less Wright在测试完RAdam算法后，给予了很高的评价：

RAdam可以说是最先进的AI优化器，可以永远取代原来的Adam算法了。

目前论文作者已将RAdam开源，FastAI现在已经集成了RAdam，只需几行代码即可直接调用。

补众家之短

想造出更强的优化器，就要知道前辈们的问题出在哪：

像Adam这样的优化器，的确可以快速收敛，也因此得到了广泛的应用。

但有个重大的缺点是不够鲁棒，常常会收敛到不太好的局部最优解 (Local Optima) ，这就要靠预热(Warmup)来解决——

最初几次迭代，都用很小的学习率，以此来缓解收敛问题。

为了证明预热存在的道理，团队在IWSLT’14德英数据集上，测试了原始Adam和带预热的Adam。

结果发现，一把预热拿掉，Transformer语言模型的训练复杂度 (Perplexity) ，就从10增到了500。

另外，BERT预训练也是差不多的情况。

为什么预热、不预热差距这样大？团队又设计了两个变种来分析：

缺乏样本，是问题根源

一个变种是Adam-2k：

在前2000次迭代里，只有自适应学习率是一直更新的，而动量 (Momentum) 和参数都是固定的。除此之外，都沿袭了原始Adam算法。

实验表明，在给它2000个额外的样本来估计自适应学习率之后，收敛问题就消失了：

另外，足够多的样本可以避免梯度分布变扭曲 (Distorted) ：

这些发现证明了一点：早期缺乏足够数据样本，就是收敛问题的根源。

下面就要证明，可以通过降低自适应学习率的方差来弥补这个缺陷。

降低方差，可解决问题

一个直接的办法就是：

把ψ-cap里面的ϵ增加。假设ψ-cap(. ) 是均匀分布，方差就是1/12ϵ^2。

这样就有了另一个变种Adam-eps。开始把ϵ设成一个可以忽略的1×10^-8，慢慢增加，到不可忽略的1×10^-4。

从实验结果看，它已经没有Adam原本的收敛问题了：

这就证明了，真的可以通过控制方差来解决问题。另外，它和Adam-2k差不多，也可以避免梯度分布扭曲。

然而，这个模型表现比Adam-2k和带预热的Adam差很多。

推测是因为ϵ太大，会给自适应学习率带来重大的偏差 (Bias) ，也会减慢优化的过程。

所以，就需要一个更加严格的方法，来控制自适应学习率。

论文中提出，要通过估算自由度ρ来实现量化分析。

RAdam定义

RAdam算法的输入有：步长αt；衰减率{β1, β2}，用于计算移动平均值和它的二阶矩。

输出为θt。

首先，将移动量的一阶矩和二阶矩初始化为m0，v0，计算出简单移动平均值（SMA）的最大长度ρ∞←2/(1-β2)-1。

然后按照以下的迭代公式计算出：第t步时的梯度gt，移动量的二阶矩vt，移动量的一阶矩mt，移动偏差的修正和SMA的最大值ρt。

如果ρ∞大于4，那么，计算移动量二阶矩的修正值和方差修正范围：

如果ρ∞小于等于4，则使用非自适应动量更新参数：

以上步骤都完成后，得出T步骤后的参数θT。

测试结果

RAdam在图像分类任务CIFAR-10和ImageNet上测试的结果如下：

尽管在前几个周期内整流项使得RAdam比Adam方法慢，但是在后期的收敛速度是比Adam要更快的。

尽管RAdam在测试精度方面未能超越SGD，但它可以带来更好的训练性能。

此外，RAdam算法对初始学习率是具有鲁棒性的，可以适应更宽范围内的变化。在从0.003到0.1一个很宽的范围内，RAdam表现出了一致的性能，训练曲线末端高度重合。

亲测过的网友Less Wright说，RAdam和他今年测试的许多其它论文都不一样。

其他方法常常是在特定数据集上有良好的效果，但是放在新的数据集上往往表现不佳。

而RAdam在图像分类、语言建模，以及机器翻译等等许多任务上，都证明有效。

(也侧面说明，机器学习的各类任务里，广泛存在着方差的问题。)

Less Wright在ImageNette上进行了测试，取得了相当不错的效果（注：ImageNette是从ImageNet上抽取的包含10类图像的子集）。在5个epoch后，RAdam已经将准确率快速收敛到86%。

如果你以为RAdam只能处理较小数据集上的训练，或者只有在CNN上有较好的表现就大错特错了。即使大道有几十亿个单词的数据集的LSTM模型，RAdam依然有比Adam更好的表现。

总之，RAdam有望提供更好的收敛性、训练稳定性，以及几乎对所有AI应用都用更好的通用性。

关于作者

论文的作者Liyuan Liu是一位90后，本科毕业于中国科学技术大学，曾在微软亚洲研究院实习。而这项工作，也得益于与微软的合作。

早在本科期间，Liyuan Liu就师从国家杰出青年基金获得者，中科大陈恩红教授，以第一作者的身份在ICDM发表过文章。

2016年，Liyuan Liu小哥本科毕业，加入了美国伊利诺伊大学香槟分校数据挖掘小组（DMG），成为美国计算机协会和IEEE院士韩家炜教授课题组的一名CS博士，从事NLP研究。

读博以来，Liyuan Liu开始在各大顶会上崭露头角。在2018年NLP领域国际顶会EMNLP当中，他的一作论文《Efficient Contextualized Representation: Language Model Pruning for Sequence Labeling》就被收录为口头报告。

又是一位闪闪发光的少年英才啊。

论文地址：
https://arxiv.org/abs/1908.03265v1

源代码：
https://github.com/LiyuanLucasLiu/RAdam

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
32331

浏览量
271431
开源

开源

+关注

关注
3

文章
3467

浏览量
42923

原文标题：中国博士生提出最先进AI训练优化器，收敛快精度高，网友亲测：Adam可以退休了

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

汉阳大学：研发自供电、原材料基传感器，开启人机交互新篇章

近日，韩国汉阳大学王伟教授团队在人机交互技术领域取得重要突破，提出了一种自供电、原材料基、具有最小化信号通道数的传感器阵列设计方法。这一研究为传感

发表于 01-06 17:42 •224次阅读

汉阳大学：研发自供电、原材料基传感<b class='flag-5'>器</b>，开启人机交互新篇章

南京理工在计算光学显微成像领域重要研究进展

国际顶尖光学期刊Laser &Photonics Reviews，并当选为期刊封面论文。电光学院博士生周宁和张润南，硕士生徐伟胜为本文共同第一作者，南京理工大学为第一完成单位和通讯单位

发表于 12-24 06:25 •178次阅读

70多位博士生相聚浙江台州，只为这行业传感技术创新

，浙江大学生物医学传感与检测全国博士生学术论坛在浙江大学台州研究院举行，来自全国各地知名高校50多个生物医学传感与检测领域的课题组的近70名博士生，开展学术交流，激荡创新能力，同时寻求和台州企业合作的机会

发表于 11-20 15:12 •189次阅读

京微齐力受邀参加2024年清华大学工程博士论坛

此前，2024年清华大学国家卓越工程师学院工程博士论坛在北京亦庄(北京经济技术开发区)举办。本届论坛以“清亦融创、新质引领”为主题，来自集成电路、生物医药、人工智能等战略性新兴领域500余位清华大学创新领军工程博士生参加。

发表于 11-06 10:17 •545次阅读

2024第二届“必易微杯”ADC芯片设计切磋营圆满结束

2024 第二届“必易微杯” ADC 芯片设计切磋营（以下简称“切磋营”）系复旦大学微电子学院教授、博士生导师唐长文先生发起的社会公益活动，本着相互学习和相互借鉴为主旨，以探讨实用的 ADC 设计方法和规范流程为目标，为准备从事高性能 ADC 芯片设计的人员提供一

发表于 09-25 11:12 •711次阅读

当前主流的大模型对于底层推理芯片提出了哪些挑战

随着大模型时代的到来，AI算力逐渐变成重要的战略资源，对现有AI芯片也提出了前所未有的挑战：大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。

发表于 09-24 16:57 •866次阅读

福禄克公司助力北京交通大学毕业实习活动

近日，福禄克公司计量校准部首席电磁计量师杨胜利老师及多位电学技术支持老师们一行，受邀前往北京交通大学自动化系。在这里，他们与大四的本科生、研究生和博士生们共同开启了

发表于 08-16 10:36 •602次阅读

TIAN进行噪声分析的时候弹出了一个错误，怎么解决？

请大神帮忙看看，我在进行噪声分析的时候弹出了一个错误，不知道怎么办

发表于 08-16 09:23

2024“一生一芯”暑期宣讲会圆满成功

）同步实时举办，让更多对RISC-V或开源处理器感兴趣的同学可以就近参加会议，与“一生一芯”助教们互相碰撞思想，共同探讨开源处理器人才培养新未来。此外，本次暑期发

发表于 07-17 08:37 •1389次阅读

2024“<b class='flag-5'>一生</b><b class='flag-5'>一</b>芯”暑期宣讲会圆满成功

矽速科技宣布认可“一生一芯”计划CBAS新认证体系，获认证同学自动获得开源实习生联合培养工程的实习OF

矽速科技作为甲辰计划开源实习生联合招聘培养单位，即日起接受“一生一芯”计划认证体系。欢迎童鞋们通过甲辰计划投递简历！在7月14日举行的“一生一

发表于 07-17 08:34 •1353次阅读

“一生一芯”厦门基地正式启动

“一生一芯”专注培养处理器芯片及计算机系统人才，提升同学们的“计算机软硬件系统协同设计能力”和“芯片全链条设计能力”，坚持开放性和公益性，不限学校、专业和年级，均可免费报名和学习(可零基础)，支持

发表于 07-11 08:37 •2578次阅读

新能源电动汽车充电桩的设计与优化

摘要：随着电动汽车的普及，电动汽车充电桩的设计与优化成了一个重要的研究课题。本论文旨在分析电动汽车充电桩的设计要素，并提出相应的优化方案。

发表于 06-11 10:55 •1006次阅读

官宣！李晓球博士担任博格华纳新任中国区总裁

李晓球博士(Shawn Li)将于2024年7月1日起担任博格华纳中国区总裁，接替即将退休的现任博格华纳中国区总裁谈跃生(Tom Tan)。

发表于 05-19 14:11 •727次阅读

CubeMx生成的代码优化等级调低不能运行怎么解决？

一个简单的测试程序，开发环境：芯片STM32F103+MDK 5.14+CubeMx 4.25生成一个通过串口2 printf函数打印he

发表于 04-25 06:23

专访通快Philipp博士：激光行业的“Sora”时刻正在来临

、业务挑战日趋多样的大背景下，全球知名的机床与激光技术提供商——德国通快集团（TRUMPF），在此次展会上展出了一系列激光光源、光学器件、传感器和软件方面的创新技术成果。通快中国行业

发表于 04-01 16:05 •2485次阅读

搜索历史

中国博士生Liyuan Liu提出了一个新的优化器RAdam

评论

汉阳大学：研发自供电、原材料基传感器，开启人机交互新篇章

南京理工在计算光学显微成像领域重要研究进展

70多位博士生相聚浙江台州，只为这行业传感技术创新

京微齐力受邀参加2024年清华大学工程博士论坛

2024第二届“必易微杯”ADC芯片设计切磋营圆满结束

当前主流的大模型对于底层推理芯片提出了哪些挑战

福禄克公司助力北京交通大学毕业实习活动

TIAN进行噪声分析的时候弹出了一个错误，怎么解决？

2024“一生一芯”暑期宣讲会圆满成功

矽速科技宣布认可“一生一芯”计划CBAS新认证体系，获认证同学自动获得开源实习生联合培养工程的实习OF

“一生一芯”厦门基地正式启动

新能源电动汽车充电桩的设计与优化

官宣！李晓球博士担任博格华纳新任中国区总裁

CubeMx生成的代码优化等级调低不能运行怎么解决？

专访通快Philipp博士：激光行业的“Sora”时刻正在来临