OpenAI举办的首届迁移学习竞赛Retro Contest结束-电子发烧友网

OpenAI举办的首届迁移学习竞赛Retro Contest结束，在全部229支队伍里，来自中国的团队获得了冠亚军。冠军是一个6人团队，其中有南京大学和阿里巴巴搜索事业部的研究人员；亚军是中科院的两名研究生。

这个竞赛的目标，是评估强化学习算法从以往的经验中泛化的能力。具体说，就是让AI玩视频游戏《刺猬索尼克》，这是世嘉公司开发的一款竞速式2D动作游戏，其基本上模拟马里奥的游戏方式，玩家在尽可能短的时间内到达目的地，索尼克可以通过不停加速来快速完成关卡。最后可能需要对抗BOSS。

冠军方案展示：由南大和阿里研究人员组成的Dharmaraja队的agent，学习穿越游戏中海洋废墟区域（Aquatic Ruin Zone）。Agent已经在游戏的其他关进行过预训练，但这是第一次遇到这一关。

OpenAI的这个竞赛Retro Contest从2018年4月5日发布，持续时间为2个月。开始有923支队伍报名，但最终只有229个提交了解决方案。OpenAI的自动评估系统对这些结果进行了评估。为了避免参赛者拟合数据集，评审时使用了完全不同的数据集。此外，OpenAI还将前十名的最终提交结果进行了再测试，让这些agents在11个由游戏设计师特别设计的关卡中，分别进行了3次测试，每次都从环境中随机生成初始状态。最终得到的排名如下：

前五名排名

其中，冠军Dharmaraja在测试和评审中始终排名第一，mistake以微弱的优势战胜aborg取得第二。这张图显示了排名前三的三个方案的agent在同一个关卡学习的情况。红点代表初期，蓝点代表后期。从上到下分别是Dharmaraja、aborg和mistake。

所有关卡平均下来，这几支队伍的学习曲线是这样的：

值得注意的是，Dharmaraja和aborg在开始阶段分数相近，而mistake的则要低很多。这是因为前两支队伍的方法，是对预训练网络进行微调（使用PPO），而mistake则是从零开始训练（使用Rainbow DQN）。mistake的学习曲线提前结束，是因为他们在12小时的时候时间用完了。

OpenAI对这次的竞赛的评价是，从整体看，虽然参赛队伍尝试了很多方法，但主要的结果都来自对现有算法（如PPO和Rainbow）的微调或扩展。同时，结果也显示了我们还有很长的路要走：训练后AI玩的最高成绩是4,692分，而理论最好成绩是10,000分。

但是，获胜的解决方案是一般的机器学习方法，而不是针对这次竞赛进行的hacking，表明作弊是不可能的，也就证实了OpenAI的Sonic基准是机器学习研究界一个值得去关注的问题。

获奖团队及方案：PPO和Rainbow优化

Dharmaraja（法王）是一个6人组成的团队：Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li 和 Yang Yu。其中，Qing Da和Anxiang Zeng来自阿里巴巴搜索事业部AI团队，他们最近与南京大学副教授Yang Yu合作，研究如何将强化学习用于现实世界问题，尤其是电子商务场景。

Dharmaraja的解决方案是联合PPO的变体。PPO（proximal policy optimization，近端策略优化算法），是此前OpenAI为强化学习提出的一类新的策略梯度法，可以通过与环境的交互在样本数据中进行转换，使用随机梯度下降优化替代目标函数（surrogate objective function）。标准的策略梯度法是在每一个数据样本上执行一次梯度更新，而PPO的新目标函数可以在多个训练步骤（epoch）中实现小批量（minibatch）的更新。PPO 拥有置信域策略优化（TRPO）的一些好处，但更加容易实现，也更通用，并且有更好的样本复杂度。OpenAI研究人员认为，考虑到总体的复杂度、操作简便性和 wall-time，PPO 是比在线策略梯度法更好的选择。

在PPO的基础上，Dharmaraja的解决方案做了一些改进。首先，使用RGB图像而不是灰度图做输入。其次，使用了稍微扩大的动作空间，并使用更常见的按钮组合。第三，使用了增强奖励功能，奖励agent访问新的状态（根据屏幕的感知散列来判断）。

除了这些改进外，团队还尝试了许多东西，比如DeepMimic，使用YOLO进行对象检测，以及一些针对索尼克游戏的特定想法。不过这些方法并没有特别起效。

代码：https://github.com/eyounx/RetroCodes

Mistake

Mistake队有两名成员，Peng Xu和Qiaoling Zhong。他们都是研二的学生，来自中国科学院网络数据科学与技术重点实验室。

他们的解决方案是基于Rainbow基准。Rainbow是DeepMind对DQN算法进行的组合改良。DeepMind的实验表明，从数据效率和最终性能方面来说，Rainbow能够在Atari 2600基准上提供最为先进的性能。

Mistake团队进行了一些有助于提升性能的修改：n对n步Q-learning的更好的值；额外添加了一层CNN层到模型，这使得训练速度更慢但更好；DQN目标更新间隔更短。此外，团队还尝试与Rainbow进行联合训练，但发现这样做实际上降低了性能。

代码：https://github.com/xupe/mistake-in-retro-contest-of-OpenAI

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

阿里巴巴

阿里巴巴

+关注

关注
7

文章
1625

浏览量
47606
机器学习

机器学习

+关注

关注
66

文章
8454

浏览量
133171
强化学习

强化学习

+关注

关注
4

文章
268

浏览量
11313

原文标题：OpenAI首届迁移学习竞赛，南大阿里团队夺冠，中科院第二

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

迁移学习的原理，基于Keras实现迁移学习

我面对的大多数计算机视觉问题没有非常大的数据集（5000-40000图像）。即使使用极端的数据增强策略，也很难达到像样的精确度。而在少量数据集上训练数百万参数的网络通常会导致过拟合。所以迁移学习是我的救星。

发表于 05-09 03:44 •1.5w次阅读

<b class='flag-5'>迁移</b><b class='flag-5'>学习</b>的原理，基于Keras实现<b class='flag-5'>迁移</b><b class='flag-5'>学习</b>

学校举办嵌入式物联网竞赛，需要确定一个课题，求大神们给点儿建议！

学校举办嵌入式物联网竞赛，需要确定一个课题，一点思路都没有，求大神们给点儿建议！

发表于 11-20 21:15

迁移学习训练网络

keras 之迁移学习,改变VGG16输出层,用imagenet权重retrain

发表于 09-09 11:02

迁移学习

经典机器学习算法介绍章节目标：机器学习是人工智能的重要技术之一，详细了解机器学习的原理、机制和方法，为学习深度学习与

发表于 04-21 15:15

我国首届人工智能·多媒体信息识别技术竞赛启动仪式在京召开

中国青年网北京3月21日电（记者郭凯薇）3月20日，首届中国人工智能·多媒体信息识别技术竞赛启动仪式暨新闻发布会在北京召开。据悉，竞赛旨在打造国内具有权威性和国际水准的人工智能领域竞赛

发表于 03-22 08:34 •1402次阅读

首届国网北京电力人工智能数据竞赛正式启动

为深入贯彻党中央国务院关于加快发展数字经济的战略部署，全面落实习近平总书记提出的科技创新具有引领国家发展的重要战略意义，要大力推动科技创新在实际生产中的落地应用的要求，国网北京市电力公司举办了首届国

发表于 12-02 15:57 •1782次阅读

腾讯宣布其人工智能球队获首届谷歌足球Kaggle竞赛冠军

12月30日，腾讯宣布其人工智能球队摘得了首届谷歌足球Kaggle竞赛冠军。这是一场由Google Research与英超曼城俱乐部在Kaggle平台上联合举办的足球AI比赛，经过多轮角逐，腾讯AI Lab研发的绝悟WeKick

发表于 12-30 15:58 •1946次阅读

ESPlay Retro Emulation复古模拟游戏机

./oschina_soft/esplay-retro-emulation.zip

发表于 06-21 11:32 •1次下载

一文详解迁移学习

迁移学习需要将预训练好的模型适应新的下游任务。然而，作者观察到，当前的迁移学习方法通常无法关注与任务相关的特征。在这项工作中，作者探索了重新聚焦模型注意力以进行

发表于 08-11 16:56 •6486次阅读

商密大会传捷报｜海泰方圆喜获首届“熵密杯”密码应用安全竞赛优胜奖

8月10日，国内首届“熵密杯”密码应用安全竞赛在“2023商用密码大会”期间隆重举办。本次竞赛是贯彻落实《中华人民共和国密码法》和新修订的《商用密码管理条例》的具体举措和创新实践，旨在

发表于 08-15 16:37 •954次阅读

视觉深度学习迁移学习训练框架Torchvision介绍

Torchvision是基于Pytorch的视觉深度学习迁移学习训练框架，当前支持的图像分类、对象检测、实例分割、语义分割、姿态评估模型的迁移学习

发表于 09-22 09:49 •978次阅读

OpenAI首届开发者日举办，新模型实现六大升级

　openai最初提供32k的上下文长度，而gpt-4 turbo则提供128k，相当于300页文档。openai还为开发者提供了更好的api、函数调用、一次调用多个函数并将响应整合到消息输出中的控制功能。

发表于 11-08 09:59 •641次阅读

高能回顾 | 首届OpenHarmony竞赛训练营精彩瞬间

点击蓝字 ╳ 关注我们开源项目 OpenHarmony 是每个人的 OpenHarmony 首届OpenAtom OpenHarmony（以下简称“OpenHarmony”）竞赛训练营线下决赛成功

发表于 11-11 21:10 •525次阅读

深圳举办首届网络创新发展峰会，OpenAI市值突破1000亿美元

大家好，欢迎收看河套 IT WALK 第 132 期。今天，首届网络创新发展峰会在深圳举办；AI领域的翘楚——OpenAI市值在资本市场上突破了重要里程碑，超过1000亿美元。首届

发表于 12-25 19:50 •1113次阅读

预训练和迁移学习的区别和联系

预训练和迁移学习是深度学习和机器学习领域中的两个重要概念，它们在提高模型性能、减少训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定义、原理、应用、区别和联系等方面详细探讨预训

发表于 07-11 10:12 •1335次阅读