量化深度强化学习算法的泛化能力-电子发烧友网

OpenAI近期发布了一个新的训练环境 CoinRun，它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标，而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化算法在训练过程中也总是没有运用监督学习的技术，例如 Dropout 和 Batch Normalization。但是在 CoinRun的泛化机制中，OpenAI的研究人员们发现这些方法其实有用，并且他们更早开发的强化学习会对特定的 MDP过拟合。 CoinRun 在复杂性方面取得了令人满意的平衡：这个环境比传统平台游戏如《刺猬索尼克》要简单得多，但它仍是对现有算法的泛化性的有难度的挑战。

量化深度强化学习算法的泛化能力

泛化挑战

任务间的泛化一直是当前深度强化学习(RL)算法的难点。虽然智能体经过训练后可以解决复杂的任务，但他们很难将习得经验转移到新的环境中。即使人们知道强化学习智能体倾向于过拟合——也就是说，不是学习通用技能，而更依赖于他们环境的细节——强化学习智能体始终是通过评估他们所训练的环境来进行基准测试。这就好比，在监督学习中对你的训练集进行测试一样！

之前的强化学习研究中已经使用了Sonic游戏基准、程序生成的网格世界迷宫，以及通用化设计的电子游戏 AI 框架来解决这个问题。在所有情况下，泛化都是通过在不同级别集合上的训练和测试智能体来进行度量的。在OpenAI的测试中，在 Sonic游戏基准中受过训练的智能体在训练关卡上表现出色，但是如果不经过精细调节（fine-tuning）的话，在测试关卡中仍然会表现不佳。在类似的过拟合显示中，在程序生成的迷宫中训练的智能体学会了记忆大量的训练关卡，而 GVG-AI 智能体在训练期间未见过的难度设置下表现不佳。

游戏规则

CoinRun 是为现有算法而设计的一个有希望被解决的场景，它模仿了Sonic等平台游戏的风格。CoinRun 的关卡是程序生成的，使智能体可以访问大量且易于量化的训练数据。每个 CoinRun 关卡的目标很简单：越过几个或静止或非静止的障碍物，并收集到位于关卡末尾的一枚硬币。如果碰撞到障碍物，智能体就会立即死亡。环境中唯一的奖励是通过收集硬币获得的，而这个奖励是一个固定的正常数。当智能体死亡、硬币被收集或经过1000个时间步骤后，等级终止。

每个关卡的 CoinRun 设置难度从 1 到 3 .上面显示了两种不同的关卡：难度-1（左）和难度-3（右）

评估泛化

OpenAI 训练了 9个智能体来玩 CoinRun，每个智能体都有不同数量的可用训练关卡。其中 8个智能体的训练关卡数目从 100 到 16000 不等，最后一个智能体的关卡数目不受限制，因此它也永远不会经历相同的训练关卡。OpenAI使用一个常见的 3 层卷积网络架构（他们称之为Nature-CNN），在其上训练智能体的策略。他们使用近端策略优化(PPO)对智能体进行了训练，总共完成了 256M 的时间步骤。由于每轮训练平均持续 100 个时间步骤，具有固定训练集的智能体将会看到每个相同的训练级别数千到数百万次。而最后那一个不受限制的智能体，经过不受限制的集合训练，则会看到约 200 万个不同的关卡，每个关卡一次。

OpenAI收集了数据并绘制出了下面的图，每个点表示智能体在 10000轮训练中的表现的平均值。在测试时使用智能体进行从未见过的关卡。他们发现，当训练关卡数目低于 4000 时，就会出现严重的过拟合。事实上，即使有 16000 个关卡的训练，仍会出现过拟合现象！不出所料，接受了不受限水平训练的智能体表现最好，因为它可以访问最多的数据。这些智能体用下图中的虚线表示。

他们将 Nature-CNN 基线与 IMPALA 中使用的卷积网络进行了比较，发现 IMPALA- cnn 智能体在任何训练集下的泛化效果都要好得多，如下所示。

量化深度强化学习算法的泛化能力

（左）最终训练和测试cnn - nature agent的性能，经过256M的时间步长，横轴是训练关卡数目。

（右）最终训练并测试IMPALA-CNN agent的性能，经过256M的时间步长，横轴是训练关卡数目

提高泛化性能

在接下来的实验中，OpenAI 使用了 500 个CoinRun级别的固定训练集。OpenAI的基准智能体在如此少的关卡数目上泛化，这使它成为一个理想的基准训练集。他们鼓励其他人通过在相同的 500 个关卡上进行训练来评估他们自己的方法，直接比较测试时的性能。利用该训练集，他们研究了几种正则化技术的影响:

dropout （当一个复杂的前馈神经网络在小的数据集上训练时容易造成过拟合。为了防止这种情况的发生，可以通过在不同的时候让不同的特征检测器不参与训练的做法来提高神经网络的性能）和 L2批量正则化（就是在深度神经网络训练过程中，让每一层神经网络的输入都保持相同分布的批标准化）：两者都带来了更好的泛化性能，而 L2 正则化的影响更大

数据增强和批量标准化：数据增强和批量标准化都显著改善了泛化。

环境随机性：与前面提到的任何一种技术相比，具有随机性的训练在更大程度上改善了泛化(详见论文https://arxiv.org/abs/1812.02341)。

量化深度强化学习算法的泛化能力

额外的环境

OpenAI 还开发了另外两个环境来研究过拟合：一个名为 CoinRun-Platforms的 CoinRun 变体和一个名为 RandomMazes 的简单迷宫导航环境。在这些实验中，他们使用了原始的 IMPALA-CNN 架构和 LSTM，因为他们需要足够的内存来保证在这些环境中良好地运行。

在 CoinRun-Platforms 中，智能体试图在 1000 步时限内收集几个硬币。硬币被随机地分散在关卡的不同平台上。在 CoinRun-Platforms 中，关卡更大、更固定，因此智能体必须更积极地探索，偶尔还要回溯其步骤。

量化深度强化学习算法的泛化能力

在 CoinRun-Platforms 上经过 20 亿个时间步骤后的最终训练和测试性能，横轴是训练关卡数目

当他们在基线智能体实验中测试运行 CoinRun-Platforms和 RandomMazes 时，智能体在所有情况下都非常严重过拟合。在 RandomMazes中，他们观察到特别强的过拟合，因为即使使用 20,000 个训练关卡是，仍然与无限关卡的智能体存在相当大的泛化差距。

RandomMazes中的一个级别，显示智能体的观察空间（左）。横轴是训练关卡数目

下一步

OpenAI 的结果再次揭示了强化学习中潜在的问题。使用程序生成的 CoinRun 环境可以精确地量化这种过拟合。有了这个度量，研究人员们可以更好地评估关键的体系结构和算法决策。他相信，从这个环境中吸取的经验教训将适用于更复杂的环境，他们希望使用这个基准，以及其他类似的基准，向具有通用泛化能力的智能体迭代前进。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

学习算法

学习算法

+关注

关注
0

文章
15

浏览量
7495

原文标题：学界 | 量化深度强化学习算法的泛化能力

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1570次阅读

什么是<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>?<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b><b class='flag-5'>算法</b>应用分析

深度学习DeepLearning实战

一：深度学习DeepLearning实战时间地点：1 月 15日— 1 月18 日二：深度强化学习核心技术实战时间地点： 1 月 27 日— 1 月30 日(第一天报到授课三天；提前

发表于 01-09 17:01

深度强化学习实战

发表于 01-10 13:42

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深

发表于 06-29 18:36 •2.8w次阅读

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

发表于 11-02 16:18 •2.2w次阅读

深度强化学习到底是什么？它的工作原理是怎么样的

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经

发表于 06-13 11:39 •6201次阅读

83篇文献、万字总结强化学习之路

深度强化学习是深度学习与强化学习相结合的产物，它集成了深度学

发表于 12-10 18:32 •641次阅读

机器学习中的无模型强化学习算法及研究综述

强化学习（ Reinforcement learning，RL）作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式，通过与环境进行

发表于 04-08 11:41 •11次下载

模型化深度强化学习应用研究综述

深度强化学习（DRL）作为机器学习的重要分攴，在 Alphago击败人类后受到了广泛关注。DRL以种试错机制与环境进行交互，并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型

发表于 04-12 11:01 •9次下载

基于深度强化学习仿真集成的压边力控制模型

压边为改善板料拉深制造的成品质量，釆用深度强化学习的方法进行拉深过程旳压边力优化控制。提岀一种基于深度强化学习与有限元仿真集成的压边力控制模型，结合

发表于 05-27 10:32 •0次下载

一种新型的多智能体深度强化学习算法

一种新型的多智能体深度强化学习算法

发表于 06-23 10:42 •36次下载

基于深度强化学习的无人机控制律设计方法

基于深度强化学习的无人机控制律设计方法

发表于 06-23 14:59 •46次下载

《自动化学报》—多Agent深度强化学习综述

突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力,深度

发表于 01-18 10:08 •1696次阅读

ESP32上的深度强化学习

电子发烧友网站提供《ESP32上的深度强化学习.zip》资料免费下载

发表于 12-27 10:31 •0次下载

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测

发表于 07-19 14:35 •0次下载

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

量化深度强化学习算法的泛化能力

评论

什么是深度强化学习?深度强化学习算法应用分析

深度学习DeepLearning实战

深度强化学习实战

将深度学习和强化学习相结合的深度强化学习DRL

基于强化学习的MADDPG算法原理及实现

深度强化学习到底是什么？它的工作原理是怎么样的

83篇文献、万字总结强化学习之路

机器学习中的无模型强化学习算法及研究综述

模型化深度强化学习应用研究综述

基于深度强化学习仿真集成的压边力控制模型

一种新型的多智能体深度强化学习算法

基于深度强化学习的无人机控制律设计方法

《自动化学报》—多Agent深度强化学习综述

ESP32上的深度强化学习

基于强化学习的目标检测算法案例