如何测试强化学习智能体适应性-电子发烧友网

强化学习（RL）能通过奖励或惩罚使智能体实现目标，并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷：由于数据科学家在它们接受训练的环境中对这个系统进行基准测试，所以产生了过拟合，即训练数据拟合程度过当的情况。非营利性人工智能研究公司OpenAI正在通过人工智能训练环境（CoinRun）来解决这个问题，该环境为智能体将其经验转移到不熟悉的场景的能力提供了一项衡量指标，它本质上就像一个拥有敌人、目标和不同难度关卡等完备信息的经典平台游戏。

OpenAI表示CoinRun在复杂性方面取得了理想的平衡效果，其训练环境比《刺猬索尼克》等传统游戏平台简单得多，但它仍然对最先进的算法提出了一个有价值的泛化问题。CoinRun的训练级别是程序生成的，可为智能体提供大量易于量化的训练数据。

正如OpenAI所解释的那样，之前在强化学习环境中所做的工作主要集中在程序生成的迷宫、像一般电子游戏AI框架这样的社区项目以及像《刺猬索尼克》这样的游戏上，通过在不同等级上的训练和测试智能体来衡量泛化效果。相比之下，CoinRun在每个等级训练结束时都会为智能体提供一个奖励。

在传统的训练中，AI智能体必须应对碰撞以后会导致死亡的固定或者移动的障碍。当收集完硬币，或者走1000步之后，训练就结束了。

似乎这还不够，所以OpenAI开发了两个额外的环境来探索过拟合的问题：CoinRun-Platforms和RandomMazes。CoinRun-Platforms包括随机分散在平台上的几个硬币，促使智能体积极探索关卡并时不时做一些回溯。RandomMazes是一个简单的迷宫导航任务。

为了验证CoinRun、CoinRun-Platforms和RandomMazes，OpenAI培训了9个智能体，每个智能体具有不同数量的训练等级。前8个接受了100到16000个等级的训练，最后一个接受了不受限制的等级训练——实际上大约是200万个——这样它就不会两次看到相同的等级。

智能体在4000训练等级处出现了过拟合，甚至在16000的训练等级处也是这样。表现最佳的智能体竟然是那些受到无限制水平训练的。在CoinRun-Platforms和RandomMazes中，智能体在所有情况下都过拟合了。

OpenAI称，使用程序生成的CoinRun环境可以精确地量化这种过拟合，可以更好地评估关键架构和算法决策。OpenAI相信从这种环境中汲取的经验教训将适用于更复杂的环境，也希望利用这一基准，以及其他类似的基准来迭代开发更通用的智能体。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1800

文章
48083

浏览量
242144
强化学习

强化学习

+关注

关注
4

文章
269

浏览量
11366

原文标题：OpenAI提出能测试强化学习智能体适应性的新方法

文章出处：【微信号：AI_News，微信公众号：人工智能快报】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

如何测试强化学习智能体适应性

评论

详解RAD端到端强化学习后训练范式

高低温测试箱：解锁电子产品环境适应性的秘密武器

振弦式应变计的环境适应性与性能分析

电源滤波器对于不同类型电源的适应性如何

【「具身智能机器人系统」阅读体验】+初品的体验

BNC插座弯式适应性怎样

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

贴片电阻选型：全面考量技术参数与环境适应性

如何使用 PyTorch 进行强化学习

具身智能与机器学习的关系

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

如何在自己的固件中增加wifi自适应性相关功能,以通过wifi自适应认证测试？

7芯M16插头环境适应性测试

通过强化学习策略进行特征选择

CYW43455如何设置ED（能量检测）的适应性阈值吗？