0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何测试强化学习智能体适应性

EdXK_AI_News 来源:cg 2018-12-24 09:29 次阅读

强化学习(RL)能通过奖励或惩罚使智能体实现目标,并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷:由于数据科学家在它们接受训练的环境中对这个系统进行基准测试,所以产生了过拟合,即训练数据拟合程度过当的情况。非营利性人工智能研究公司OpenAI正在通过人工智能训练环境(CoinRun)来解决这个问题,该环境为智能体将其经验转移到不熟悉的场景的能力提供了一项衡量指标,它本质上就像一个拥有敌人、目标和不同难度关卡等完备信息的经典平台游戏。

OpenAI表示CoinRun在复杂性方面取得了理想的平衡效果,其训练环境比《刺猬索尼克》等传统游戏平台简单得多,但它仍然对最先进的算法提出了一个有价值的泛化问题。CoinRun的训练级别是程序生成的,可为智能体提供大量易于量化的训练数据。

正如OpenAI所解释的那样,之前在强化学习环境中所做的工作主要集中在程序生成的迷宫、像一般电子游戏AI框架这样的社区项目以及像《刺猬索尼克》这样的游戏上,通过在不同等级上的训练和测试智能体来衡量泛化效果。相比之下,CoinRun在每个等级训练结束时都会为智能体提供一个奖励。

在传统的训练中,AI智能体必须应对碰撞以后会导致死亡的固定或者移动的障碍。当收集完硬币,或者走1000步之后,训练就结束了。

似乎这还不够,所以OpenAI开发了两个额外的环境来探索过拟合的问题:CoinRun-Platforms和RandomMazes。CoinRun-Platforms包括随机分散在平台上的几个硬币,促使智能体积极探索关卡并时不时做一些回溯。RandomMazes是一个简单的迷宫导航任务。

为了验证CoinRun、CoinRun-Platforms和RandomMazes,OpenAI培训了9个智能体,每个智能体具有不同数量的训练等级。前8个接受了100到16000个等级的训练,最后一个接受了不受限制的等级训练——实际上大约是200万个——这样它就不会两次看到相同的等级。

智能体在4000训练等级处出现了过拟合,甚至在16000的训练等级处也是这样。表现最佳的智能体竟然是那些受到无限制水平训练的。在CoinRun-Platforms和RandomMazes中,智能体在所有情况下都过拟合了。

OpenAI称,使用程序生成的CoinRun环境可以精确地量化这种过拟合,可以更好地评估关键架构和算法决策。OpenAI相信从这种环境中汲取的经验教训将适用于更复杂的环境,也希望利用这一基准,以及其他类似的基准来迭代开发更通用的智能体。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1800

    文章

    48083

    浏览量

    242144
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11366

原文标题:OpenAI提出能测试强化学习智能体适应性的新方法

文章出处:【微信号:AI_News,微信公众号:人工智能快报】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 161次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    高低温测试箱:解锁电子产品环境适应性的秘密武器

    高低温测试箱模拟极端环境评估电子产品适应性,确保稳定运行,助制造商发现不足并优化产品。其高度自动化智能化,提供准确测试报告,对提升产品质量、缩短研发周期等发挥重要作用。在当今快速发展的
    的头像 发表于 02-11 14:05 186次阅读
    高低温<b class='flag-5'>测试</b>箱:解锁电子产品环境<b class='flag-5'>适应性</b>的秘密武器

    振弦式应变计的环境适应性与性能分析

    ,不同的工作环境对应变计的性能提出了不同的要求。南京峟思将针对振弦式应变计的环境适应性和性能进行详细分析。一、振弦式应变计的环境适应性振弦式应变计适用于长期埋设在水工结构物或其
    的头像 发表于 01-16 13:19 159次阅读
    振弦式应变计的环境<b class='flag-5'>适应性</b>与性能分析

    电源滤波器对于不同类型电源的适应性如何

    电源滤波器滤除电源线噪声,保障电源纯净稳定,适用于家庭、工业及商业用电,对不同类型电源有良好适应性,随电子技术发展不断创新,保障电源质量及设备稳定性。
    的头像 发表于 12-23 14:08 302次阅读
    电源滤波器对于不同类型电源的<b class='flag-5'>适应性</b>如何

    【「具身智能机器人系统」阅读体验】+初品的体验

    解决许多技术的和非技术的挑战,如提高智能的自主、处理复杂环境互动的能力及确保行为的伦理和安全。 未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合,以探索更加先进的知识表
    发表于 12-20 19:17

    BNC插座弯式适应性怎样

    德索工程师说道BNC插座弯式在适应性方面具有显著的优势,这些优势主要体现在空间利用、布线灵活性、信号传输质量以及应用场景的广泛等多个方面。以下是对BNC插座弯式适应性的详细分析:   BNC插座
    的头像 发表于 12-07 16:22 245次阅读
    BNC插座弯式<b class='flag-5'>适应性</b>怎样

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    近日,专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉,此次交易完成后,边塞科技将保持独立运营,而原投资人已全部退出。 与此同时,蚂蚁集团近期宣布成立强化学习实验室,旨在推动大模型强化学习
    的头像 发表于 11-22 11:14 916次阅读

    贴片电阻选型:全面考量技术参数与环境适应性

    贴片电阻选型:全面考量技术参数与环境适应性
    的头像 发表于 11-16 11:24 563次阅读

    如何使用 PyTorch 进行强化学习

    的计算图和自动微分功能,非常适合实现复杂的强化学习算法。 1. 环境(Environment) 在强化学习中,环境是一个抽象的概念,它定义了智能(agent)可以执行的动作(acti
    的头像 发表于 11-05 17:34 563次阅读

    具身智能与机器学习的关系

    (如机器人、虚拟代理等)通过与物理世界或虚拟环境的交互来获得、发展和应用智能的能力。这种智能不仅包括认知和推理能力,还包括感知、运动控制和环境适应能力。具身智能强调
    的头像 发表于 10-27 10:33 627次阅读

    谷歌AlphaChip强化学习工具发布,联发科天玑芯片率先采用

    近日,谷歌在芯片设计领域取得了重要突破,详细介绍了其用于芯片设计布局的强化学习方法,并将该模型命名为“AlphaChip”。据悉,AlphaChip有望显著加速芯片布局规划的设计流程,并帮助芯片在性能、功耗和面积方面实现更优表现。
    的头像 发表于 09-30 16:16 527次阅读

    如何在自己的固件中增加wifi自适应性相关功能,以通过wifi自适应认证测试

    目前官方提供了自适应测试固件 ESP_Adaptivity_v2.0_26M_20160322.bin 用于进行 wifi 自适应认证测试. 请问如何在自己的固件中增加 wifi 自
    发表于 07-12 08:29

    7芯M16插头环境适应性测试

      德索工程师说道7芯M16插头环境适应性测试是评估该类型插头在不同环境条件下工作性能和稳定性的重要环节。以下是关于7芯M16插头环境适应性测试的详细介绍,包括
    的头像 发表于 06-14 18:04 412次阅读
    7芯M16插头环境<b class='flag-5'>适应性</b><b class='flag-5'>测试</b>

    通过强化学习策略进行特征选择

    更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习,尤其是马尔可夫决策
    的头像 发表于 06-05 08:27 473次阅读
    通过<b class='flag-5'>强化学习</b>策略进行特征选择

    CYW43455如何设置ED(能量检测)的适应性阈值吗?

    我想设置 ED(能量检测)的适应性阈值吗? * 如何激活 ED?
    发表于 05-31 07:08