0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何测试强化学习智能体适应性

EdXK_AI_News 来源:cg 2018-12-24 09:29 次阅读

强化学习(RL)能通过奖励或惩罚使智能体实现目标,并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷:由于数据科学家在它们接受训练的环境中对这个系统进行基准测试,所以产生了过拟合,即训练数据拟合程度过当的情况。非营利性人工智能研究公司OpenAI正在通过人工智能训练环境(CoinRun)来解决这个问题,该环境为智能体将其经验转移到不熟悉的场景的能力提供了一项衡量指标,它本质上就像一个拥有敌人、目标和不同难度关卡等完备信息的经典平台游戏。

OpenAI表示CoinRun在复杂性方面取得了理想的平衡效果,其训练环境比《刺猬索尼克》等传统游戏平台简单得多,但它仍然对最先进的算法提出了一个有价值的泛化问题。CoinRun的训练级别是程序生成的,可为智能体提供大量易于量化的训练数据。

正如OpenAI所解释的那样,之前在强化学习环境中所做的工作主要集中在程序生成的迷宫、像一般电子游戏AI框架这样的社区项目以及像《刺猬索尼克》这样的游戏上,通过在不同等级上的训练和测试智能体来衡量泛化效果。相比之下,CoinRun在每个等级训练结束时都会为智能体提供一个奖励。

在传统的训练中,AI智能体必须应对碰撞以后会导致死亡的固定或者移动的障碍。当收集完硬币,或者走1000步之后,训练就结束了。

似乎这还不够,所以OpenAI开发了两个额外的环境来探索过拟合的问题:CoinRun-Platforms和RandomMazes。CoinRun-Platforms包括随机分散在平台上的几个硬币,促使智能体积极探索关卡并时不时做一些回溯。RandomMazes是一个简单的迷宫导航任务。

为了验证CoinRun、CoinRun-Platforms和RandomMazes,OpenAI培训了9个智能体,每个智能体具有不同数量的训练等级。前8个接受了100到16000个等级的训练,最后一个接受了不受限制的等级训练——实际上大约是200万个——这样它就不会两次看到相同的等级。

智能体在4000训练等级处出现了过拟合,甚至在16000的训练等级处也是这样。表现最佳的智能体竟然是那些受到无限制水平训练的。在CoinRun-Platforms和RandomMazes中,智能体在所有情况下都过拟合了。

OpenAI称,使用程序生成的CoinRun环境可以精确地量化这种过拟合,可以更好地评估关键架构和算法决策。OpenAI相信从这种环境中汲取的经验教训将适用于更复杂的环境,也希望利用这一基准,以及其他类似的基准来迭代开发更通用的智能体。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1789

    文章

    46562

    浏览量

    236877
  • 强化学习
    +关注

    关注

    4

    文章

    264

    浏览量

    11195

原文标题:OpenAI提出能测试强化学习智能体适应性的新方法

文章出处:【微信号:AI_News,微信公众号:人工智能快报】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    具身智能与机器学习的关系

    (如机器人、虚拟代理等)通过与物理世界或虚拟环境的交互来获得、发展和应用智能的能力。这种智能不仅包括认知和推理能力,还包括感知、运动控制和环境适应能力。具身智能强调
    的头像 发表于 10-27 10:33 213次阅读

    谷歌AlphaChip强化学习工具发布,联发科天玑芯片率先采用

    近日,谷歌在芯片设计领域取得了重要突破,详细介绍了其用于芯片设计布局的强化学习方法,并将该模型命名为“AlphaChip”。据悉,AlphaChip有望显著加速芯片布局规划的设计流程,并帮助芯片在性能、功耗和面积方面实现更优表现。
    的头像 发表于 09-30 16:16 367次阅读

    焊接达人必修课:探究金属材料焊接的六大要素

    金属材料焊接,是指金属材料对焊接加工的适应性和焊后使用时的可靠。金属材料的焊接,主要取决于材料的化学成分、结构和性能等。其中,
    的头像 发表于 08-08 11:22 376次阅读
    焊接达人必修课:探究金属材料焊接<b class='flag-5'>性</b>的六大要素

    FPGA在人工智能中的应用有哪些?

    定制化的硬件设计,提高了硬件的灵活性和适应性。 综上所述,FPGA在人工智能领域的应用前景广阔,不仅可以用于深度学习的加速和云计算的加速,还可以针对特定应用场景进行定制化计算,为人工智能
    发表于 07-29 17:05

    如何在自己的固件中增加wifi自适应性相关功能,以通过wifi自适应认证测试

    目前官方提供了自适应测试固件 ESP_Adaptivity_v2.0_26M_20160322.bin 用于进行 wifi 自适应认证测试. 请问如何在自己的固件中增加 wifi 自
    发表于 07-12 08:29

    7芯M16插头环境适应性测试

      德索工程师说道7芯M16插头环境适应性测试是评估该类型插头在不同环境条件下工作性能和稳定性的重要环节。以下是关于7芯M16插头环境适应性测试的详细介绍,包括
    的头像 发表于 06-14 18:04 267次阅读
    7芯M16插头环境<b class='flag-5'>适应性</b><b class='flag-5'>测试</b>

    焊接高手进阶指南:金属材料焊接的影响因素全解析

    金属材料焊接,是指金属材料对焊接加工的适应性和焊后使用时的可靠。金属材料的焊接,主要取决于材料的化学成分、结构和性能等。其中,
    的头像 发表于 06-05 09:56 3268次阅读
    焊接高手进阶指南:金属材料焊接<b class='flag-5'>性</b>的影响因素全解析

    通过强化学习策略进行特征选择

    更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习,尤其是马尔可夫决策
    的头像 发表于 06-05 08:27 304次阅读
    通过<b class='flag-5'>强化学习</b>策略进行特征选择

    CYW43455如何设置ED(能量检测)的适应性阈值吗?

    我想设置 ED(能量检测)的适应性阈值吗? * 如何激活 ED?
    发表于 05-31 07:08

    普通测径仪和智能测径仪的五大区别

    自动测量、自动识别和自动调整等功能。智能测径仪还可以通过算法优化和机器学习等技术,不断提升自身的测量精度和稳定性,实现更高效的测量。 四、适应性与灵活性的差异 普通测径仪通常只能针对特定类型的工件进行
    发表于 05-29 17:33

    人工智能(AI)驱动的传感技术发展综述

    机器学习(ML)和深度学习(DL)技术正在迅速推动传感技术的发展,显著提升了其准确、灵敏度和适应性
    的头像 发表于 05-24 09:36 1720次阅读
    人工<b class='flag-5'>智能</b>(AI)驱动的传感技术发展综述

    AGV无线充电技术成熟度:系统稳定性和环境适应性的重要

    环境适应性这些关键方面取得进展,AGV无线充电技术才会真正迈向成熟,助力工业领域实现更广泛的自动化和效率革命。
    的头像 发表于 12-22 10:47 671次阅读

    汽车环境适应性试验:挑战全球气候,保障行车安全

    长期使用过程中的性能变化。   2、地区环境适应性试验:针对不同地区的气候特点,对汽车进行适应性测试。例如,在沙漠地区进行高温试验,以测试车辆在极端高温环境下的耐
    的头像 发表于 12-20 14:34 654次阅读
    汽车环境<b class='flag-5'>适应性</b>试验:挑战全球气候,保障行车安全

    风电机组变流器测试应用

    实时运行在CPU上,实时仿真步长可做到50-100us。 (二)测试内容实时仿真平台可以对风电机组变流器进行入网标准测试,如电网适应性测试、宽频振荡阻抗特性
    发表于 12-13 17:54

    怎么测试交直流一化电源?交直流一化电源测试系统如何测试

    交直流一化电源拥有高度适应性,可以用于不同的电力需求领域。但是为了确保其质量和性能,需要对交直流一化电源进行各项测试以保证正常工作。本文纳米软件将介绍交直流一
    的头像 发表于 11-23 14:59 575次阅读