0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种利用任何形式的先验策略来改进初始化强化学习任务的探索的方法

倩倩 来源:AI前线 作者:谷歌 AI 2022-09-06 14:20 次阅读

强化学习可以用于训练一种策略,使其能够在试错的情况下来完成任务,但强化学习面临的最大挑战就是,如何在具有艰难探索挑战的环境中从头学习策略。比如,考虑到 adroit manipulation 套件中的 door-binary-v0 环境所描述的设置,其中强化学习智能体必须在三维空间中控制一只手来打开放在它前面的门。

由于智能体没有收到任何中间奖励,它无法衡量自己离完成任务有多远,所以只能在空间里随机探索,直至门被打开为止。鉴于这项任务所需的时间以及对其进行精准的控制,这种可能性微乎其微。

对于这样的任务,我们可以通过使用先验信息来规避对状态空间的随机探索。这种先验信息有助于智能体了解环境的哪些状态是好的,应该进一步探索。

我们可以利用离线数据(即由人类演示者、脚本策略或其他强化学习智能体收集的数据),对策略进行训练,并将之用于初始化新的强化学习策略。如果采用神经网络来表达策略,则需要将预训练好的神经网络复制到新的强化学习策略中。这一过程使得新的强化学习策略看起来就像是预训练好的。但是,用这种幼稚的方式来进行新的强化学习通常是行不通的,尤其是基于值的强化学习方法,如下所示。

7ca49590-2da6-11ed-ba43-dac502259ad0.jpg

用离线数据在 antmaze-large-diverse-v0 D4RL 环境中对一种策略进行预训练(负向步骤对应预训练)。然后,我们使用该策略来初始化 actor-crittic 的微调(从第 0 步开始的正向步骤),以该预训练的策略作为初始 actor。crittic 是随机初始化的。由于未经训练的 critic 提供了一个糟糕的学习信号,并导致良好的初始策略被遗忘,所以 actor 的性能会立即下降,并且不会恢复。

有鉴于此,我们在“跳跃式强化学习”(Jump-Start Reinforcement Learning,JSRL)中,提出了一种可以利用任意一种与现存在的策略对任意一种强化学习算法进行初始化的元算法。

JSRL 在学习任务时采用了两种策略:一种是指导策略,另一种是探索策略。探索策略是一种强化学习策略,通过智能体从环境中收集的新经验进行在线训练,而指导策略是一种预先存在的任何形式的策略,在在线训练中不被更新。在这项研究中,我们关注的是指导策略从演示中学习的情景,但也可以使用许多其他类型的指导策略。JSRL 通过滚动指导策略创建了一个学习课程,然后由自我改进的探索策略跟进,其结果是与竞争性的 IL+RL 方法相比较或改进的性能。

JSRL 方法

指导策略可以采取任何形式:它可以是一种脚本化的策略,一种用于强化学习训练的策略,甚至是一个真人演示者。唯一的要求是,指导策略要合理(也就是优于随机探索),而且可以根据对环境的观察来选择行动。理想情况下,指导策略可以在环境中达到较差或中等的性能,但不能通过额外的微调来进一步改善自己。然后,JSRL 允许我们利用这个指导策略的进展,从而提到它的性能。

在训练开始时,我们将指导策略推出一个固定的步骤,使智能体更接近目标状态。然后,探索策略接手,继续在环境中行动以达到这些目标。随着探索策略性能的提高,我们逐渐减少指导策略的步骤,直到探索策略完全接管。这个过程为探索策略创建了一个起始状态的课程,这样在每个课程阶段,它只需要学习达到之前课程阶段的初始状态。

这个任务是让机械臂拿起蓝色木块。指导策略可以将机械臂移动到木块上,但不能将其拾起。它控制智能体,直到它抓住木块,然后由探索策略接管,最终学会拿起木块。随着探索策略的改进,指导策略对智能体的控制越来越少。

与 IL+RL 基线的比较

由于 JSRL 可以使用先前的策略来初始化强化学习,一个自然的比较是模仿和强化学习(IL+RL)方法,该方法在离线数据集上进行训练,然后用新的在线经验对预训练的策略进行微调。我们展示了 JSRL 在 D4RL 基准任务上与具有竞争力的 IL+RL 方法的比较情况。这些任务包括模拟机器人控制环境,以及来自人类演示者的离线数据集、计划者和其他学到的策略。在 D4RL 任务中,我们重点关注困难的蚂蚁迷宫和 adroit dexterous manipulation 环境。

7cbf5b14-2da6-11ed-ba43-dac502259ad0.jpg

对于每个实验,我们在一个离线数据集上进行训练,然后运行在线微调。我们与专门为每个环境设计的算法进行比较,这些算法包括 AWAC、IQL、CQL 和行为克隆。虽然 JSRL 可以与任何初始指导策略或微调算法结合使用,但我们使用我们最强大的基线——IQL,作为预训练的指导和微调。完整的 D4RL 数据集包括每个蚂蚁迷宫任务的一百万个离线转换。每个转换是一个格式序列(S, A, R, S'),它指定了智能体开始时的状态(S),智能体采取的行动(A),智能体收到的奖励(R),以及智能体在采取行动 A 后结束的状态(S')。

7cdc6a10-2da6-11ed-ba43-dac502259ad0.jpg

7cf95134-2da6-11ed-ba43-dac502259ad0.jpg

在 D4RL 基准套件的 antmaze-medium-diverse-v0 环境中的平均得分(最大值 =100)。即使在有限的离线转换的情况下,JSRL 也可以改进。

基于视觉的机器人任务

由于维度的限制,在复杂的任务中使用离线数据特别困难,比如基于视觉的机器人操纵。连续控制动作空间和基于像素的状态空间的高维度,给 IL+RL 方法带来了学习良好策略所需的数据量方面的扩展挑战。为了研究 JSRL 如何适应这种环境,我们重点研究了两个困难的仿生机器人操纵任务:无差别抓取(即,举起任何物体)和实例抓取(即,举起特定的目标物体)。

7d1396d4-2da6-11ed-ba43-dac502259ad0.jpg

一个仿生机械臂被放置在一张有各种类别物体的桌子前。当机械臂举起任何物体时,对于无差别的抓取任务,会给予稀疏的奖励。对于实例抓取任务,只有在抓取特定的目标物体时,才会给予稀疏的奖励。

我们将 JSRL 与能够扩展到复杂的基于视觉的机器人环境的方法进行比较,如 QT-Opt 和 AW-Opt。每种方法都可以获得相同的成功演示的离线数据集,并被允许运行多达 10 万步的在线微调。

在这些实验中,我们使用行为克隆作为指导策略,并将 JSRL 与 QT-Opt 相结合进行微调。QT-Opt+JSRL 的组合比其他所有方法改进得更快,同时获得了最高的成功率。

7d26259c-2da6-11ed-ba43-dac502259ad0.jpg

7d3ccca2-2da6-11ed-ba43-dac502259ad0.jpg

使用 2 千次成功演示,无差别和实例抓取环境的平均抓取成功率。

结语

我们提出了 JSRL,它是一种利用任何形式的先验策略来改进初始化强化学习任务的探索的方法。我们的算法通过在预先存在的指导策略中滚动,创建了一个学习课程,然后由自我改进的探索策略跟进。探索策略的工作被大大简化,因为它从更接近目标的状态开始探索。随着探索策略的改进,指导策略的影响也随之减弱,从而形成一个完全有能力的强化学习策略。在未来,我们计划将 JSRL 应用于 Sim2Real 等问题,并探索我们如何利用多种指导策略来训练强化学习智能体。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100874
  • 智能体
    +关注

    关注

    1

    文章

    152

    浏览量

    10593
  • 强化学习
    +关注

    关注

    4

    文章

    267

    浏览量

    11266

原文标题:如何使用先验策略有效地初始化强化学习?

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    STM32F407 MCU使用SD NAND 不断电初始化失效解决方案

    STM32F407微控制器单元(MCU)与SD NAND的结合提供了强大的存储解决方案。然而,不断电初始化失效问题可能会导致系统稳定性和数据完整性受损。我们将STM32F407与SD NAND集成时可能遇到的初始化问题,并提供专业的解决方案。
    的头像 发表于 12-11 10:51 370次阅读
    STM32F407 MCU使用SD NAND 不断电<b class='flag-5'>初始化</b>失效解决方案

    请问LMX2595配置时如何进行初始化

    寄存器的值如何确定?是按照我后期希望配置的锁定数据计算的寄存器值吗?还是说有个固定的值初始化呢?感谢。
    发表于 11-12 06:51

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互学习如何做出决策,以最大化累积奖励。
    的头像 发表于 11-05 17:34 319次阅读

    基于旋转平移解耦框架的视觉惯性初始化方法

    精确和鲁棒的初始化对于视觉惯性里程计(VIO)至关重要,因为不良的初始化会严重降低姿态精度。
    的头像 发表于 11-01 10:16 380次阅读
    基于旋转平移解耦框架的视觉惯性<b class='flag-5'>初始化</b><b class='flag-5'>方法</b>

    TMS320C6000 McBSP初始化

    电子发烧友网站提供《TMS320C6000 McBSP初始化.pdf》资料免费下载
    发表于 10-26 10:10 0次下载
    TMS320C6000 McBSP<b class='flag-5'>初始化</b>

    视频引擎初始化失败怎么回事

    视频引擎初始化失败是个常见的技术问题,它可能由多种原因引起,包括软件冲突、硬件问题、驱动程序问题、系统设置错误等。要解决这个问题,需要对可能的原因进行详细的分析和诊断。 1. 软件冲突 1.1
    的头像 发表于 09-18 18:18 1340次阅读

    Keil中变量不被初始化方法

    有些时候在我们的应用过程中要求变量有连续性,或者现场保留,例如Bootloader跳转,某种原因的复位过程中我们有些关键变量不能被初始化,在不同的编译环境下有不同的设置,本文就这个操作做总结,分别
    的头像 发表于 08-30 11:47 712次阅读
    Keil中变量不被<b class='flag-5'>初始化</b><b class='flag-5'>方法</b>

    迁移学习的基本概念和实现方法

    迁移学习(Transfer Learning)是机器学习领域中的个重要概念,其核心思想是利用任务
    的头像 发表于 07-04 17:30 1763次阅读

    通过强化学习策略进行特征选择

    更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习
    的头像 发表于 06-05 08:27 373次阅读
    通过<b class='flag-5'>强化学习</b><b class='flag-5'>策略</b>进行特征选择

    初始化IO口为外部中断线的时候,最先初始化的会被后初始化的覆盖掉为什么?

    初始化IO口为外部中断线的时候,比如GPIOA6与GPIOB6先后初始化为外部中断,最先初始化的会被后初始化的覆盖掉,不知道是为什么?
    发表于 05-14 08:26

    一种利用光电容积描记(PPG)信号和深度学习模型对高血压分类的新方法

    [22]。就像平均池样,最大池是另一种用于减小特征图大小的常用方法。它通过仅取每个区域的最大值
    发表于 05-11 20:01

    字符型、指针型等变量等该如何初始化

     对于数值类型的变量往往初始化为0,但对于其他类型的变量,如字符型、指针型等变量等该如何初始化呢?
    的头像 发表于 03-18 11:02 1522次阅读

    MCU单片机GPIO初始化该按什么顺序配置?为什么初始化时有电平跳变?

    GPIO初始化时有时钟配置、模式配置、输出配置、复用配置,那么在编写初始化代码时,到底该按什么顺序执行呢?如果顺序不当那初始化过程可能会出现短暂的电平跳变。
    的头像 发表于 02-22 11:07 1564次阅读
    MCU单片机GPIO<b class='flag-5'>初始化</b>该按什么顺序配置?为什么<b class='flag-5'>初始化</b>时有电平跳变?

    文详解Transformer神经网络模型

    Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中,通过试错
    发表于 02-20 09:55 1.4w次阅读
    <b class='flag-5'>一</b>文详解Transformer神经网络模型

    使用TIM中的TPWM模式读取从芯片引脚输入的pwm波的周期和占空比,如何初始化

    使用TIM中的TPWM模式读取从芯片引脚输入的pwm波的周期和占空比。如何初始化?我初始化TIM之后,TIM还是无法工作,而且初始化代码后面的代码没有运行。求用过TIM_TPWM模式
    发表于 02-20 08:33