0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

强化学习中泛化的对比性行为相似性嵌入向量

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-11-02 10:05 次阅读

强化学习 (RL) 是一种顺序决策范例,用于训练智能体来处理复杂的任务,例如机器人运动、玩视频游戏、放飞平流层气球以及设计硬件芯片等。

放飞平流层气球

http://rdcu.be/cbBRc

玩视频游戏

https://ai.googleblog.com/2020/04/an-optimistic-perspective-on-offline.html

虽然 RL 智能体已经在各种活动任务中呈现出很好的结果,但很难将这些智能体的能力转移到新的任务中,即便这些任务在语义层面上是等同的。例如,在跳跃任务中,智能体需要从图像观察中学习如何跳过一个障碍物。在用于训练 Deep RL 智能体的一些任务中,障碍物位置是变化的,此时若障碍出现在先前没有见过的位置上,则这类智能体很难成功地跃过。

跳跃任务:智能体(白块),从像素中学习如何跳过一个障碍物(灰色方块)。本任务的挑战在于,如何在测试任务中使用少量的训练任务来泛化未见过的障碍物位置和离地高度。在指定的任务中,智能体需要在离障碍物一定距离时准确地确定跳跃的时间,否则会撞到障碍物

在发表于 ICLR 2021 的“强化学习中泛化的对比性行为相似性嵌入向量 (Contrastive Behavioral Similarity Embeddings for Generalization in Reinforcement Learning)”一文中,我们将 RL 中固有的顺序结构纳入表征学习过程,以增强对未见过的任务的泛化。这与之前的主流方法不同,主流方法通常是由监督学习 (Supervised learning) 改编而来,因此在很大程度上忽略了这里提及的顺序方面。而我们的方法则利用了这样一个事实:智能体在具有相似根本方法的任务中进行操作时,至少会在这些任务中表现出类似的短序列性的行为。

强化学习中泛化的对比性行为相似性嵌入向量

https://agarwl.github.io/pse/

之前关于泛化的研究通常是由监督学习改编而来,并主要围绕加强学习过程。这些方法很少利用序列方面的属性,例如时间观察中操作的相似性

我们的方法是训练智能体学习一种表征,智能体在某些状态下的最佳行为和未来状态接近时,这些状态就是相似的。这种接近的概念,我们称之为行为相似性,可以泛化至不同任务中的观察结果。为了衡量不同任务的状态之间的行为相似性(例如,跳跃任务中不同的障碍物位置),我们引入了策略相似性指标(PSM),这是一个在理论层面驱动的状态相似性指标,受互模拟的启发而成。例如下图所示,智能体在两个视觉上不同的状态下,未来操作是相同的,因此,根据 PSM,这些状态就是相似的。

互模拟

https://arxiv.org/pdf/1207.4114.pdf

了解行为相似性。智能体(蓝色图标)需要在远离危险图标的情况下取得奖励。即便初始状态在视觉上是不同的,但就其在当前状态以及紧接着的未来状态下的最佳行为而言,它们是相似的。策略相似性指标 (PSM) 将高相似度分配给这种行为上相似的状态,将低相似度分配给不相似的状态

为了提升泛化程度,我们的方法学习了状态嵌入向量,对应基于神经网络的任务状态表征,将行为上相似的状态聚集在一起(如上图),同时将行为上不相似的状态分开。为此,我们提出了对比性指标嵌入向量(CMEs),利用对比性学习的优势来学习基于状态相似性指标的表征。我们将对比性嵌入向量与策略相似性指标 (PSM) 进行实例化,用来学习策略相似性嵌入向量(PSEs)。PSEs 将相似的表征分配给在这些状态和未来状态下具有相似行为的状态,如上图所示的两个初始状态。

如下列结果所示,PSEs 显著增强了前面提到的从像素学习的跳跃任务的泛化能力,其表现优于先前的方法。

从像素学习的跳跃任务

https://github.com/google-research/jumping-task

网格配置
方法 “宽” “窄” “随机”
正则化 17.2 (2.2) 10.2 (4.6) 9.3 (5.4)
PSEs 33.6(10.0) 9.3 (5.3) 37.7(10.4)
数据增强 50.7 (24.2) 33.7 (11.8) 71.3 (15.6)
数据增强 + 互模拟 41.4 (17.6) 17.4 (6.7) 33.4 (15.6)
数据增强 +PSEs 87.0(10.1) 52.4(5.8) 83.4(10.1)

跳跃任务结果:在有数据增强和无数据增强的情况下,不同方法解决的测试任务比例 (%)。下图显示了“宽”、“窄”和“随机”网格的配置,包含 18 个训练任务和 268 个测试任务。我们报告了不同随机初始化 100 次运行的平均性能,括号内为标准差

正则化

https://arxiv.org/abs/1810.00123

数据增强

https://arxiv.org/abs/1910.05396

互模拟

https://arxiv.org/abs/2006.10742

跳跃任务网格配置:不同配置下带有数据增强的 PSEs 平均性能的可视化。对于每种网格配置,高度沿 Y 轴变化(11 个高度),而障碍物位置沿 X 轴变化(26 个位置)。红色字母 T 表示训练任务。米色方块是 PSEs 解决的任务,而黑色方块是未解决的任务,均在有数据增强的情况下进行

我们还对 PSEs 和基线方法学到的表征进行了可视化,通过 UMAP 将它们投射到 2D 点上,这是一种常用的高维度数据可视化技术。如可视化图像所示,PSEs 将行为上相似的状态聚集在一起,而将不相似的状态分开,这与之前的方法不同。此外,PSEs 将状态分为两组:(1) 跳跃前的所有状态;(2) 操作不影响结果的状态(跳跃后的状态)。

UMAP

https://pair-code.github.io/understanding-umap/

将已学习的表征可视化。(a) 障碍物位置不同的情况下,跳跃任务(彩色方块)的最佳轨迹。具有相同数字标签的点表示智能体与障碍物距离相同,这是在各种跳跃任务中作为基础的最佳不变特征。(b-d) 我们用 UMAP 可视化隐藏的表征,其中点的颜色表示相应观察的任务。(b) PSEs 捕捉到了正确的不变特征,如图所示,具有相同数字标签的点被聚集在了一起。也就是说,在跳跃操作(编号为 2 的方块)之后,所有其他操作(无编号方块)都是相似的,如重叠的曲线所示。与 PSEs 相反,包括 (c) l2-loss 嵌入向量(而不是对比性损失)和 (d) 基于奖励的互模拟指标在内的基线并没有把具有相似数字标签、行为上相似的状态放在一起。(c, d) 的泛化能力较弱,可能是由于具有相似最佳行为的状态最终被放在远距离嵌入向量上

结论

总体上看,本文展现了利用 RL 中的固有结构来学习有效表征的优势。具体来说,本文展示了两项可推进 RL 中泛化的贡献:策略相似性指标和对比性指标嵌入向量。PSEs 结合这两种思路来加强泛化。对于未来工作,值得探究的方向包括找到更好的方法来定义行为相似性,并利用这种结构进行表征学习。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    455

    文章

    50771

    浏览量

    423425
  • 智能体
    +关注

    关注

    1

    文章

    149

    浏览量

    10577
  • 强化学习
    +关注

    关注

    4

    文章

    266

    浏览量

    11251

原文标题:利用策略相似性嵌入向量 (PSEs) 提高强化学习的泛化程度

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    JCMsuite应用:散射体的光学手性响应

    在JCMsuite,利用光学手性的形式和内置的手性参量可以计算光散射体的手性响应。结果表明,时间谐波光学手性密度服从局部连续方程[1]。这使得手性行为的分析类似于研究电磁能量的标准消光实验。 在
    发表于 12-25 15:37

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    方法应该捕捉任务之间的结构相似性,便于知识迁移。 针对“9.3关键选择及利弊权衡”这一小节的内容,书中是用纯文字叙述,而我将其结构整理成表格,方便直观对比两种方法。 比较维度 预训练+微调+ICL
    发表于 12-24 15:03

    JCMsuite应用:散射体的光学手性响应

    在JCMsuite,利用光学手性的形式和内置的手性参量可以计算光散射体的手性响应。结果表明,时间谐波光学手性密度服从局部连续方程[1]。这使得手性行为的分析类似于研究电磁能量的标准消光实验。 在
    发表于 12-18 13:41

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    近日,专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉,此次交易完成后,边塞科技将保持独立运营,而原投资人已全部退出。 与此同时,蚂蚁集团近期宣布成立强化学习实验室,旨在推动大模型强化学习
    的头像 发表于 11-22 11:14 578次阅读

    如何使用 PyTorch 进行强化学习

    的计算图和自动微分功能,非常适合实现复杂的强化学习算法。 1. 环境(Environment) 在强化学习,环境是一个抽象的概念,它定义了智能体(agent)可以执行的动作(actions)、观察到
    的头像 发表于 11-05 17:34 291次阅读

    谷歌AlphaChip强化学习工具发布,联发科天玑芯片率先采用

    近日,谷歌在芯片设计领域取得了重要突破,详细介绍了其用于芯片设计布局的强化学习方法,并将该模型命名为“AlphaChip”。据悉,AlphaChip有望显著加速芯片布局规划的设计流程,并帮助芯片在性能、功耗和面积方面实现更优表现。
    的头像 发表于 09-30 16:16 424次阅读

    深度学习与传统机器学习对比

    在人工智能的浪潮,机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命的变化。然而,尽管它们都属于机器
    的头像 发表于 07-01 11:40 1353次阅读

    通过强化学习策略进行特征选择

    更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习,尤其是马尔可夫决策
    的头像 发表于 06-05 08:27 352次阅读
    通过<b class='flag-5'>强化学习</b>策略进行特征选择

    关于电化学储能的BMS可行方案

    近日,国家发展改革委、国家能源局印发《“十四五”新型储能发展实施方案》(以下简称《方案》)。《方案》提出,到2025年,新型储能由商业初期步入规模发展阶段,具备大规模商业应用条件。其中,电
    发表于 05-16 17:08

    特斯拉4680锂离子电池的性能和特性

    电流对电池阻抗的影响,这种关系可能是由电荷转移反应的非线性行为驱动的,电池拆解分析显示这种效应在低SOC区域尤为显著。
    发表于 03-19 11:04 1033次阅读

    一种基于分子编程和液滴微流控的替代技术用于数字检测

    单分子水平的蛋白质分析揭示了集合平均技术所掩盖的异质性行为
    的头像 发表于 03-13 10:17 677次阅读
    一种基于分子编程和液滴微流控的替代<b class='flag-5'>性</b>技术用于数字检测

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(上)

    向量数据库是一组高维向量的集合,用于表示实体或概念,例如单词、短语或文档。向量数据库可以根据实体或概念的向量表示来度量它们之间的相似性或关联
    的头像 发表于 02-22 14:07 1106次阅读
    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(上)

    一文详解Transformer神经网络模型

    Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程,通过试错来学习最优的
    发表于 02-20 09:55 1.4w次阅读
    一文详解Transformer神经网络模型

    基于结构相似性可靠监测结果

    电子发烧友网站提供《基于结构相似性可靠监测结果.pdf》资料免费下载
    发表于 02-05 09:10 0次下载
    基于结构<b class='flag-5'>相似性</b>可靠<b class='flag-5'>性</b>监测结果

    可编程IC的类型、主要功能、相似性和差异性

    电子发烧友网站提供《可编程IC的类型、主要功能、相似性和差异性.pdf》资料免费下载
    发表于 01-03 14:08 0次下载
    可编程IC的类型、主要功能、<b class='flag-5'>相似性</b>和差异性