0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PWIL:不依赖对抗性的新型模拟学习

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2020-10-13 10:01 次阅读

强化学习 (Reinforcement Learning,RL) 是一种通过反复试验训练智能体 (Agent) 在复杂环境中有序决策的范式,在游戏、机器人操作和芯片设计等众多领域都取得了巨大成功。智能体的目标通常是最大化在环境中收集的总奖励 (Reward),这可以基于速度、好奇心、美学等各种参数。然而,由于 RL 奖励函数难以指定或过于稀疏,想要设计具体的 RL 奖励函数并非易事。

游戏
https://ai.googleblog.com/2019/06/introducing-google-research-football.html

这种情况下,模仿学习(Imitation Learning,IL) 方法便派上了用场,因为这种方法通过专家演示而不是精心设计的奖励函数来学习如何完成任务。然而,最前沿 (SOTA) 的 IL 方法均依赖于对抗训练,这种训练使用最小化/最大化优化过程,但在算法上不稳定并且难以部署。

在“原始 Wasserstein 模仿学习”(Primal Wasserstein Imitation Learning,PWIL) 中,我们基于 Wasserstein 距离(也称为推土机距离)的原始形式引入了一种新的 IL 方法,这种方法不依赖对抗训练。借助 MuJoCo 任务套件,我们通过有限数量的演示(甚至是单个示例)以及与环境的有限交互来模仿模拟专家,以此证明 PWIL 方法的有效性。

原始 Wasserstein 模仿学习
https://arxiv.org/pdf/2006.04678.pdf

MuJoCo 任务套件
https://gym.openai.com/envs/#mujoco

左图:使用任务的真实奖励(与速度有关)训练的算法类人机器人“专家”;右图:使用 PWIL 基于专家演示训练的智能体

对抗模仿学习

最前沿的对抗 IL 方法的运作方式与生成对抗网络 (GAN) 类似:训练生成器(策略)以最大化判别器(奖励)的混淆度,以便判别器本身被训练来区分智能体的状态-动作对和专家的状态-动作对。对抗 IL 方法可以归结为分布匹配问题,即最小化度量空间中概率分布之间距离的问题。不过,就像 GAN 一样,对抗 IL 方法也依赖于最小化/最大化优化问题,因此在训练稳定性方面面临诸多挑战。

训练稳定性方面面临诸多挑战
https://developers.google.com/machine-learning/gan/problems

模仿学习归结为分步匹配

PWIL 方法的原理是将 IL 表示为分布匹配问题(在本例中为 Wasserstein 距离)。第一步为从演示中推断出专家的状态-动作分布:即专家采取的动作与相应环境状态之间的关系的集合。接下来的目标是通过与环境的交互来最大程度地减少智能体的状态-动作分布与专家的状态-动作分布之间的距离。相比之下,PWIL 是一种非对抗方法,因此可绕过最小化/最大化优化问题,直接最小化智能体的状态-动作对分布与专家的状态-动作对分布之间的 Wasserstein 距离。

PWIL 方法

计算精确的 Wasserstein 距离会受到限制(智能体轨迹结束时才能计算出),这意味着只有在智能体与环境交互完成后才能计算奖励。为了规避这种限制,我们为距离设置了上限,可以据此定义使用 RL 优化的奖励。

结果表明,通过这种方式,我们确实可以还原专家的行为,并在 MuJoCo 模拟器的许多运动任务中最小化智能体与专家之间的 Wasserstein 距离。对抗 IL 方法使用来自神经网络的奖励函数,因此,当智能体与环境交互时,必须不断对函数进行优化和重新估计,而 PWIL 根据专家演示离线定义一个不变的奖励函数,并且它所需的超参数量远远低于基于对抗的 IL 方法。

PWIL 在类人机器人上的训练曲线:绿色表示与专家状态-动作分布的 Wasserstein 距离;蓝色表示智能体的回报(所收集奖励的总和)

类人机器人
https://gym.openai.com/envs/Humanoid-v2/

衡量真实模仿学习环境的相似度

与 ML 领域的众多挑战类似,许多 IL 方法都在合成任务上进行评估,其中通常有一种方法可以使用任务的底层奖励函数,并且可以根据性能(即预期的奖励总和)来衡量专家行为与智能体行为之间的相似度。

PWIL 过程中会创建一个指标,该指标可以针对任何 IL 方法。这种方法能将专家行为与智能体行为进行比较,而无需获得真正的任务奖励。从这个意义上讲,我们可以在真正的 IL 环境中使用 Wasserstein 距离,而不仅限于合成任务。

结论

在交互成本较高的环境(例如,真实的机器人或复杂的模拟器)中,PWIL 可以作为首选方案,不仅因为它可以还原专家的行为,还因为它所定义的奖励函数易于调整,且无需与环境交互即可定义。

这为未来的探索提供了许多机会,包括部署到实际系统、将 PWIL 扩展到只能使用演示状态(而不是状态和动作)的设置,以及最终将 PWIL 应用于基于视觉的观察。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模拟器
    +关注

    关注

    2

    文章

    862

    浏览量

    43114
  • 智能体
    +关注

    关注

    1

    文章

    123

    浏览量

    10553
  • 强化学习
    +关注

    关注

    4

    文章

    264

    浏览量

    11195

原文标题:PWIL:不依赖对抗性的新型模拟学习

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    分享一个跨平台通用型GUI框架

    AAGUI是一个不依赖特定硬件、操作系统的跨平台通用型GUI。
    的头像 发表于 10-28 09:21 187次阅读
    分享一个跨平台通用型GUI框架

    原生鸿蒙系统正式发布,余承东宣布不依赖国外核心技术

    ’,标志着华为在移动操作系统领域迈出了坚实的一步。” 这款原生鸿蒙系统作为中国自主研发的移动操作系统,其最大的亮点在于不依赖于国外的编程语言和操作系统内核等核心技术,实现了真正的自主可控。这一突破对于提升我国在全球科技领域的竞争力具有重要意义。 然而,对于
    的头像 发表于 10-23 10:08 245次阅读

    N型插头具备温度抗性

    德索工程师说道温度抗性是N型插头设计中不可忽视的一个方面。N型插头在使用过程中,可能会遇到各种温度变化,包括高温和低温环境。如果连接器不具备足够的温度抗性,就可能在极端温度下出现性能下降、材料老化、甚至损坏的情况,从而影响整个电气系统的稳定性和安全性。
    的头像 发表于 09-24 14:50 137次阅读
    N型插头具备温度<b class='flag-5'>抗性</b>吗

    FORT单元-不依赖GPS的步跟踪定位穿戴设备@PNI

    历史上,大多数基于传感器的定位跟踪系统一直受到从传感器漂移到磁干扰和可靠性的问题的困扰,为了提供精确的位置数据,现代基于传感器的跟踪系统必须克服这些问题,同时提供一个高精度、低功耗的传感器模块,随时随地提供精确的精度。新的FORT现场行动远程跟踪正是做到这一点。FORT应用最先进的技术来确定某点精确位置——即使GPS被破坏或拒绝。FORT由PNISensor
    的头像 发表于 09-12 08:11 169次阅读
    FORT单元-<b class='flag-5'>不依赖</b>GPS的步跟踪定位穿戴设备@PNI

    HDS-6智能型模拟断路器使用说明

    HDS-6智能型模拟断路器的原理HDS-6智能型模拟断路器采用全数字电路,时间为数字拨码设置,可实现模拟断路器跳合闸时间设置、三相/分相操作选择、输入信号逻辑控制等功能,从而模拟断路器
    的头像 发表于 08-02 16:15 360次阅读
    HDS-6智能<b class='flag-5'>型模拟</b>断路器使用说明

    深度学习的典型模型和训练过程

    深度学习作为人工智能领域的一个重要分支,近年来在图像识别、语音识别、自然语言处理等多个领域取得了显著进展。其核心在于通过构建复杂的神经网络模型,从大规模数据中自动学习并提取特征,进而实现高效准确的预测和分类。本文将深入解读深度学习
    的头像 发表于 07-03 16:06 1079次阅读

    智能型模拟断路器如何使用?——每日了解电力知识

    今天武汉摩恩智能电气有限公司带大家了解一下 ME-MT 智能型模拟断路器 。 ME-MT 智能型模拟断路器使用说明: 1、装置通电 ——      接入220V交流工作电源,合电源开关,几秒钟后
    的头像 发表于 05-27 10:01 709次阅读
    智能<b class='flag-5'>型模拟</b>断路器如何使用?——每日了解电力知识

    深度学习生成对抗网络(GAN)全解析

    GANs真正的能力来源于它们遵循的对抗训练模式。生成器的权重是基于判别器的损失所学习到的。因此,生成器被它生成的图像所推动着进行训练,很难知道生成的图像是真的还是假的。
    发表于 03-29 14:42 4264次阅读
    深度<b class='flag-5'>学习</b>生成<b class='flag-5'>对抗</b>网络(GAN)全解析

    5V 4:1 通用型模拟多路复用器TMUX1204数据表

    电子发烧友网站提供《5V 4:1 通用型模拟多路复用器TMUX1204数据表.pdf》资料免费下载
    发表于 03-20 14:19 0次下载
    5V 4:1 通用<b class='flag-5'>型模拟</b>多路复用器TMUX1204数据表

    百度CEO李彦宏:不会受制于美国限制,中国AI发展仍有强大动力

    李彦宏指出,对于文心大模型这类情境,他并不依赖英伟达的尖端芯片,百度现有芯片储备以及可采购的替代产品已能满足大众AI需求。
    的头像 发表于 03-08 15:17 530次阅读

    随机通信下多智能体系统的干扰攻击影响研究

    网络控制系统可能会受到不同类型的网络攻击威胁[10-12],主要包括拒绝服务(denial of service, DoS)攻击[7]、欺骗攻击[8]、干扰攻击[9]等。文献[10]研究了一类对抗性攻击下网络物理系统的安全评估与控制问题,且控制信号在被发送到执行器的过程中可被攻击者恶意篡改。
    发表于 03-01 11:00 455次阅读
    随机通信下多智能体系统的干扰攻击影响研究

    小米汽车测试被质疑?违法!

    道路大模型:不仅能识别实时路况,智能调节行驶轨迹,还能在复杂的十字路口工况下,不依赖高清地图也能顺利导航。通过学习复杂路口工况和老司机驾驶习惯,制定更合理的行驶轨迹,针对突发状态进行动态绕行。
    的头像 发表于 01-08 16:16 750次阅读
    小米汽车测试被质疑?违法!

    知行科技全栈自研iDC,向着整车中央计算机发展

    知行科技设计并开发了iDCMid所有关键软硬件。其中自研的软件中间件,不依赖于任何开源框架,可以将软件部署到不同计算平台及操作系统。
    发表于 12-21 14:08 601次阅读
    知行科技全栈自研iDC,向着整车中央计算机发展

    IBM的新型模拟内存芯片能否证明AI操作的性能和能源效率呢?

    IBM 的新型模拟内存芯片证明了 AI 操作的性能和能源效率都是可能的。
    的头像 发表于 12-18 10:09 637次阅读

    如何在PyTorch中使用扩散模型生成图像

    除了顶尖的图像质量,扩散模型还带来了许多其他好处,包括不需要对抗性训练。对抗训练的困难是有据可查的。在训练效率的话题上,扩散模型还具有可伸缩性和并行性的额外好处。
    发表于 11-22 15:51 451次阅读
    如何在PyTorch中使用扩散模型生成图像