0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PWIL:不依赖对抗性的新型模拟学习

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2020-10-13 10:01 次阅读

强化学习 (Reinforcement Learning,RL) 是一种通过反复试验训练智能体 (Agent) 在复杂环境中有序决策的范式,在游戏、机器人操作和芯片设计等众多领域都取得了巨大成功。智能体的目标通常是最大化在环境中收集的总奖励 (Reward),这可以基于速度、好奇心、美学等各种参数。然而,由于 RL 奖励函数难以指定或过于稀疏,想要设计具体的 RL 奖励函数并非易事。

游戏
https://ai.googleblog.com/2019/06/introducing-google-research-football.html

这种情况下,模仿学习(Imitation Learning,IL) 方法便派上了用场,因为这种方法通过专家演示而不是精心设计的奖励函数来学习如何完成任务。然而,最前沿 (SOTA) 的 IL 方法均依赖于对抗训练,这种训练使用最小化/最大化优化过程,但在算法上不稳定并且难以部署。

在“原始 Wasserstein 模仿学习”(Primal Wasserstein Imitation Learning,PWIL) 中,我们基于 Wasserstein 距离(也称为推土机距离)的原始形式引入了一种新的 IL 方法,这种方法不依赖对抗训练。借助 MuJoCo 任务套件,我们通过有限数量的演示(甚至是单个示例)以及与环境的有限交互来模仿模拟专家,以此证明 PWIL 方法的有效性。

原始 Wasserstein 模仿学习
https://arxiv.org/pdf/2006.04678.pdf

MuJoCo 任务套件
https://gym.openai.com/envs/#mujoco

左图:使用任务的真实奖励(与速度有关)训练的算法类人机器人“专家”;右图:使用 PWIL 基于专家演示训练的智能体

对抗模仿学习

最前沿的对抗 IL 方法的运作方式与生成对抗网络 (GAN) 类似:训练生成器(策略)以最大化判别器(奖励)的混淆度,以便判别器本身被训练来区分智能体的状态-动作对和专家的状态-动作对。对抗 IL 方法可以归结为分布匹配问题,即最小化度量空间中概率分布之间距离的问题。不过,就像 GAN 一样,对抗 IL 方法也依赖于最小化/最大化优化问题,因此在训练稳定性方面面临诸多挑战。

训练稳定性方面面临诸多挑战
https://developers.google.com/machine-learning/gan/problems

模仿学习归结为分步匹配

PWIL 方法的原理是将 IL 表示为分布匹配问题(在本例中为 Wasserstein 距离)。第一步为从演示中推断出专家的状态-动作分布:即专家采取的动作与相应环境状态之间的关系的集合。接下来的目标是通过与环境的交互来最大程度地减少智能体的状态-动作分布与专家的状态-动作分布之间的距离。相比之下,PWIL 是一种非对抗方法,因此可绕过最小化/最大化优化问题,直接最小化智能体的状态-动作对分布与专家的状态-动作对分布之间的 Wasserstein 距离。

PWIL 方法

计算精确的 Wasserstein 距离会受到限制(智能体轨迹结束时才能计算出),这意味着只有在智能体与环境交互完成后才能计算奖励。为了规避这种限制,我们为距离设置了上限,可以据此定义使用 RL 优化的奖励。

结果表明,通过这种方式,我们确实可以还原专家的行为,并在 MuJoCo 模拟器的许多运动任务中最小化智能体与专家之间的 Wasserstein 距离。对抗 IL 方法使用来自神经网络的奖励函数,因此,当智能体与环境交互时,必须不断对函数进行优化和重新估计,而 PWIL 根据专家演示离线定义一个不变的奖励函数,并且它所需的超参数量远远低于基于对抗的 IL 方法。

PWIL 在类人机器人上的训练曲线:绿色表示与专家状态-动作分布的 Wasserstein 距离;蓝色表示智能体的回报(所收集奖励的总和)

类人机器人
https://gym.openai.com/envs/Humanoid-v2/

衡量真实模仿学习环境的相似度

与 ML 领域的众多挑战类似,许多 IL 方法都在合成任务上进行评估,其中通常有一种方法可以使用任务的底层奖励函数,并且可以根据性能(即预期的奖励总和)来衡量专家行为与智能体行为之间的相似度。

PWIL 过程中会创建一个指标,该指标可以针对任何 IL 方法。这种方法能将专家行为与智能体行为进行比较,而无需获得真正的任务奖励。从这个意义上讲,我们可以在真正的 IL 环境中使用 Wasserstein 距离,而不仅限于合成任务。

结论

在交互成本较高的环境(例如,真实的机器人或复杂的模拟器)中,PWIL 可以作为首选方案,不仅因为它可以还原专家的行为,还因为它所定义的奖励函数易于调整,且无需与环境交互即可定义。

这为未来的探索提供了许多机会,包括部署到实际系统、将 PWIL 扩展到只能使用演示状态(而不是状态和动作)的设置,以及最终将 PWIL 应用于基于视觉的观察。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模拟器
    +关注

    关注

    2

    文章

    839

    浏览量

    42835
  • 智能体
    +关注

    关注

    1

    文章

    114

    浏览量

    10509
  • 强化学习
    +关注

    关注

    4

    文章

    262

    浏览量

    11137

原文标题:PWIL:不依赖对抗性的新型模拟学习

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    智能型模拟断路器如何使用?——每日了解电力知识

    今天武汉摩恩智能电气有限公司带大家了解一下 ME-MT 智能型模拟断路器 。 ME-MT 智能型模拟断路器使用说明: 1、装置通电 ——      接入220V交流工作电源,合电源开关,几秒钟
    的头像 发表于 05-27 10:01 119次阅读
    智能<b class='flag-5'>型模拟</b>断路器如何使用?——每日了解电力知识

    百度CEO李彦宏:不会受制于美国限制,中国AI发展仍有强大动力

    李彦宏指出,对于文心大模型这类情境,他并不依赖英伟达的尖端芯片,百度现有芯片储备以及可采购的替代产品已能满足大众AI需求。
    的头像 发表于 03-08 15:17 292次阅读

    IBM的新型模拟内存芯片能否证明AI操作的性能和能源效率呢?

    IBM 的新型模拟内存芯片证明了 AI 操作的性能和能源效率都是可能的。
    的头像 发表于 12-18 10:09 410次阅读

    如何在PyTorch中使用扩散模型生成图像

    除了顶尖的图像质量,扩散模型还带来了许多其他好处,包括不需要对抗性训练。对抗训练的困难是有据可查的。在训练效率的话题上,扩散模型还具有可伸缩性和并行性的额外好处。
    发表于 11-22 15:51 381次阅读
    如何在PyTorch中使用扩散模型生成图像

    新型威胁:探索LLM攻击对网络安全的冲击

    最令人担忧的也许是,目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里,在计算机视觉领域,类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此,我们认为,在增加对此类人工智能模型的使用和
    的头像 发表于 10-11 16:28 605次阅读

    语音模块让扫地机也变得更智能

    离线语音控制是指在不依赖于互联网的情况下,通过语音识别控制技术,实现人机交互功能
    的头像 发表于 10-10 16:36 463次阅读
    语音模块让扫地机也变得更智能

    自抗扰控制技术介绍

    Controliler,ADRC)技术。是发扬PID控制技术的精髓并吸取现代控制理论成就。运用计算机仿真试验结果的归纳和综合中探索出来的。是不依赖于被控对象精确模型的、能够替代PID控制技术的、新型实用数字控制技术。
    发表于 09-28 06:04

    离线语音模块让服务呼叫器更智能

    离线语音模块的引入使得服务呼叫器具备了自主的语音处理能力,不依赖于外部服务器或云端服务
    的头像 发表于 09-18 14:41 496次阅读
    离线语音模块让服务呼叫器更智能

    一种大电流无传感器BLDC电机控制器电路

      在这篇文章中,我们将讨论一种大电流无传感器 BLDC电机控制器电路,该电路不依赖于霍尔效应传感器来启动操作,而是利用电机的反电动势进行顺序输入   对于正确的换向,大多数三相 BLDC 驱动器
    发表于 09-14 16:09

    RT_Smart GNU移植minizip记录

    由于minizip除了依赖于文件一些操作函数外并不依赖于其他库,所以个人直接编译运行;另外本次移植的是使用的xmake完成移植。
    的头像 发表于 09-14 11:42 684次阅读
    RT_Smart GNU移植minizip记录

    RLAIF:一个不依赖人工的RLHF替代方案

    如图所示,在RLAIF中,首先使用LLM来评估给定的文本和2个候选回复,然后,这些由LLM生成的偏好数据被用来训练一个奖励模型,这个奖励模型用于强化学习,以便进一步优化LLM。
    的头像 发表于 09-08 16:38 601次阅读
    RLAIF:一个<b class='flag-5'>不依赖</b>人工的RLHF替代方案

    浅谈无人机区域/空域拒止对抗系统技术

    随着中国、俄罗斯、伊朗和朝鲜等美国的潜在近等对手继续获得技术基础并使多层防御网络现代化,美国国防部和国务院已经意识到,对公地的控制将很快受到挑战,有必要加深对A2-AD概念的理解,以制定缓解 渗透并利用对抗性防御网络。
    发表于 07-31 11:40 1189次阅读
    浅谈无人机区域/空域拒止<b class='flag-5'>对抗</b>系统技术

    介绍一款轻量级的RISC-V解释型模拟

    XEMU 是一款轻量级的 RISC-V 解释型模拟器,基于 C 语言实现,支持 RV32IM 指令集,支持简单外设模拟
    的头像 发表于 07-22 14:25 1534次阅读
    介绍一款轻量级的RISC-V解释<b class='flag-5'>型模拟</b>器

    基于SR087设计的电源电路图

    使用单个IC SR087工作。该设计不依赖于高值电容器或电感器,但能够向连接负载提供100mA电流。
    的头像 发表于 07-10 17:21 1171次阅读
    基于SR087设计的电源电路图

    人工智能在实现对抗性后勤方面的作用

    近日,美国人工智能公司SparkCognition的陆军项目总监阿特·塞勒斯在Defensescoop网站上撰文,提出人工智能在实现对抗性后勤方面可以发挥的四大作用。主要观点如下: 在现代战争的今天
    的头像 发表于 07-04 15:34 944次阅读