0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用桌面级计算将训练策略传输到远程机器人中

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-19 14:36 次阅读

在设计基于机器学习的解决方案时,需要问的一个关键问题是,“开发此解决方案的资源成本是多少?”答案通常有很多因素:时间、开发人员技能和计算资源。很少有研究人员能够最大化所有这些方面,因此优化解决方案开发过程至关重要。这一问题在机器人技术中进一步加剧,因为每项任务通常都需要一个完全独特的解决方案,其中涉及到专家的大量手工制作

典型的机器人解决方案需要数周甚至数月的时间来开发和测试。灵巧的多指物体操纵一直是机器人操纵控制和学习领域的一个长期挑战。

灵巧手法综述

放松刚性约束:抓取操作的运动学轨迹优化和碰撞避免

学习局部模型的最优控制:在灵巧操作中的应用

具有深度强化学习的灵巧操作:高效、通用和低成本

虽然在过去 5 年中,运动的高维控制以及基于图像的物体操作(使用简化的夹持器)方面的挑战取得了显著的进展,但多指灵巧操作仍然是一个影响巨大但难以解决的问题。这一挑战是由以下问题造成的:

高维协调控制

低效的仿真平台

实际机器人操作中观测和控制的不确定性

缺乏强健且经济高效的硬件平台

这些挑战加上缺乏大规模计算机和机器人硬件,限制了试图解决这些问题的团队的多样性。

我们在这项工作中的目标是通过大规模仿真和机器人即服务技术,为机器人学习的民主化提供一条道路和可行的解决方案。以灵巧多指机械手为例,重点研究了六自由度物体操纵。我们展示了在桌面级 GPU 和基于云的机器人技术上进行的大规模模拟如何使机器人专家能够利用有限的资源进行机器人学习方面的研究。

虽然在手工操作方面的一些努力试图构建健壮的系统,但最令人印象深刻的演示之一是几年前来自 OpenAI 的一个团队,该团队构建了一个名为Dactyl的系统。这是一个令人印象深刻的工程壮举,以实现多目标在手休息与阴影的手。

然而,它不仅在最终性能上,而且在构建此演示所需的计算量和工程工作量上都是引人注目的。据公众估计,它使用了 13000 年的计算机,硬件本身成本高昂,但需要反复干预。巨大的资源需求有效地阻止了其他人复制这一结果,并因此在这一结果的基础上再接再厉。

在这篇文章中,我们展示了我们的系统努力是解决这种资源不平等的途径。现在,使用单一的台式机等级 GPU 和 CPU ,在不到一天的时间内即可获得类似的结果。

强化学习中标准姿势表示的复杂性

在最初的实验中,我们遵循以前的工作,提供了基于三维笛卡尔位置加上四维四元数表示的姿势的观察,以指定立方体的当前和目标位置。我们还根据 L2 范数(位置)和立方体的期望姿势和当前姿势之间的角度差(方向)固定了奖励。有关更多信息,请参阅学习灵活性 OpenAI 帖子和 GPU – 分布式强化学习的加速机器人仿真。

我们发现这种方法会产生不稳定的奖励曲线,即使在调整相对权重后,它也能很好地优化奖励的位置部分。

pYYBAGJeWnSADdnvAABUEe-zI6E097.png

图 1 。训练曲线上的三指操纵任务使用奖励函数类似于以前的作品。奖励的性质使得政策难以优化,尤其是实现定向目标。

先前的工作已经证明了使用神经网络时空间旋转的交替表示的好处。此外,已经证明,这种方式的混合损失会导致只朝着优化单一目标的方向崩溃。该图表暗示了类似的行为,其中只有职位奖励被优化。

受此启发,我们在 SO ( 3 )中为我们的 6 自由度休息问题寻找姿势表示。这也会自然地通过强化学习以适合优化的方式权衡职位和轮换奖励。

使用远程机器人缩小 Sim2Real 差距

获得物理机器人资源的问题因新冠病毒 -19 大流行而加剧。那些之前有幸在他们的研究小组中接触到机器人的人发现,能够接触到机器人的人数大大减少了。那些依赖其他机构提供硬件的机构往往由于物理距离限制而完全疏远。

我们的工作证明了机器人即服务( RaaS )方法与机器人学习相结合的可行性。一小队接受过维护机器人培训的人员和另一队研究人员可以上传一份经过培训的政策,并远程收集数据进行后处理。

虽然我们的研究团队主要在北美,但物理机器人在欧洲。在整个项目期间,我们的开发团队从来没有和我们工作的机器人呆在同一个房间里。远程访问意味着我们无法改变手头的任务以使其更容易。它还限制了我们可以进行的迭代和实验的种类。例如,合理的系统识别是不可能的,因为我们的策略在整个 f ARM 中随机选择的机器人上运行。

尽管缺乏物理访问,但我们发现,我们能够通过多种技术的组合,制定出一个稳健且有效的策略来解决 6 自由度休息任务:

真实 GPU – 加速仿真

无模型 RL

域随机化

任务适当的姿势表示

方法概述

我们的系统使用 NVIDIA V100 或 NVIDIA NVIDIA 3090 RTX 在 16384 个环境中并行使用 GPU 健身房模拟器进行训练。然后,利用上传的演员权重,在位于德国大西洋彼岸的三指机器人上远程进行推理。我们执行 Sim2Real 传输的基础设施由真正的机器人挑战的组织者提供。

pYYBAGJeWo6AYC5FAAGKyrNRgdw294.png

图 2 。培训系统流程图

收集并处理培训示例

使用 ISAAC 健身房模拟器,我们收集了高通量体验( NVIDIA RTX 3090 上每秒约 10 万个样本)。样例的对象姿势和目标姿势与对象形状的八个关键点对应。将领域随机化应用于观测和环境参数,以模拟真实机器人和摄像机本体感受传感器的变化。这些观察结果,以及来自模拟器的一些特权状态信息,然后被用来训练我们的政策。

培训政策

我们的策略是使用近端策略优化( PPO )算法来最大化定制奖励。我们的奖励激励政策平衡机器人手指与物体的距离、移动速度以及从物体到指定目标位置的距离。它有效地解决了这项任务,尽管它是一种广泛适用于手部操作应用的通用公式。该策略输出每个机器人电机的扭矩,然后将其传回模拟环境。

将策略转移到真正的机器人并运行推理

在我们训练了策略之后,我们将其上传到真实机器人的控制器。这个立方体是用三个摄像头在系统上跟踪的。我们将系统提供的本体感知信息与转换的关键点表示结合起来,为策略提供输入。我们重复了基于摄像头的立方体姿势观察,以进行后续的策略评估,从而使策略能够利用机器人可用的更高频率本体感受数据。然后,从系统收集的数据用于确定策略的成功率。

机器人上的跟踪系统目前只支持立方体。然而,这在将来可以扩展到任意对象。

Results

姿势的关键点表示大大提高了成功率和收敛性。

pYYBAGJeWJmAeougAABq8uU-Sfg150.png

图 3 。为不同的训练代理绘制真实机器人的成功率。 O-PQ 和 O-KP 分别表示位置+四元数和关键点观测, R-PQ 和 R-KP 分别表示线性+角度和基于关键点的位移。每个平均数 由 N = 40 个试验和基于 80% 置信区间计算的误差条组成。

我们证明了使用我们的关键点表示法的策略,无论是在提供给策略的观察中还是在奖励计算中,都比使用位置+四元数表示法获得了更高的成功率。最高性能来自于对这两个元素使用替代表示的策略。

poYBAGJeWJqABEqMAAF1iaHBzTA489.png

图 4 。无领域随机和有领域随机的训练过程中的成功率。每条曲线是五个种子的平均值;阴影区域显示标准偏差。不带 DR 的培训将显示为 1B 步骤,以验证绩效;初始训练后, DR 的使用对模拟成功率没有太大影响。

我们进行了实验,以了解关键点的使用如何影响我们经过训练的策略的速度和收敛水平。可以看出,使用关键点作为奖励的一部分大大加快了培训,提高了最终成功率,并减少了培训策略之间的差异。考虑到使用关键点作为奖励的一部分的简单性和普遍性,差异的大小令人惊讶。

经过培训的策略可以直接从模拟器部署到远程真实机器人。

图 6 显示了一种我们称之为“掉落和重新抓取”的紧急行为。在这个动作中,机器人学会在立方体接近正确位置时掉落立方体,重新抓取立方体,然后将其捡起来。这使得机器人能够在正确的位置稳定地抓住立方体,从而获得更成功的尝试。值得注意的是,这段视频是实时的,不会以任何方式加速。

机器人还学习利用立方体在竞技场中正确位置的运动,作为在地面上同时旋转立方体的机会。这有助于在远离手指工作区中心的挑战性目标位置实现正确抓取。

我们的政策也很稳健,有助于降低成本。机器人可以从一个从手上掉下来的立方体中恢复,并从地面上取回它。

对物理和物体变化的鲁棒性

我们发现,我们的策略对模拟中环境参数的变化具有鲁棒性。例如,它优雅地处理了立方体的上下缩放,其范围远远超过了随机化。

令人惊讶的是,我们发现我们的策略能够将 0-shot 推广到其他对象,例如长方体或球,

由于策略自身的健壮性,在规模和对象上进行了泛化。我们不给它任何形状信息。关键点保持在立方体上的相同位置。

结论

我们的方法通过基于 GPU 的大规模仿真展示了一条可行的机器人学习路径。在本文中,我们向您展示了如何使用中等水平的计算资源(桌面级计算)来训练策略,并将其传输到远程机器人。我们还表明,这些策略对环境和被操纵对象中的各种变化具有鲁棒性。我们希望我们的工作能够成为研究人员向前迈进的平台。

NVIDIA 还宣布广泛支持具有开放机器人技术的机器人操作系统ROS )。这一重要的 ISAAC ROS 公告强调了 NVIDIA 人工智能感知技术如何加速人工智能在 ROS 社区的应用,以帮助机器人专家、研究人员和机器人用户开发、测试和管理下一代基于人工智能的机器人。

关于作者

Varun Lodaya 是多伦多大学计算机科学与统计专业的本科生。他是 PAIR 研究实验室和病媒研究所的成员。

Animesh Garg 是多伦多大学计算机科学助理教授 CVK3 NVIDIA 的资深研究科学家,也是向量研究所的一名教员。他在加州大学伯克利分校获得博士学位,是斯坦福人工智能实验室的博士后。他致力于广义自治的算法基础,使基于人工智能的机器人能够与人类一起工作。他的工作在机器人学和机器学习领域获得了多项研究奖。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    209

    文章

    27412

    浏览量

    202416
  • NVIDIA
    +关注

    关注

    14

    文章

    4687

    浏览量

    102119
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4510

    浏览量

    127557
收藏 人收藏

    评论

    相关推荐

    步进电机在工业机器人中的应用

    类型,在工业机器人中发挥着至关重要的作用。本文将从步进电机的定义、特点出发,详细探讨其在工业机器人中的应用,并结合相关案例进行分析,以期为工业机器人技术的发展提供参考。
    的头像 发表于 06-17 10:10 180次阅读

    触翔X86工控主板在交互机器人中的应用

    X86工控主板在交互机器人中的应用主要体现在其高可靠性、抗干扰性和稳定性等方面,为交互机器人的正常运行和精确控制提供了有力支持。以下是关于X86工控主板在交互机器人中应用的详细分析:
    的头像 发表于 05-28 15:48 191次阅读

    VMware虚拟机慢,卡顿,用远程桌面的方法变顺畅

    这以计算机”和远程桌面里勾选"允许远程连接到些计算机"           如果虚拟机系统登录为空密码,虚拟机计算机(运行gpedit.ms
    的头像 发表于 05-09 10:06 687次阅读
    VMware虚拟机慢,卡顿,用<b class='flag-5'>远程桌面</b>的方法变顺畅

    Profinet转Ethernet IP网关在汽车配件生产中的应用

    开疆Profinet转Ethernet IP网关连接在视觉机器人中发挥着重要的作用,它不仅为机器人提供了高效的数据传输远程控制,还促进了系统集成和智能化发展。 Profinet转Et
    发表于 03-18 11:29

    高压放大器在介电弹性体折纸术软体机器人中的应用

    人们研究的目光逐渐转向软体机器人。   软体机器人在机械和生物医学工程领域正不断凸显其不可替代的优势。它们不仅拥有柔软的身体,还能够根据复杂的物理场景调整身体形状,甚至能以刚性机器人
    发表于 02-27 17:15

    什么是远程桌面协议 远程桌面协议的工作原理

    远程桌面协议(RDP)需要两个不同的设备才能运行:一台本地计算机和一台远程计算机。 本地计算机也称为RDP 客户端。在此过程中,最终用
    的头像 发表于 01-23 10:51 611次阅读

    【开源项目】Emo:基于树莓派 4B DIY 能笑会动的桌面机器人

    使用 Autodesk Fusion 360 来设计 Emo 机器人,其中融合了实体和自由形式的建模技术。 为了简化打印过程,我们机器人的主体分成几个部分,方便用螺钉组装。 我们精心考虑了电源的位置,将它
    发表于 12-26 15:18

    功率放大器模块在水下机器人中的应用有哪些

    功率放大器模块在水下机器人中的应用。 在水下机器人中,功率放大器模块主要用于电力传输和驱动。由于水下环境复杂、恶劣,需要保证机器人具有足够的电力输入和输出,以保持其运行稳定和可靠。功率
    的头像 发表于 12-18 16:25 241次阅读
    功率放大器模块在水下<b class='flag-5'>机器人中</b>的应用有哪些

    机器人中都有哪些坐标系

    坐标系是我们非常熟悉的一个概念,也是机器人学中的重要基础,在一个完整的机器人系统中,会存在很多坐标系,这些坐标系之间的位置关系该如何管理? ROS给我们提供了一个坐标系的管理神器——TF。 机器人中
    的头像 发表于 11-22 17:20 980次阅读
    <b class='flag-5'>机器人中</b>都有哪些坐标系

    MCx8316x在扫地机器人中的应用

    电子发烧友网站提供《MCx8316x在扫地机器人中的应用.pdf》资料免费下载
    发表于 11-22 09:37 0次下载
    MCx8316x在扫地<b class='flag-5'>机器人中</b>的应用

    滚珠螺母在工业机器人中的应用优势

    滚珠螺母在工业机器人中的应用优势
    的头像 发表于 10-11 17:46 659次阅读
    滚珠螺母在工业<b class='flag-5'>机器人中</b>的应用优势

    工业机器人中的电子控制器模块

    今天和大家分享一下工业机器人中使用到的电子控制器模块。现代工业机器人已经广泛应用于各行各业。虽然我们不一定开发机器人,但是作为工程师,还是很有机会来使用机器人来方便我们的工作和生活的。
    的头像 发表于 09-26 08:08 718次阅读
    工业<b class='flag-5'>机器人中</b>的电子控制器模块

    机器人中的自适应计算

    电子发烧友网站提供《机器人中的自适应计算.pdf》资料免费下载
    发表于 09-14 09:49 0次下载
    <b class='flag-5'>机器人中</b>的自适应<b class='flag-5'>计算</b>

    ADC数据由PDMA传输到UART

    CPU的PDMA传输到UART。 您可以在下列时间下载样本代码http://www.nuvoton.com/resources-downlo.0327203638。 nuvoton 核
    发表于 08-31 09:40

    下肢外骨骼康复训练机器人

    迈步下肢外骨骼康复训练机器人BEAR-H1是一款辅助脑卒中患者用于步态康复训练的新型可穿戴式下肢外骨骼机器人。凭借出色的设计和创新的概念,该产品荣获2018年德国红点概念设计大奖。
    的头像 发表于 08-30 14:17 584次阅读