0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

世界模型在实体机器人上能发挥多大的作用?

新机器视觉 来源:机器之心 作者:机器之心 2022-07-01 10:48 次阅读

世界模型在实体机器人上能发挥多大的作用?

教机器人解决现实世界中的复杂任务,一直是机器人研究的基础问题。深度强化学习提供了一种流行的机器人学习方法,让机器人能够通过反复试验改善其行为。然而,当前的算法需要与环境进行过多的交互才能学习成功,这使得它们不适用于某些现实世界的任务。 为现实世界学习准确的世界模型是一个巨大的开放性挑战。在最近的一项研究中,UC 伯克利的研究者利用 Dreamer 世界模型的最新进展,在最直接和最基本的问题设置中训练了各种机器人:无需模拟器或示范学习,就能实现现实世界中的在线强化学习。

a9d87b74-f879-11ec-ba43-dac502259ad0.png

论文链接:https://arxiv.org/pdf/2206.14176.pdf Dreamer 世界模型是谷歌、多伦多大学等机构在 2021 年提出的一种。如下图 2 所示,Dreamer 从过去经验的回放缓存中学习世界模型,从世界模型的潜在空间中想象的 rollout 中学习行为,并不断与环境交互以探索和改进其行为。研究者的目标是在现实世界中推动机器人学习的极限,并提供一个强大的平台来支持未来的工作。

a9f09240-f879-11ec-ba43-dac502259ad0.png

总体来说,这项研究的贡献在于: 1、Dreamer on Robots。研究者将 Dreamer 应用于 4 个机器人,无需引入新算法直接在现实世界中展示了成功的学习成果。这些任务涵盖了一系列挑战,包括不同的行动空间、感官模式和奖励结构。

a9ff6b08-f879-11ec-ba43-dac502259ad0.gif

2、1 小时内学会步行。研究者在现实世界中从零开始教四足机器人翻身、站起来并在 1 小时内学会步行。

aa7a2906-f879-11ec-ba43-dac502259ad0.gif

此外,他们发现机器人会在 10 分钟内能学会承受推力或快速翻身并重新站起来。

aa9063c4-f879-11ec-ba43-dac502259ad0.gif

3、视觉拾取和放置。研究者训练机械臂从稀疏奖励中学会拾取和放置对象,这需要从像素定位对象并将图像与本体感受输入融合。此处学习到的行为优于无模型智能体,并接近人类表现。

ab569580-f879-11ec-ba43-dac502259ad0.gif

abc96b78-f879-11ec-ba43-dac502259ad0.gif

4、开源。研究者公开发布了所有实验的软件基础架构,它支持不同的动作空间和感官模式,为未来研究现实世界中机器人学习的世界模型提供了一个灵活的平台。 方法 该研究利用 Dreamer 算法(Hafner et al., 2019; 2020)在物理机器人上进行在线学习(online learning),无需模拟器,总体架构如上图 2 所示。Dreamer 从过去经验的回放缓冲区中学习世界模型,使用参与者 - 评价者算法从学习模型预测的轨迹中学习行为,并将其行为部署在环境中来不断提升回放缓冲区。 该研究将学习更新与数据收集解耦,以满足延迟要求并实现快速训练而无需等待环境变化。在该研究的实现中,一个学习线程持续训练世界模型和参与者 - 评价者行为,同时一个参与者线程并行计算环境交互动作。 世界模型是一个学习预测环境动态的深度神经网络,如下图 3(a)所示。

abef699a-f879-11ec-ba43-dac502259ad0.png

世界模型可以被认为是机器人自主学习环境的快速模拟器,在探索现实世界时不断改进其模型。世界模型基于循环状态空间模型 (RSSM; Hafner et al., 2018),它由四个组件组成:

ac0362f6-f879-11ec-ba43-dac502259ad0.png

世界模型表征了与任务无关的动态知识,而参与者 - 评价者算法负责学习特定于当前任务的行为。如上图 3(b) 所示。该研究从在世界模型的潜在空间中预测的 rollout 中学习行为,而无需解码观察结果。这可以在单个 GPU 上以 16K 的批大小进行大规模并行行为学习,类似于专门的现代模拟器 (Makoviychuk et al., 2021)。参与者 - 评价者算法由两个神经网络组成:

ac16d4d0-f879-11ec-ba43-dac502259ad0.png

参与者网络的作用是为每个潜在模型状态 s_t 学习成功动作的分布,以最大化未来预测任务奖励(reward)的总和。评价者网络通过时间差异学习来学习预测未来任务奖励的总和(Sutton 和 Barto,2018 ),这允许算法学习长期策略。 与 Hafner et al. (2020) 相比,Dreamer 方法没有训练频率超参数,因为学习器优化神经网络与数据收集并行进行,没有速率限制。 实验 研究者在 4 个机器人上评估了 Dreamer,为每个机器人分配了不同的任务,并将其性能与算法和人类基线进行比较,目的是评估近期学习世界模型的成功是否能够直接在现实世界中实现样本高效的机器人学习。 这些实验代表了常见的机器人任务,例如运动、操纵和导航,带来了各种各样的挑战,包括连续和离散的动作、密集和稀疏的奖励、本体感受和图像观察,以及传感器融合。 A1 机器狗四足步行 如图 4 所示,经过一小时的训练,Dreamer 学会了不断地让机器人从其背部翻过来、站起来,然后向前走。在训练的前 5 分钟,机器人设法从背部翻滚过来并用脚着地。20 分钟后,它学会了如何站起来。大约 1 小时后,机器人学会了一种叉式步态,以所需的速度向前行走。

ac232ed8-f879-11ec-ba43-dac502259ad0.png

在成功完成这项任务后,研究者用一根棍子反复敲打机器人的四足来测试算法的鲁棒性,如图 8 所示。在额外在线学习的 10 分钟内,机器人会适应并承受推力或快速翻身站稳。相比之下,SAC 也很快学会了翻身,但由于数据预算(data budget)太小,无法站立或行走。

ac3942ae-f879-11ec-ba43-dac502259ad0.png

UR5 多物体视觉拾取和放置 拾取和放置任务在仓库和物流环境中很常见,需要机械臂将物品从一个箱子运输到另一个箱子。图 5 展示了成功拾取和放置的循环。由于奖励稀疏、需要从像素推断对象位置以及多个移动对象的挑战性动态,该任务具有一定挑战性。

ac4b85fe-f879-11ec-ba43-dac502259ad0.png

XArm 视觉拾取和放置 上面提到的 UR5 机器人是高性能工业机器人,但 XArm 是一种可访问的低成本 7 DOF 操作,此处任务类似,需要定位和抓取一个柔软的物体,将其从一个容器移到另一个容器并返回,如图 6 所示。

ac68eefa-f879-11ec-ba43-dac502259ad0.png

Sphero 导航 此外,研究者还在视觉导航任务上评估了 Dreamer,该任务需要将轮式机器人操纵到固定目标位置,仅给定 RGB 图像作为输入。这里使用了 Sphero Ollie 机器人,一个带有两个可控电机的圆柱形机器人,研究者通过 2 Hz 的连续扭矩命令对其进行控制。鉴于机器人是对称的,并且机器人只能获得图像观察,它必须从观察历史中推断出航向。

ac81211e-f879-11ec-ba43-dac502259ad0.png

2 小时内,Dreamer 学会了快速且始终如一地导航到目标,并保持在目标附近。如图 7 所示,Dreamer 与目标的平均距离为 0.15(以区域大小为单位测量并跨时间步求平均值)。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    211

    文章

    28565

    浏览量

    207712
  • 算法
    +关注

    关注

    23

    文章

    4624

    浏览量

    93116

原文标题:1小时学会走路,10分钟学会翻身,世界模型让机器人迅速掌握多项技能

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    具身智能机器人的基础模块,这个是本书的第二部分内容,主要分为四个部分:机器人计算系统,自主机器人的感知系统,自主机器人的定位系统,自主机器人
    发表于 01-04 19:22

    《具身智能机器人系统》第10-13章阅读心得之具身智能机器人计算挑战

    阅读《具身智能机器人系统》第10-13章,我对具身智能机器人的工程实践有了全新认识。第10章从实时性角度剖析了机器人计算加速问题。机器人定位中的SLAM算法需要处理两个计算密集型任务:
    发表于 01-04 01:15

    【「具身智能机器人系统」阅读体验】2.具身智能机器人模型

    近年来,人工智能领域的大模型技术多个方向上取得了突破性的进展,特别是机器人控制领域展现出了巨大的潜力。“具身智能
    发表于 12-29 23:04

    【「具身智能机器人系统」阅读体验】1.初步理解具身智能

    工智能 认知发展机器人学 进化机器人学 物理体现与互动 五、具身智能的现代技术方向 另外,随着GPT等大语言模型的发展,这些技术也具身智能
    发表于 12-28 21:12

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    研读《具身智能机器人系统》第7-9章,我被书中对大模型机器人技术融合的深入分析所吸引。第7章详细阐述了ChatGPT for Robotics的核心技术创新:它摒弃了传统的分层控制架构,创造性地
    发表于 12-24 15:03

    【「具身智能机器人系统」阅读体验】+数据具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成到机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够人类社会中有效地提供商品及服务。 数据是一种货币化工具 数
    发表于 12-24 00:33

    《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

    将大模型的\"大脑\"装入物理实体的\"身躯\",让AI真正走进现实世界。这种革新不仅体现在稚晖君开源的人形机器人方案,更在“AI教母”李飞飞的VoxPoser
    发表于 12-19 22:26

    复合机器人正逐渐仓储物流领域发挥重要作用

    随着智能仓储物流技术的快速发展,复合机器人作为一种先进的自动化设备,正逐渐仓储物流领域发挥重要作用。以下是一个复合机器人在智能仓储物流的应
    的头像 发表于 12-16 16:56 129次阅读
    复合<b class='flag-5'>机器人</b>正逐渐<b class='flag-5'>在</b>仓储物流领域<b class='flag-5'>发挥</b>重要<b class='flag-5'>作用</b>

    FOC电机机器人技术中的作用

    随着工业自动化和智能制造的快速发展,机器人技术已成为现代工业的重要组成部分。电机作为机器人的动力源,其性能直接影响到机器人的工作效率和稳定性。FOC电机以其高效、精确和灵活的特点,
    的头像 发表于 11-21 15:20 398次阅读

    解锁机器人视觉与人工智能的潜力,从“盲人机器”改造成有视觉能力的机器人

    正如人类依赖眼睛和大脑来解读世界机器人也需要自己的视觉系统来有效运作。没有视觉,机器人就如同蒙上双眼的人类,仅能执行预编程的命令,容易碰撞障碍物,并犯下代价高昂的错误。这正是机器人
    的头像 发表于 10-12 09:56 436次阅读
    解锁<b class='flag-5'>机器人</b>视觉与人工智能的潜力,从“盲人<b class='flag-5'>机器</b>”改造成有视觉能力的<b class='flag-5'>机器人</b>(<b class='flag-5'>上</b>)

    构建语音控制机器人 - 线性模型机器学习

    2024-07-31 |Annabel Ng 该项目的[一篇博客文章]中,我介绍了运行机器人电机、处理音频信号和调节电压所需的电路的基础知识。然而,机器人还没有完全完成!尽管
    的头像 发表于 10-02 16:31 238次阅读
    构建语音控制<b class='flag-5'>机器人</b> - 线性<b class='flag-5'>模型</b>和<b class='flag-5'>机器</b>学习

    在生产制造业中,码垛机器人发挥的重要作用

     在生产制造业中,码垛机器人发挥着至关重要的作用,主要体现在以下几个方面:  一、题高生产效率  码垛机器人能够以很高的速度和精度进行码垛作业,远远超过人工码垛的效率。它可以持续不间断
    的头像 发表于 09-02 15:51 197次阅读

    Al大模型机器人

    金航标kinghelm萨科微slkor总经理宋仕强介绍说,萨科微Al大模型机器人有哪些的优势?萨科微AI大模型机器人由清华大学毕业的天才少年N博士和王博士团队开发,与同行相比具有许多优
    发表于 07-05 08:52

    编码器机器人系统中的应用

    随着科技的飞速发展,机器人技术已广泛应用于工业、医疗、服务等多个领域。机器人系统中,编码器作为核心的位置和速度检测装置,发挥着至关重要的作用
    的头像 发表于 06-13 14:51 906次阅读

    基础模型能为机器人带来怎样的可能性?

    机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个
    发表于 01-26 14:47 241次阅读
    基础<b class='flag-5'>模型</b>能为<b class='flag-5'>机器人</b>带来怎样的可能性?