0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器人接入大模型直接听懂人话,日常操作轻松完成!

CVer 来源:量子位(QbitAI) 2023-07-11 14:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

李飞飞团队具身智能最新成果来了:

大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。

42ef34d6-1fa9-11ee-962d-dac502259ad0.png

从此,人类可以很随意地用自然语言给机器人下达指令,如:

打开上面的抽屉,小心花瓶!

430c81c6-1fa9-11ee-962d-dac502259ad0.gif

大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划。

480c09b2-1fa9-11ee-962d-dac502259ad0.gif

然后重点来了,真实世界中的机器人在未经“训练”的情况下,就能直接执行这个任务。

4b43432a-1fa9-11ee-962d-dac502259ad0.gif

新方法实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。

可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。

4e6515ec-1fa9-11ee-962d-dac502259ad0.gif

目前项目主页和论文都已上线,代码即将推出,并且已经引起学术界广泛兴趣。

4fd5cbba-1fa9-11ee-962d-dac502259ad0.png

论文地址:
https://voxposer.github.io/voxposer.pdf
项目主页:
https://voxposer.github.io/

一位前微软研究员评价到:这项研究走在了人工智能系统最重要和最复杂的前沿。

4ffd5dba-1fa9-11ee-962d-dac502259ad0.png

具体到机器人研究界也有同行表示:给运动规划领域开辟了新世界。

5009c104-1fa9-11ee-962d-dac502259ad0.png

还有本来没看到AI危险性的人,因为这项AI结合机器人的研究而改变看法。

501ed6de-1fa9-11ee-962d-dac502259ad0.png

机器人如何直接听懂人话?

李飞飞团队将该系统命名为VoxPoser,如下图所示,它的原理非常简单。

502fe406-1fa9-11ee-962d-dac502259ad0.png

首先,给定环境信息(用相机采集RGB-D图像)和我们要执行的自然语言指令。

接着,LLM(大语言模型)根据这些内容编写代码,所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应的操作指示地图,即3D Value Map。

5072ff8e-1fa9-11ee-962d-dac502259ad0.png

所谓3D Value Map,它是Affordance Map和Constraint Map的总称,既标记了“在哪里行动”,也标记了“如何行动”。

509f2276-1fa9-11ee-962d-dac502259ad0.png

如此一来,再搬出动作规划器,将生成的3D地图作为其目标函数,便能够合成最终要执行的操作轨迹了。

而从这个过程我们可以看到,相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行交互,所以直接解决了机器人训练数据稀缺的问题。

更进一步,正是由于这个特点,它也实现了零样本能力,只要掌握了以上基本流程,就能hold任何给定任务。

在具体实现中,作者将VoxPoser的思路转化为一个优化问题,即下面这样一个复杂的公式:

50f7ae78-1fa9-11ee-962d-dac502259ad0.png

它考虑到了人类下达的指令可能范围很大,并且需要上下文理解,于是将指令拆解成很多子任务,比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成。

VoxPoser要实现的就是优化每一个子任务,获得一系列机器人轨迹,最终最小化总的工作量和工作时间。

而在用LLM和VLM将语言指令映射为3D地图的过程中,系统考虑到语言可以传达丰富的语义空间,便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作,也就是通过3DValue Map中标记的值来反应哪个物体是对它具有“吸引力”的,那些物体是具有“排斥性”。

510f2ba2-1fa9-11ee-962d-dac502259ad0.png

还是以开头的例子举,抽屉就是“吸引”的,花瓶是“排斥”的。

当然,这些值如何生成,就靠大语言模型的理解能力了。

而在最后的轨迹合成过程中,由于语言模型的输出在整个任务中保持不变,所以我们可以通过缓存其输出,并使用闭环视觉反馈重新评估生成的代码,从而在遇到干扰时快速进行重新规划。

因此,VoxPoser有着很强的抗干扰能力。

51468480-1fa9-11ee-962d-dac502259ad0.gif

‍△ 将废纸放进蓝色托盘

以下分别是VoxPoser在真实和模拟环境中的表现(衡量指标为平均成功率):

575ebaae-1fa9-11ee-962d-dac502259ad0.png

可以看到,无论是哪种环境哪种情况(有无干扰、指令是否可见),它都显著高于基于原语的基线任务。

最后,作者还惊喜地发现,VoxPoser产生了4个“涌现能力”:

(1)评估物理特性,比如给定两个质量未知的方块,让机器人使用工具进行物理实验,确定哪个块更重;

(2)行为常识推理,比如在摆餐具的任务中,告诉机器人“我是左撇子”,它就能通过上下文理解其含义;

(3)细粒度校正,比如执行“给茶壶盖上盖子”这种精度要求较高的任务时,我们可以向机器人发出“你偏离了1厘米”等精确指令来校正它的操作;

(4)基于视觉的多步操作,比如叫机器人将抽屉精准地打开成一半,由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务,但VoxPoser可以根据视觉反馈提出多步操作策略,即首先完全打开抽屉同时记录手柄位移,然后将其推回至中点就可以满足要求了。

578669e6-1fa9-11ee-962d-dac502259ad0.png

李飞飞:计算机视觉的3颗北极星

大约一年前,李飞飞在美国文理学会会刊上撰文,指出计算机视觉发展的三个方向:

具身智能(Embodied AI)

视觉推理(Visual Reasoning)

场景理解(Scene Understanding)

57ab97ac-1fa9-11ee-962d-dac502259ad0.png

李飞飞认为,具身智能不单指人形机器人,任何能在空间中移动的有形智能机器都是人工智能的一种形式。

正如ImageNet旨在表示广泛且多样化的现实世界图像一样,具身智能研究也需要解决复杂多样的人类任务,从叠衣服到探索新城市。

遵循指令执行这些任务需要视觉,但需要的不仅仅是视觉,也需要视觉推理理解场景中的三维关系。

最后机器还要做到理解场景中的人,包括人类意图和社会关系。比如看到一个人打开冰箱能判断出他饿了,或者看到一个小孩坐在大人腿上能判断出他们是亲子关系。

机器人结合大模型可能正是解决这些问题的一个途径。

57bf5a6c-1fa9-11ee-962d-dac502259ad0.png

除李飞飞外,参与本次研究的还有清华姚班校友吴佳俊,博士毕业于MIT,现为斯坦福大学助理教授。

论文一作Wenlong Huang现为斯坦福博士生,在谷歌实习期间参与了PaLM-E研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31634

    浏览量

    224496
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11370
  • 大模型
    +关注

    关注

    2

    文章

    3863

    浏览量

    5296

原文标题:李飞飞团队「具身智能」新成果!机器人接入大模型直接听懂人话,日常操作轻松完成!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小米开源VLA大模型后训练全流程:亚毫米级操作突破引领机器人产业革命

    机器人技术领域,小米集团近日宣布开源VLA大模型Xiaomi-Robotics-0的后训练全流程,这一突破性进展标志着智能机器人从实验室走向实际生产的"最后一公里"正式打通。该模型
    的头像 发表于 04-28 09:24 1312次阅读

    基于米尔RK3576核心板的国产割草机器人解决方案

    依赖国外云端算力的方案,RK3576内置了算力高达6 TOPS的第三代自研NPU。这一国产NPU使得割草机器人能够在不联网、不依赖国外云服务的条件下,实时完成: 草坪环境识别 :区分草坪与花坛、硬化
    发表于 04-24 17:31

    为什么说关节扭矩传感器是高端机器人的“触觉神经”?

    操作完成毫米级、毫牛级任务 在精密装配、手术机器人等领域,扭矩传感器能分辨0.01牛米的力矩变化。例如,手术机器人缝合血管时,传感器实时反馈针尖穿刺组织的阻力,确保力度恰到好处,避免
    发表于 04-17 17:27

    智能机器人从0到1系统入门课程 带源码课件 百度网盘下载

    的深度理解。然而,未来的机器人交互必然是多模态融合的——即“听觉”与“视觉”的深度协同。通过结合语音识别与视觉识别技术,我们不仅能赋予机器人听懂人话”的能力,更能让它拥有“看懂世界”
    发表于 04-11 16:41

    EtherNet/IP转CANopen——焊装产线的“协议破壁”:让机器人听懂焊机

    EtherNet/IP转CANopen——焊装产线的“协议破壁”:让机器人听懂焊机 在汽车焊装车间,焊机与机器人“各说各话”——焊机标配EtherNet/IP,
    的头像 发表于 04-09 15:09 212次阅读
    EtherNet/IP转CANopen——焊装产线的“协议破壁<b class='flag-5'>人</b>”:让<b class='flag-5'>机器人</b><b class='flag-5'>听懂</b>焊机

    再谈低温烧结银的应用:从春晚四家机器人出镜的幕后推手说起

    完成翻跟头、脖子延伸、互动接梗,强调关节灵活+低功率+长期稳定。 银河通用:《我最难忘的今宵》:Galbot G1具身智能,自主决策、精细操作,依赖AI芯片+传感器+高效互连。 2机器人动得稳、准、快
    发表于 02-17 14:07

    探索RISC-V在机器人领域的潜力

    应用,特别是机器人操作系统领域的可行性。MUSE Pi Pro以其强大的K1 AI CPU和官方对主流开源软件栈的积极适配,成为了一个非常有吸引力的选择。 二、 硬件初窥:性能小钢炮 MUSE Pi Pro
    发表于 12-03 14:40

    机器人看点:智元机器人公司完成股改 湃特纳机器人完成数千万元A轮融资

    给大家带来一些机器人行业的消息: 智元机器人公司完成股改 智元机器人上市在即?据企查查APP信息显示智元机器人公司已
    的头像 发表于 11-10 14:28 1754次阅读

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    。· 多屏显示:显示配送状态、路径信息及简单的触摸操作界面,方便工作人员监控与交互。 开启您的下一代机器人项目综上所述,瑞芯微RK3576凭借其卓越的多屏支持、强大的多摄像头接入能力和高效的低功耗表现
    发表于 10-29 16:41

    小萝卜机器人的故事

    经过我的申请, 马老师发放了, 小萝卜机器人的, 开发权限, 原来的小萝卜公司, 因为经营不善倒闭, 作为科研产品, 几个技术对此惋惜, 自掏腰包, 要让小萝卜机器人, 再生, 每次听到小萝卜说
    发表于 10-23 05:24

    什么是机器人?追溯机器人技术的演变和未来

    作者: Aswin S Babu 什么是机器人? 在日常生活里,“机器人”一词我们都不陌生,日常交谈中也常常脱口而出。但大家可曾细想过,这个词的真正含义究竟为何?接下来,不妨花些时间,
    的头像 发表于 10-02 16:32 5904次阅读
    什么是<b class='flag-5'>机器人</b>?追溯<b class='flag-5'>机器人</b>技术的演变和未来

    工业机器人的特点

    生产可以提高产品品质。通过设定相同的程序,机器人可实现重复操作,保证了产品的标准化;在精细化生产方面,工业机器人可实现低于0.1毫米的运动精度,可以完成精细的雕刻工作。提高产出 由于
    发表于 07-26 11:22

    RDK × 腿臂机器人:这只 “机械汪” 竟会说人话、走花路!

    ,基于RDKX3平台进行AI大模型算法开发,提出了一种融合AI大模型的创新性解决方案,提升腿臂机器人的综合性能。-项目首先强化了机器人的多模态感知能力,利用雷达、摄像
    的头像 发表于 07-01 20:27 1512次阅读
    RDK × 腿臂<b class='flag-5'>机器人</b>:这只 “机械汪” 竟会说<b class='flag-5'>人话</b>、走花路!

    艾摩星机器人完成首个具身智能产品全链路功能验证

    近日,知行科技旗下专注机器人研发与商业化的全资子公司艾摩星机器人完成首个具身智能产品 —— “充电机器人”的全链路功能验证。该机器人能够高可
    的头像 发表于 06-13 16:21 955次阅读

    轮式移动机器人电机驱动系统的研究与开发

    【摘 要】以嵌入式运动控制体系为基础,以移动机器人为研究对象,结合三轮结构轮式移动机器人,对二轮差速驱动转向自主移动机器人运动学和动力学空间模型进行了分析和计算,研究和设计了自主移动
    发表于 06-11 14:30