2023年5月,在ITF World 2023半导体大会上,英伟达创始人兼CEO黄仁勋介绍了英伟达的多模态具身智能系统NvidiaVIMA,能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界、甚至模拟物理学,标志着AI能力的显著进步。
此外,在特斯拉召开2023年年度股东大会上,马斯克展示了人形机器人Optimus的全新型号,和具身智能机器人几乎划等。马斯克表示,人形机器人将是今后特斯拉主要的长期价值来源,他也认为以具身智能机器人为代表的产品有望成为人工智能的下一浪潮。
具身智能涉及多学科
具身智能有望打开 AI 新空间,引领人工智能下一站浪潮。实现具身智能需要多个学科的交叉能力。当前具身智能产业链中包括数字基础设施、机器人制造、机器视觉、多模态大模型的厂商等相关环节投资机会值得重点关注。机器人制造:为具身智能提供了机械的身体和基本的运动控制。
深度学习:该学科中的神经网络仍然是具身智能中主要的工具。为具身智能提供推理能力;强化学习,从环境反馈中,帮助具身智能调优模型。
多模态:计算机视觉,为具身智能提供处理视觉信号能力;语音与自然语言处理,为具身智能提供理解与对话能力,实现与人类交互。
计算机图形学:其开发的物理仿真环境给具身智能提供了真实物理世界的替代,大大加快了学习的速度并降低了成本。认识科学:帮助具身智能理解人类,构建认识与价值。
具身机器人技术架构
具身智能的出现有望持续引领“大模型+机器人”潮流。具身智能机器人是具身智能的实体形态,有望成为 AI 的最终载体。其整体架构由感知层、交互层、运动层组成。与工业机器人不同,具身智能机器人若能像人一样与环境交互、感知、决策、完成任务,将不得不提升感知层和认知层的能力。因此,感知层和认知层是工业机器人向具身智能机器人迈进的门槛。
感知层类似人的五官,负责收集环境信息,在单一场景下机器或许可以通过感知来绕过决策控制。感知层中视觉的重要程度较高,视觉感知或是具身智能机器人的核心。
感知层需要与运动层交互印证:首先视觉感知需要与物理实存进行交互印证,是具身智能实现的基础;感知能力提升可使机器人运动更加“拟人化”:视觉感知通过与运动系统的执行参量、信息数据交互修正,使具身机器人从传统的僵化肢体运动提升为为高自由度、高精密、多表现形式的运动。
决策交互层作为核心处理枢纽,需要类似人类大脑的处理能力,满足机器在理解指令、分解 任务、规划子任务、识别物体完成人机交互和环境交互等方面的需求,多维度的人机交 互在传统的机器人领域是一大难题。因而当下的研究更多体现在特定指令下对于环境交互的探索,也即如何更智能地执行特定物理任务上。
GPT-4 出现让机器人对于现实世界中图像、文字、数据的理解进入新台阶。根据微软最新的一项研究,将 GPT 拓展至机器人领域,实现语言控制机械臂、无人机等多个平台。多模态的引入拓展了交互的丰富性,大幅提升人机交互和环境交互能力,助力机器人能 力再上新台阶。未来有望在更多场景落地应用,包括自动驾驶、工业自动化、 医疗健康、家用服务、教育、娱乐等众多领域,帮助人类实现极端环境作业、 多领域降本增效。
多模态大模型与机器的融合
具身智能作为人工智能重要应用,需要多复合型的模型能力。阿里巴巴张勇表示制造业是 AI 大模型的重要战场,未来 10 年最大的机会就在于云、AI 与物理世界机器的融合。
除了诸如视觉、自然语言处理等单领域模型的纵深发展,多模态大模型的加持或将成为下一步重要的应用方向。AIGC 为具身智能突破技术瓶颈提供新思路。AIGC的“智能”表现在能够进行上下文理解和情景感知,输出文字、图像、声音。
进入 AIGC 时代后,GPT 等大模型有望作为人类与机器人沟通的桥梁。即通过 将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理 解,帮助机器人处理具身推理任务。AI 大模型浪潮下,谷歌、微软、 阿里等巨头均发力探索 AI大模型与具身智能的融合。目前,诸多大厂已在具身智能领域进行布局,谷歌发布史上最大通才模型 PaLM-E;微软探 索如何将 ChatGPT 扩展到机器人领域;阿里巴巴-千问大模型正在实验接入工业机器人等。
风险揭示:信息出自公开数据,内容不做具体操作指导,客户 亦不应将其作为投资决策的唯一参考因素。据此买入,责任自负,股市有 风险,投资需谨慎。
审核编辑黄宇
-
机器人
+关注
关注
211文章
28466浏览量
207310 -
AI
+关注
关注
87文章
30996浏览量
269292
发布评论请先 登录
相关推荐
评论