具身智能:第一人称视角,强调感知与理解环境
具身智能:能够感知并理解周边环境,通过自主学习完成任务的智能体。 1950年,图灵在论文《Computing Machinery and Intelligence》中首次提出了这一概念,具身概念的可测量性、可解释性和可检验性,使得机器能够通过学习理解具身概念,具 身智能成为迈向通用智能的起点。英伟达创始人兼首席执行官黄仁勋在ITF World 2023半导体大会上表示:“人工智能的下一 个浪潮将是具身智能(embodied AI)”。
智能受脑、身体与环境协同影响,侧重智能体与环境的“交互”,利用行为实现学习。从认知的角度来看,人类为第一人称 视角的智能,以1963年的一个实验为例,被绑起来的猫,只能看这个世界,是一种旁观的智能;另一只猫可以主动去探索,是 具身的智能。
前者有点像现在基于大量数据的智能,比如我们给机器很多盒子,并且标注这就是盒子,然后机器就会觉得这种 pattern 是盒子,属于第三人称的智能,而我们人类是通过体验才知道的。具身智能基于智能体具身行为的学习机制可以将数据 的采集、模型的学习融为一体,真正实现主动交互的学习,这也是对人类学习过程的更高级模拟。
具身智能运行框架:交叉学科发展,包含具身感知、具身想象、具身执行
多学科交叉+政策加速具身智能发展。具身智能包含具身感知、具身想象和具身执行三个模块,涉及机器人学、计算机视觉、认 知科学、博弈学等诸多学科,各学科相对成熟的积累为具身智能进一步发展提供基础。2023年5月,北京市发布的《北京市促进 通用人工智能创新发展的若干措施(2023-2025 年)(征求意见稿)》中提出探索具身智能、通用智能体和类脑智能等通用人工 智能新路径,包括推动具身智能系统研究及应用,政策支持加速具身智能技术突破。
具身感知(Perception):通过视觉、触觉等传感器交互感知,构建模型,定义、获取、表达可以被机器人使用的具身概 念。 具身想象(Imagination):构建仿真引擎,模拟具身任务,为机器人具身执行提供支撑。 具身执行(Execution):基于计算机视觉、机器人学和计算机图形学,通过多模型训练,在多传感器合作下完成任务执 行。
特斯拉人形机器人快速迭代,环境感知与控制能力显著提升
特斯拉人形机器人Optimus全方位升级。特斯拉2023年 股东大会发布Optimus机器人最新视频,机器人外观较 2022年更精致,力度控制更加精准、AI学习与环境感知 能力提升,逐步满足执行复杂任务条件。
小米CyberOne全身21个自由度,实现双足运动姿态平衡,尚未商业化
小米于2022年8月公布首款全尺寸人形机器人CyberOne,高1.77米,重52kg。 环境感知上,小米自研Mi-Sense深度视觉模组,结合AI算法,可对真实世界三维虚拟重建;情绪感知上,CyberOne搭载自研MiAI环境语义识别 引擎+MiAI语音情绪识别引擎,能够实现85种环境音识别和6大类45种人类情绪识别。 关节运动上,全身5种关节驱动,合计13个,峰值扭矩300Nm。运动规划和控制上,自研全身控制算法,协调运动21个关节自由度。 商业化情况:据2022年小米新品发布会,CyberOne单台成本在60-70万元左右,尚未商业化。
WalkerX具有41个自由度,可完成多个高精度动作,商业化初期
Walker系列人形机器人:是中国首个商业化双足真人尺寸人形机器人,于2018年首次亮相,一经推出即赢得了多项世界级奖项及认可。作为是一 款外形亲切、具有自然互动功能的真人尺寸人形机器人,其适用于家居及商务场景。WalkerX拥有41度的自由度以及类似人类的运动能力,能够 以每小时三公里的速度平稳而快速地行走,且在运动中,其单臂可承载的重量可达1.5公斤。在不同的地面,包括不平的地面、斜坡和楼梯上行走 时,Walker可以自行保持稳定和平衡。
Walker可以规划自已的路线并在移动过程中避开障碍物,适应家庭和商业环境,还可以执行人类任务,例 如识别及抓取物体、开门、倒水、下棋、弹钢琴、绘图和其他游戏等。 技术突破:Walker于2019年获《机器人报告》评选为最值得关注的五大人形机器人之一,并于2021年获24/7Tempo评为百年来最具突破性及创新性 的机器人发明之一。 商业化情况:2021年世界人工智能大会,优必选表示Walker系列机器人单台成本在10万美金左右,根据优必选招股说明书2020财年、2021财年及 2022年前九个月,Walker系列产品的收入40万元、890万元及人民币730万元,商业化待拓展。
根据特斯拉机器人的拆解,增量最大的是关节。
特斯拉机器人Op-t-i-mus躯干有28个关节(fen为旋转关节14个和线性关节14个)+手部(双手一共12个)
旋转关节:采用旋转式驱动器,由电机+谐波减速器+力矩传感器+位置传感器+交叉滚子轴承+向心止推滚珠轴承构成。
线性关节:采用线性驱动器,由电机+滚珠/行星滚珠丝杠+力矩传感器+位置传感器构成。
手部:每个手有6个驱动器,由空心杯电机+螺纹丝杠+精密行星齿轮箱+编码器构成。
1、 人形机器人难点:手、腿>头部、躯干、臂
手部:【硬件】自由度高(人手26个),难点在于电机与驱动器集成&机械化感知;【软件】算法受制于硬件感知,精细化操作难。
腿部:【硬件】强调瞬时峰值峰率,对驱动器要求高;【软件】稳定步态算法,目前学界没有较好的类人算法。
躯干:全身控制算法,高维度规划。
臂:双臂协同、混合智能操控。
头:视觉智能延伸。
2、 核心零部件壁垒:驱动器>力传感器>纯机械零部件
驱动器:通过高频率控制电压电流来驱动电机。难点在于技术(瞬时功率高,体积小限制可靠性)&控制算法。厂商包括Elmo、步科、汇川。价格3000-5000元/个,最高可达1w。
力传感器:难点在于数字采集模块小型化。厂商包括ADI(型号多),robotiq(服务好),宇立,坤维,海伯森。价格,一维传感器不到百元,六维传感器1w-2w元/个。
电机:国内外差距不大。价格1000-5000元/个,平均2000元/个。
减速器:国内做得好的厂商是绿的谐波。价格1000元/个。行星减速器替代谐波不太乐观,减速比的要求限制。
丝杠:行星滚珠丝杠和滚珠丝杠,国内与国外有差距,但之后会缩小。
轴承:交叉滚子轴承成本较高。
3、人形机器人成本:硬件成本20w-40w。
其中:关节共30-40个,由电机+减速器/丝杠+驱动器+轴承组成,成本20w左右(单个5000元),批量生产成本可降1/3-1/2。
4、降本空间:刚出来时软件价值量高于硬件,后续1)软件一旦突破,价格立刻下降;2)硬件持续迭代,强化可靠性和稳定性,下降空间有限。
5、人形机器人应用领域:1)通用人工智能路线,近5年的落地场景为展示、展览、陪伴服务;2)专用高级自动化路线,从事特种领域+封闭场景的复杂劳动,实现机器替人。
人形机器人量产痛点
1.手部和腿部硬件集成难度大,需要更高的损失峰值功率和驱动能力
2.腿部行走算法稳定性难以保证,学术界未出现真正意义上的类人走行算法
3.手部精细化感知难度大,涉及到手的21-26个自由度
4.双臂协同、混合智能操控和避让等算法难度大,需要高维度的规划
5.躯干和双臂、腿部结合后,全身控制的算法难度大,涉及到复合剂的技术
以上是国内一线研发专家在人形机器人系列电话会上就人形机器人量产痛点所提出的问题和技术难点。其中硬件方面最难的是手部和腿部,而软件方面则涉及到多种算法的维度问题。各个机器人厂家在开发时会有不同的侧重点,有的追求最新的技术,有的则涉猎多个方面。
Q&A
Q:人形机器人中量产的痛点在哪几个方面?
A:目前人形机器人的痛点主要集中在硬件方面,特别是手和腿部分。手部集成大量电机和驱虫剂,且手部的精细化感知也是一个挑战。而腿部相当于有3+1+3个自由度,甚至是7个,腿部的驱动器需要选择的损失峰值功率要比较高,且行走的稳定步态算法也是非常难的。
Q:人形机器人的硬件方面有哪些难点?
A:人形机器人的硬件方面的难点主要在手和腿部分。手部集成大量电机和驱虫剂,且手部的精细化感知也是一个挑战。而腿部相当于有3+1+3个自由度,甚至是7个,腿部的驱动器需要选择的损失峰值功率要比较高,且行走的稳定步态算法也是非常难的。
Q:人形机器人的软件层面上有哪些算法难点?
A:人形机器人的软件层面上的算法难点主要在腿和手部分,其中腿部的算法门槛较高,需要稳定的步态算法。手部的算法较为简单,但想要实现精细化操作也是相当难的。另外,双臂协同和全身控制等复合算法也是难点。视觉算法虽然有一定突破,但仍存在难点。
Q:国内人形机器人的硬件零部件情况如何?
A:国内外的机器人厂家都在研发人形机器人的核心技术,不同的厂家侧重点不同,有的是追求最新技术,涉猎各个领域,有的专门做某个领域。在硬件方面,国内还需要进一步发展一拖几的驱动器和易托级的驱动器等技术。
Q:人形机器人的硬件方面有哪些关键技术和国内外的差距?
A:从硬件角度来看,人形机器人的关键技术主要分为驱动和感知两部分。在驱动方面,关节的运动能力是核心,需要一个好的驱动器来控制关节的运动,驱动器相当于整个关节的心脏,这块国内外还有一定差距,国外有很多知名的驱动器厂商,如马克松、m等,国内也有一些厂商在尝试。在感知方面,机器人需要通过传感器来感知周围环境,这一块国内外差距不大。至于具体的硬件技术,可以分为驱动和感知两部分,例如电机、减速机、行星齿轮等,在这些方面国内外的差距正在逐渐缩小。
Q:驱动器和电机是什么关系?国内有哪些做得比较好的公司,未来哪些公司有望在人形机器人领域取得成功?
A:驱动器和电机是密切相关的,电机提供一个气垫,驱动器通过放大电压减小电压、放大电流减小电流来控制电机的转动,难点在于驱动器要以一个很高的频率去驱动电机,控制它的精准的电压和电流,这块国内外还有一定差距。目前国内有一些企业在尝试,但是驱动器这块还是比较有难度的。至于未来哪些公司有望在人形机器人领域取得成功,可以将人形机器人分为通用人工智能和专用的高级自动化两种路线,目前专用的高级自动化已经有了很多实际应用场景,如城市高楼幕墙清洁机器人、扫地机器人等,国内也有很多企业在这方面进行研发和应用。而通用人工智能这块非常难,需要解决开放世界的问题,目前还没有一个企业能够完全实现。
Q:国内能否供应驱动器等硬件部分?
A:我觉得有些做电机的企业可以去做,比如布科、汇川等。但是由于机器人的关节太多,不同类型的机器人需要匹配不同的驱动器,所以大企业步子迈得不是特别大,他们现在是兼顾市场和机器人的需求,可能会考虑到机器人上用的一些小型化的市场,也考虑到通用的一些电机架上用的一些东西。
Q:关于成本问题,一个机器人需要用多少个电机、减速器、驱动器等硬件部件,国产和进口的价格分别是多少?
A:一个机器人大概需要30到40个关节,每个关节的成本大概是5000元左右,其中包括电机、减速器和驱动器等硬件部分。电机的价位在1000元到5000元之间,平均大约是2000元,而减速器的价位平均大约是1000元。对于大规模生产,成本可能会降低1/3或者1/2。此外,还有一些传感器需要配备,比如力传感器,每个关节最好可以配一个一维的类传感器,大约在几百元左右。
Q:一维传感器的生产企业都能做出来吗?现在做力传感器的企业都做得比较简单吗?
A:一维传感器都能做出来,但是现在大家的供应链很多都不是供给机器人的,像异常传感器是一个模拟量,它出来要用数字采集,数字采集模块接口会变得很大,现在很多厂家在把数字采集模块做一个小型化,提升到力传感器中。这是一个发展方向。
Q:现在国内哪些企业做得比较好?和海外相比,国内的企业存在哪些差距或者壁垒?
A:国外做得比较好的有Adi公司、API公司和RobertIQ等;国内做得比较好的有宇力科技、坤维科技和海博森等。但是一些老的企业想要往机器人领域转型,他们通信的那一块还没做得很好,可能比较大,在机器人上可能不是非常好用。而像坤维、宇力等企业在这方面考虑得会多一点,做得稍微精细化一点,程度会好一点。
Q:目前是否有上市计划,是否会考虑上市公司的投资?
A:主要做机器人开发,目前可能还没有很多上市公司会愿意介入,因为很多供应链还没有放量,也没有专门给机器人的产品链或一系列产品,所以可能需要等市场放量后,大的公司才会愿意介入。但我更倾向于中国慢慢出现很多小而精的公司,类似于德国的发展方向,它不一定非要都是上市公司在做,而是像德国一样,小的细分领域的numberone,在世界上是非常多的。所以我更倾向于这些小公司在科创板上市或者其他路径上的发展。
Q:国内哪些类型的公司可能愿意投资机器人产业?
A:目前可能还没有很多上市公司会愿意介入,因为很多供应链还没有放量,也没有专门给机器人的产品链或一系列产品。但是随着市场的放量,大的公司肯定会愿意介入。此外,我更倾向于中国慢慢出现很多小而精的公司,类似于德国的发展方向,在世界上是非常多的。所以这些小公司在科创板上市或者其他路径上的发展可能更具发展潜力。
Q:人形机器人的零部件中,视觉传感器的数量和价格大概是多少?
A:人形机器人需要的视觉传感器数量视具体方案而定,大概需要一个深度相机和2-3个激光雷达,以及一些普通的相机。整体成本大概在1万到2万块钱左右。视觉传感器在人形机器人和AGV小车在视觉方面的差距不大,因为它们都是机器人,整体成本上差不多。
Q:在国内机器人行业中,哪些公司被公认为是相对比较好的?
A:海康威视是比较明显的国内龙头公司,中小的公司可能像奥比中光等等,还有罗伯萨斯等等,但是它们好像不是在国内上市的。
Q:如果现在的一个机器人的成本和未来去展望的话,如果那种几十万上百万台的机器人的批量采购生产下成本可以降到什么样的情况?
A:现在可以做到20万的硬件成本,但是要考虑到硬件采购、前期研发和算法的成本,整个成本应该在20万到40万之间。
Q:有一些比较硬的零部件如驱动器、传感器、电机、4杠机齿轮箱的成本会不会随着量产批量采购而降低?
A:是的,大批量采购的情况下,这些零部件的成本会随之降低。
Q:做机器人时,是硬件和算法的协同作用才能产生好的效果吗?
A:是的,好的硬件和算法才能产生好的效果。
Q:在制造机器人时,有哪些方面需要考虑?
A:需要考虑从硬件选型、总体方案、驱动力的大小功率驱动能力、减速机的减速比、加工材料的材料的轻重、柔度等等方面。
Q:手部的机器人有两种驱动方式,一种是一个手指一个电机,另一种是一个电机去驱动几个手指,这两种方式有什么优缺点?
A:第一种方式每个关节相当于它还是把关节做成一体化了,驱动器只是从这个关节,单关节的表现能力会好一点;第二种方式可以用一些县区的方式,或者说一些写史论去传动,电机的电力的排布会更加灵活,但对驱动器的整个设计也非常难,因为它可能要驱动整个手部的20多个电机。这两种方式的选择取决于应用场景。
Q:做一个手大概需要多少成本?
A:一个简单的手大概需要5000元左右的成本,而6个自由度的手可能会更贵。
Q:手部机器人的成本包括什么?在市场采购空心变电机的价格是多少?
A:手部机器人的成本主要包括电机、驱动器、编码器、减速器等部分。从电机到驱动、各个编码器、减速器,其中最大的成本是驱动器。采购空心变电机的价格大概在3000~4000元左右。
Q:手部机器人的壁垒在哪里?为什么技术壁垒这么高?
A:手部机器人的壁垒在于整个手的设计,虽然手的三个部件并不是很贵,但是要整个设计成一个手,让它又能精细化操控,这个壁垒相当高。同时,还有一些新技术的应用,比如电子皮肤等,如果有公司能把电子皮肤都加在手上,技术壁垒就更高了。
Q:电子皮肤的应用前景如何?有哪些公司在应用这项技术?
A:电子皮肤的应用前景比较遥远,也有可能近几年能突破。目前已经有一些协作机器人应用了电子皮肤,比如阅江机器人等。创业公司松果体机器人也在研发手部模块中加入了传感器,但是大多数团队还是局限于科研范畴。关于长效恒信技术,有些团队正在使用石墨烯作为一种全向同性的手的感知,能够感知表面的推拉等细节。
Q:是否有尝试改善升级行星减速器,替换斜坡减速器达到降本目的的技术路径可行吗?如果可行,单个减速器的单价能降多少?谢谢。
A:我觉得这个路径可能不是很可行,因为斜坡跟行星减速它还是有本质的区别的。如果使用行星减速器,为了达到较大的减速比,可能需要使用多级减速,这样器件就要做得很小,而这会导致其传动负载较低,故障率更高。想要避免这些问题,就需要在材料和工艺等方面花费更多功夫。而斜坡减速器则是专门针对于低速大幅场景的,有其本质优势。斜坡的加工精度要求比较高,但随着技术的不断进步,其成本也会降低。至于单个减速器的单价能降多少,这需要考虑多个因素,如使用环境、材料、工艺等,具体情况还需具体分析。
Q:人形机器人未来的应用市场会在哪些领域?如果要放量,哪些驱动因素会驱动这种产品放量?谢谢。
A:人形机器人的未来应用领域主要有两个,一个是通用人工智能,另一个是专用的高级动画。从这两个方面去考虑的话,通用人工智能的路线可能会像无人驾驶车辆一样,主要应用在展示展览或者陪伴服务等领域。因为目前的语音交互技术还不够成熟,所以更多的应用在陪伴服务方面。而从专用的高级自动化方向去考虑,比如代替人类劳动、完成复杂的巡检等任务,这些领域的应用可能会更加成功。此外,人形机器人的应用还受制于其硬件和软件技术的发展程度、成本等因素。
Q:特斯拉区分了线性和旋转关节,用的也是不同的搭配,只能这样搭配吗?这两个关节有哪个难度更高,哪个难度低吗?成本上来看,他们大概是一个一个什么样的比例?
A:特斯拉的线性和旋转关节的搭配需要根据整体设计和需求来确定,不一定只能这样搭配。从人的肢体运动规律来看,肩关节的活动速度相对较慢,但力矩较大,而肘关节的速度则需要时快时慢,但也需要有较大的力矩。因此,(各行业纪要请加微:hjk211985)使用哪种关节需要根据具体需求来选择,还需要考虑减速比、检测速度等因素,以及电机的能力等配合因素。至于难度和成本方面,硬件的壁垒长期来看是更高的,因为它涉及到一个迭代和生命周期的迭代,还需要保证可靠性稳定性和可维护性,整体的服务质量需要保证。而软件方面,一旦突破会快速下降,但刚出来时价值量会较高。
Q:关于行星杠和滚珠丝杠的问题,特斯拉的关节里有没有需要用行星的关节?
A:可能减速比配比的问题在这里,有的地方需要用到新兴市场,有一方它可能比更大,或者有的地方可能就是滚就死了。比如在肩关节处需要用斜坡的减速仪,但在腕关节处需要很快的运动速度和应用速度,但负载需求会小一点,应用现金的滚珠丝杠。这取决于整个产品设计师的思路和需求。目前还处于制造最好的硬件来服务于算法的开发人员阶段,降本阶段可能还未到来。
Q:关于力矩传感器,有哪些关节是非常重要,需要使用六维的?
A:在特斯拉身上可能有14个线性关节,需要根据整体产品设计师的需求和算法开发人员的要求来选择。在科研领域,有些人认为某些传感器可能可以不用。例如,在电机上绑定传感器时,可以通过电流反馈测量电机的力,但这个方法不够准确,人们试图通过各种算法来提高准确度,包括使用双编码器和双面玩具等来估算电机力。这取决于产品设计师和算法开发人员需要多高的精度和感知能力。
Q:是否可以先使用最好的硬件,等到算法成熟后再降低一些硬件的精度?
A:是的,这取决于产品设计师的需求和算法开发人员的要求。在科研领域中,有些人试图提高传感器的准确度,包括采用双编码器和双面玩具等方法。这取决于产品设计师和算法开发人员需要多高的精度和感知能力。目前还处于制造最好的硬件来服务于算法的开发人员阶段,降本阶段可能还未到来
编辑:黄飞
评论
查看更多