0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Mobileye和特斯拉差距在哪?

佐思汽车研究 来源:佐思汽车研究 2023-07-12 15:33 次阅读

对比Mobileye和特斯拉,两者做事风格截然不同。Mobileye有着十几年的积累,可靠性经过了市场和时间的验证,传统大厂无一例外都会选择Mobileye,但同时意味着有资产包袱,不舍得放弃以前的研究成果,难接受新的研究方向与潮流变化,对学术界的东西似乎完全不在意。特斯拉则是博采各家所长,时刻关注着学术界的最新动向,发现有好的技术点就努力将其落地,始终走在技术最前沿。

Mobileye在L2领域占据绝对霸主地位,市场占有率超过70%,特斯拉则是智能驾驶技术的引领者。对于感知任务,核心就是建立一个3D的周边环境模型,即3D场景重建,这也是L2与L2+系统的本质区别。L2的目的是避免碰撞,遇到可能发生的碰撞就刹车或减速,而L2+系统是自主驾驶,遇到可能发生的碰撞时,通过对周边3D场景重建,找到可行驶空间Freespace绕开障碍物,而不是减速或刹车。3D场景重建的最佳表征形式是BEV即鸟瞰,很多时候BEV几乎等于3D场景重建。

3D场景重建最佳解决办法是立体双目,即基于Depth Map的3D重建。立体双目可以准确测量出深度信息,但除了博世、奔驰、丰田这些大厂外,双目的标定和立体匹配是无法跨越的难关,包括特斯拉和Mobileye。还有一个原因是新兴造车在单目上累积了丰富的知识产权,跳到立体双目领域意味着这些累积都作废了,这是最核心资产的严重流失。

特斯拉和Mobileye的思路都是用单目做3D重建,常见方法有SfM和Transformer。此外3D场景重建还可以基于点云、VOXEL和MESH。

SfM(Structure From Motion)是最经典技术路线,通过使用诸如多视图几何优化之类的数学理论从2D图像序列中确定目标的空间几何关系,以通过相机移动恢复3D结构。SFM方便灵活,但在图像序列采集中遇到场景和运动退化问题。根据图像添加顺序的拓扑结构,可以将其分为增量/顺序SFM、全局SFM、混合SFM和分层SFM。此外,还有语义SFM和基于深度学习的SFM。步骤包括1.特征提取(SIFT、SURF、FAST等方法);2.配准(主流是RANSAC和它的改进版;3.全局优化bundleadjustment用来估计相机参数;4.数据融合。

6c81a5de-205f-11ee-962d-dac502259ad0.png

Mobileye的SuperVision

6c9f5278-205f-11ee-962d-dac502259ad0.png

Mobileye的multi-view stereo实际就是SFM的另一种说法,Mobileye还给它取了另一个名字Vidar或者叫伪激光雷达,这就是SuperVision的核心。

6cb3edc8-205f-11ee-962d-dac502259ad0.png

Mobileye的SuperVision,7个800万像素摄像头

6d044516-205f-11ee-962d-dac502259ad0.png

7个摄像头联合得到的3D场景重建

6d2617ae-205f-11ee-962d-dac502259ad0.png

伪激光雷达

6d5dee5e-205f-11ee-962d-dac502259ad0.png

VIDAR就是multi-view stereo

6d7dc9cc-205f-11ee-962d-dac502259ad0.png

Mobileye的SFM还混合了REM和视觉道路模型

6da5df66-205f-11ee-962d-dac502259ad0.png

SuperVision也可以得到BEV视角,不过不像特斯拉那样高精细度,特斯拉的所谓OccupancyGrid,Mobileye也有使用。当然,大部分情况下还是非BEV视角。

SFM的优点是设计简单,有些类型的SFM可以用非深度学习算法,对算力需求很低,即使深度学习算法,因为还是参数量不到千万的CNN,对算力需求还是很低。不过SFM精度不高,特别是大范围场景或者说远距离使用困难,因为一个大场景环境是很复杂的,如各种物体、多样的光照、反光表面,还有不同焦距、畸变和传感器噪声的多样摄像机。许多先前的方法采用多视角深度估计(MVS)来重建场景,预测每一帧图像的稠密深度图,这种depth-based方法可以估计准确的局部几何形状,但需要额外的步骤来融合这些深度图,例如解决不同视角之间的不一致性,这相当困难。Mobileye的解决办法是使用高像素摄像头,7个摄像头都是8百万像素,像素越高,有效距离越远。

再有就是SFM准确度有限,为了从多个输入视图中学习有效的3D表示,大多数基于CNN的方法遵循分而治之的设计原则,其中通常的做法是引入CNN进行特征提取和融合模块来集成多个视图的特征或重建得到。尽管这两个模块之间有很强的关联,但它们的方法设计是分开研究的。另外,在CNN特征提取阶段,很少研究不同视图中的目标关系。虽然最近的一些方法引入了递归神经网络(RNN)来学习不同视图之间的目标关系,但这种设计缺乏计算效率,而且RNN模型的输入视图是对顺序变化敏感的,难以与一组无序的输入视图兼容。

轮到特斯拉的BEVFormer闪亮登场了,BEV一直存在,BEV视角下的物体,不会出现图像视角下的尺度(scale)和遮挡(occlusion)问题。由于视觉的透视效应,物理世界物体在2D图像中很容易受到其他物体遮挡,2D感知只能感知可见的目标,而在BEV空间内,算法可以基于先验知识,对被遮挡的区域进行预测。再有就是BEV视角下,感知和决策规划有机地融为一体,依靠Freespace或者说Occupancy Grid提供直接路径规划,无需中间计算环节,速度和准确度都大幅提升。

6dd164c4-205f-11ee-962d-dac502259ad0.png

BEV可以分为基于深度/几何信息的和基于深度学习的两大类。

基于深度/几何信息的 BEV 是正向思维,采用自底向上、从2D 到3D 的方式,先在2D视角预测每个像素的深度再通过内外参投影到 BEV空间通过多视角的融合生成BEV特征,但对深度的估计一直都是难点。不过激光雷达和双目都可以提供准确的深度信息完全不是难点。纯单目的方式典型代表就是SFM,用SFM 推测深度信息。Mobileye 可以用SFM 做出BEV,但目前来看还似乎是没有使用,还是2D 平视。

基于深度学习的 BEV是逆向思维,采用自顶向下、从3D到2D 的方式,先在 BEV 空间初始化特征,再通过多层transformer 与每个图像特征进行交互融合,最终再得到 BEV特征。这就是特斯拉的BEVFormer。

早期自动驾驶研究阶段都是头顶64线或128线360度Velodyne机械激光雷达,就是为了制造BEV视角,但是要到落地阶段,Velodyne的64线或128线激光雷达显然无法商业化。

6df566c6-205f-11ee-962d-dac502259ad0.png

激光雷达制造的BEV

于是才有了纯摄像头的BEV。BEV是连接时空的理想桥梁。对于人类视觉感知系统来说,时间信息在推断目标的运动状态和识别遮挡目标方面起着至关重要的作用,视觉领域的许多工作已经证明了视频数据的有效性。然而,现有最先进的多摄像头3D检测方法很少利用时间信息。应用Transformer(空域)结构和Temporal结构(时域)从多摄像头输入生成鸟瞰图(BEV)特征。BEVFormer利用查询查找空域和时域,并相应地聚合时-空信息,有利于实现感知任务的更强表征。

Transformer是一种基于注意力机制(Attention)的神经网络模型,由Google在2017年提出。与传统神经网络RNN和CNN不同,Transformer不会按照串行顺序来处理数据,而是通过注意力机制,去挖掘序列中不同元素的联系及相关性,这种机制背后,使得Transformer可以适应不同长度和不同结构的输入。利用多个无序输入之间的自注意力来探索视图到视图的关系。将多视图3D重建问题重新表述为一个序列到序列的预测问题,并将特征提取和视图融合统一在单个transformer网络中。

另一方面,在Transformer模型中,自注意力机制在任意数量的输入标记内显示出其学习复杂语义抽象的强大能力,并且自然地适合于探索3D目标不同语义部分的视图到视图关系。鉴于此,transformer的结构成为多视图3D重建最吸引人的解决方案,transformer配合语义分割有更好的效果,传统的CNN也有不错的3D重建。

6e2f124a-205f-11ee-962d-dac502259ad0.png

BEVFormer整体架构

需要指出BEVFormer有两个概念,一个是南京大学、上海AI实验室和香港大学提出的,见论文《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-CameraImages via Spatiotemporal Transformers》,另一个是人们根据特斯拉AI日中的介绍,认为特斯拉的感知结合了BEV和Transformer,因此称其为BEVFormer。特斯拉不会公布自己的源代码,而《BEVFormer: Learning Bird’s-Eye-ViewRepresentation from Multi-Camera Images via Spatiotemporal Transformers》内附源代码。

特斯拉自己对BEV + Transformer的叫法应该是Multi-CamVector Space Predictions。

6e4e29f0-205f-11ee-962d-dac502259ad0.png

其内部构造可以参考FACEBOOK的论文《End-to-End Object Detection with Transformers》

6e6f8a28-205f-11ee-962d-dac502259ad0.png

特斯拉图像到BEV的Transformer

6e90b374-205f-11ee-962d-dac502259ad0.png

特斯拉视觉系统整体架构,BEV+Transformer也就是第二层的Multi-camFusion+矢量空间。

特斯拉的第一层的BiFPN也值得一提。BiFPN当然也不是特斯拉创造的,它的详细理论参见论文《EfficientDet: Scalable and Efficient Object Detection》,作者是谷歌大脑研究小组。

6ecb61d6-205f-11ee-962d-dac502259ad0.png

BiFPN准确率很高,消耗算力比传统的ResNet要低很多。

Mobileye的算力不高,不是AI算力不高,CPU算力也不高,GPU几乎为零,因此Mobileye将环境模型分成4部分,降低计算密度。

6ef2836a-205f-11ee-962d-dac502259ad0.png

针对4个子目录有不同的处理技术

6f352e54-205f-11ee-962d-dac502259ad0.png

这其中的语义分割和特斯拉的Occupancy Grid基本一致,只是特斯拉是基于BEV视角的。

6f91617e-205f-11ee-962d-dac502259ad0.png

Mobileye的语义分割,Mobileye早在2018年就提出此项技术并于2019年商业化落地,技术实力还是很不错的。

表面上看,特斯拉和Mobileye的SuperVision的思路一致,但Transformer的使用让特斯拉明显远比Mobileye要强大,不过一代FSD或者说HW3.0能跑BEVFormer吗?典型的NLP用Transformer参数是10亿个,针对视频的可能会有20亿个,按照汽车行业惯用的INT8格式,意味着Transformer模型大小是2GB。特斯拉初代 FSD 使用的 LPDDR4,型号是MT53D512M32D2DS-046 AAT,容量为16Gb,总共 8 片,I/O 频率 2133MHz,其带宽为 2.133*64/8,即 17.064GB/s,由于DDR是双通道,所以带宽是34.12GB/s,这里非常抱歉,以前的算法有错误(错误照搬了英伟达的张量并行模式),严重高估了内存带宽。

顺便指出像ChatGPT这种大模型,英伟达是采用张量并行的方式计算,因此如果是8张H100显卡,英伟达是将权重模型一分为8,等同于内存带宽增加了8倍,但是张量并行是针对多张显卡服务器设计的,对于车载领域,Transformer还未听说用张量并行的,张量并行也是英伟达独创的。内存带宽仅有34.12GB/s是无法流畅运行Transformer的,因为每分钟单单读入权重模型的次数最高也不过17次,还未包括处理数据的时间和路径规划所需要的时间,而智能驾驶需要帧率至少是每秒30帧,也就是每秒30次以上计算,那么内存带宽至少要能支持每秒60次读入,也就是带宽要增加3倍以上。

不仅是内存带宽,Transformer不仅对AI算力需求大,对CPU的标量算力需求也大,初代FSD仅有12个ARM Cortex-A72,这是不够的。二代FSD或者说HW4.0用了昂贵的GDDR6,带宽大幅增加,CPU核心也从12个增加到20个,勉强可以跑Transformer。不过GDDR6虽然带宽高,但速度低,用在CPU领域并不合适。

70cdce24-205f-11ee-962d-dac502259ad0.png

服务器领域内存是分开的,CPU用强调速度的DDR5,GPU用强调带宽的HBM3。但汽车领域是CPU+GPU(AI),一般厂家都选择LPDDR5(LP是低功耗的意思),照顾CPU更多,特斯拉为了强调AI算力,用了GDDR6。

初代FSD可能还上不了BEVFormer,与Mobileye的SuperVision效果相比,Mobileye的像素远高于初代FSD,有效距离更远,安全系数更高。但二代FSD就目前来看,是可以全面胜过SuperVision的,不过即使是美国市场,二代FSD估计也要等到2024年才会上市,中国市场估计要到2025年甚至2026年,届时Mobileye或许也有技术升级。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2921

    浏览量

    108128
  • 服务器
    +关注

    关注

    12

    文章

    9342

    浏览量

    86206
  • Mobileye
    +关注

    关注

    2

    文章

    130

    浏览量

    33840

原文标题:Mobileye和特斯拉差距在哪?

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Mobileye牵手Innoviz合作激光雷达用于其Mobile Drive平台

    自动驾驶和驾驶辅助技术的全球领导者Mobileye 和Innoviz今天宣布,Mobileye将在Mobileye Drive平台上使用innoviz的激光雷达。这展示了Innoviz的激光雷达在
    的头像 发表于 12-12 18:41 891次阅读

    Mobileye端到端自动驾驶解决方案的深度解析

    自动驾驶技术正处于快速发展之中,各大科技公司和汽车制造商均在争相布局,试图在这个新兴领域占据一席之地。Mobileye作为全球自动驾驶技术的领军企业之一,凭借其独特的端到端自动驾驶解决方案,展现了
    的头像 发表于 10-17 09:35 491次阅读
    <b class='flag-5'>Mobileye</b>端到端自动驾驶解决方案的深度解析

    特斯拉上海特斯拉工厂第300万辆整车正式下线

    10月11日,有消息称特斯拉上海工厂已成功下线其第300万辆整车。   在今年前三个季度,特斯拉全球交付量达到了约130万辆,其中上海超级工厂交付了67.5万辆,占据了特斯拉全球交付量的一半以上。   上海超级工厂已
    的头像 发表于 10-12 15:17 899次阅读

    采用LP875761—Q1的Mobileye EyeQ4高电源设计

    电子发烧友网站提供《采用LP875761—Q1的Mobileye EyeQ4高电源设计.pdf》资料免费下载
    发表于 09-18 10:42 0次下载
    采用LP875761—Q1的<b class='flag-5'>Mobileye</b> EyeQ4高电源设计

    Mobileye关闭激光雷达研发部门

    Mobileye Global近期宣布了一项重大战略调整,决定终止其内部对下一代调频连续波(FMCW)激光雷达的研发项目,该项目原旨在增强自动驾驶及高度自动驾驶系统的性能。随着这一决定的实施,Mobileye的激光雷达研发部门将于2024年底正式关闭,此举预计将影响约10
    的头像 发表于 09-10 15:56 420次阅读

    英特尔酝酿出售Mobileye股权以应对挑战

    面对全球科技行业的持续变革与自身业务的战略调整,英特尔公司(Intel)正考虑对其自动驾驶系统领域的核心资产——Mobileye Global进行部分股权的出售。这一举措标志着英特尔在全面审视其业务版图后,可能采取的重大财务与战略调整。
    的头像 发表于 09-06 16:31 544次阅读

    为什么OPA365和OPA2365的输出电压vs输出电流曲线会有很大的差距

    请教一下为什么OPA365和OPA2365的输出电压vs输出电流曲线会有很大的差距。、 在输出同样的电流的情况下,例如30mA,25C时,OPA365还能输出2V以上,而OPA2365只有大概
    发表于 08-12 08:20

    EyeQ6 High芯片与Chauffeur平台为2025年铺路,Mobileye进阶智能驾驶系统方案

    电子发烧友网报道(文/黄晶晶)近日,Mobileye发布2024年第二季度财报显示,Mobileye营收为4.39亿美元,同比下降3%,其中EyeQ SoC的相关营收下跌10%。调整后营业利润同比
    的头像 发表于 08-08 00:19 6392次阅读
    EyeQ6 High芯片与Chauffeur平台为2025年铺路,<b class='flag-5'>Mobileye</b>进阶智能驾驶系统方案

    极氪与Mobileye携手加速自动驾驶技术中国本地化

    近日,新能源汽车品牌极氪汽车与以色列领先的自动驾驶技术巨头Mobileye宣布了一项重要合作计划,旨在加速双方在中国市场的技术本地化进程。此次合作的核心是将Mobileye的SuperVision自动驾驶技术深度整合至极氪汽车的下一代车型中,共同推动驾驶安全与自动驾驶技术
    的头像 发表于 08-06 10:19 732次阅读

    特斯拉线圈的疑惑

    我和大家都一样,是一位电子线圈爱好者,现在我的心中医只有一个疑问,就是听别人说特斯拉震荡线圈可以做到把两节电池的输入功率提升到像空调那么大,真的可以这样吗?求解释。
    发表于 07-23 08:03

    特斯拉宣布全球将裁员10%

    特斯拉宣布全球将裁员10% 特斯拉一直在努力降低成本;马斯克15日宣布特斯拉将在全球范围内裁员10%。目前特斯拉在全球拥有超过14万名员工;裁员意味着超过1.4万名
    的头像 发表于 04-15 18:41 1414次阅读

    特斯拉Q1销量下滑,比亚迪销量持续攀升

    另一新能源龙头企业比亚迪也交出亮眼成绩单,3月份售出新能源汽车30.25万辆,较去年同期大幅增长;今年以来累积销售新能源汽车62.63万辆,增速达13.44%,持续扩大与特斯拉之间的差距
    的头像 发表于 04-03 15:57 654次阅读

    大众汽车和Mobileye加强自动驾驶合作

    美国智能驾驶芯片巨头Mobileye与大众汽车集团近日宣布,在自动驾驶领域深化合作,共同推动全新自动驾驶功能在大众旗下量产车型的应用。Mobileye依托其领先的Mobileye
    的头像 发表于 03-22 11:46 1025次阅读

    Mobileye将为大众旗下豪华品牌提供驾驶辅助软件

    英特尔旗下的自动驾驶技术领军企业Mobileye Global宣布,将携手大众汽车集团旗下的豪华品牌,包括奥迪、宾利、兰博基尼和保时捷,共同推动驾驶辅助技术的发展。Mobileye将为这些品牌提供先进的驾驶辅助软件,旨在进一步提升驾驶的安全性和便利性。
    的头像 发表于 03-22 11:07 869次阅读

    特斯拉股价跌超5% 特斯拉市值一夜蒸发3300亿

    特斯拉股价跌超5% 特斯拉市值一夜蒸发3300亿 近两日特斯拉的股价跌连续下超,目前市值特斯拉的不足6000亿美元。 周一特斯拉的股价跌逾7
    的头像 发表于 03-06 14:25 775次阅读