0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

特斯拉的自动驾驶标注员正在被DOJO超算取代

E4Life 来源:电子发烧友网 作者:周凯扬 2022-08-25 08:07 次阅读
电子发烧友网报道(文/周凯扬)这年头不少车企都开始自主研发自动驾驶系统,连带部署数据中心和超算已经不是什么新鲜事了。除了特斯拉的DOJO和GPU超算以外,小鹏也在本月宣布与阿里云合作搭建了全国最大的自动驾驶智算中心“扶摇”,算力可达600PFLOPS,看来新一轮的军备竞赛很快就会拉开帷幕。

对于自动驾驶的开发来说,模型训练至关重要,寻常的服务器CPU基本无法满足这个负载需求,所以不少车企都在借助英伟达的GPU开展训练,特斯拉也不例外。正巧今年的Hot Chips大会上安排了三场特斯拉的分享,都与特斯拉的AI与DOJO平台有关,特斯拉的几位自动驾驶与AI部门负责人也都透露了他们在软硬件上的一些进展,就当是作为下个月底特斯拉AI日的前瞻了。

DOJO超算

特斯拉的DOJO是他们自研自用的机器学习超级计算机,采用了高度可扩展而且完全分布式的系统,对神经网络训练负载进行了专门的优化,支持灵活适应新的算法和应用。根据特斯拉Autopilot硬件工程师Emil Talpes的说法,DOJO从设计之初就是为了大型系统设计的,而不是基于目前已有的商用小系统,再把规模做大。

DOJO的基础组成部分,就是它的D1裸片。D1基于台积电7nm工艺,单个裸片面积占645mm2。大家都知道苹果M1 Ultra的die size相当大,可哪怕是M1 Ultra的单个裸片大小也只有432mm2。D1采用了极度模块化的设计,每个D1上共有354个DOJO处理单元,而且以2D阵列的形式物理和逻辑排布,单个D1在2GHz下的算力可达362TFLOPS。
CleanShot 2022-08-24 at 03.30.16@2x
DOJO训练模块 / 特斯拉

由5x5排布的25个合格D1芯片(KGD)组成了一个DOJO训练模块,整个模块从电、热、机械结构上都是完全集成在一起的,模块水平层面负责不同模块之间的通信,而垂直层面则解决15kW的供电和散热问题。

整个DOJO系统就是由DOJO训练模块按2D网格结构排列而成,网格边缘配置了DOJO接口处理器(DIP)来提供共享内存支持。而本届Hot Chips上,特斯拉终于放出了这一处理器的详细情报。
CleanShot 2022-08-24 at 03.28.07@2x
DOJO接口处理器 / 特斯拉

表面看上去,DIP像是一张PCIe卡,而它实际上使用的也确实是32GB/s的PCIe 4.0接口,配有32GB的HBM内核,提供800GB/s的总内存带宽。但这PCIe 4.0的接口只是用于连接主机,真正发挥其性能的是特斯拉自研的TTP协议接口,提供900GB/s的超大带宽给训练模块。

训练模块的边缘配置了5个DIP卡,如此一来每边都提供了160GB的共享DRAM,并通过这5张卡实现4.5TB/s的最大带宽。要想扩展网络通信的话,比如SmartNIC交换机,DIP也原生硬件支持标准以太网上的TTP通信,当然了选择这种通信方式的话带宽也会降低至50GB/s,延迟也会增加。

整个系统即一个ExaPOD,由10个机柜,超过100万片D1 CPU组成,算力可达1.1EFLOPS。而这样的算力为特斯拉带来了前所未有的训练性能,尤其是在自动标注上。

被机器取代的人工标注员

虽然是特斯拉本身的商用车走的纯视觉方案,但特斯拉路测车队并不局限于提供视频片段,毕竟去年就有人发现特斯拉的路测车辆顶着激光雷达在收集数据。在特斯拉路测车队提交的片段中,除了视频数据以外,还有IMU、GPS和测距仪等传感器给出的数据。

这些数据经过离线神经网络后,根据汽车行驶轨迹进行静态世界重构,同时根据移动物体和动力学对物体进行自动标注。特斯拉可以自行选择需要进行标注的片段,比如查询可视条件不佳下的最近车辆,系统会自动返回这些片段然后进行自动标注。再加上特斯拉的4D标注,也就是在标注一次后,同时标注所有相机中的多帧画面,极大地加快了标注速度。根据特斯拉的说法,他们可以在一周之内收集并自动标注1万个片段。
CleanShot 2022-08-24 at 03.31.48@2x
人工标注与自动标注的占比变化 / 特斯拉
这也就是特斯拉引入DOJO超算的原因,虽然标注的工作量在不断提升,但随着机器学习硬件资源的增多,手动标注的占比越来越低,而自动标注开始占据主导,这或许才是为何特斯拉标注团队开始裁员的真相。

仍在继续扩大规模的GPU超算

DOJO作为一个纯CPU的超算系统,能做到以上已经相当厉害了,然而我们也不能忘记了特斯拉的另外两台GPU超算。早在2021年,特斯拉最新的一台GPU超算规模就已经达到了720个节点,每个节点包含8块英伟达A100 80GB GPU,整个系统的总GPU数达到了惊人的5760块。

根据英伟达给出的数据,每个A100的算力有312TFLOPS,这也就意味着这台最新GPU超算的算力已经超越了E级,达到了可怕的1.8EFLOPS。不过这里的E级和我们平常说的E级超算还是有区别的,TOP500的那些超算跑分用的是LINPACK HPL,用到的是64位双精度的格式,得出的实际应用性能。而英伟达的A100的312TFLOPS是基于16位半精度来算的,而且是峰值性能。
IMG_256
特斯拉GPU超算 / 特斯拉

可即便如此,这台超算的实力也能在TOP500上名列前茅,根据特斯拉前AI主管Andrej Karpathy的说法,单论算力(峰值)的话,特斯拉这台GPU超算确实能在去年六月的超算榜上名列第五。

而近期,特斯拉负责AI基础设施和AI平台团队的工程经理Tim Zaman宣布,特斯拉已经将这台超算的规模再度升级,A100 80GB GPU的数量再度提升28%,达到了可怕的7360个。这价格十万左右的GPU一下就添置近2000个,不得不承认特斯拉确实愿意下血本。Tim Zaman表示哪怕单论GPU数量,这台超算也能排名世界第七了。

至于峰值算力,这台超算目前大概还是在第五的位置,这是因为今年的前五席多出了两位新晋选手,第一名的Frontier和第三名的LUMI都比这台超算要强。而且特斯拉也并没有提交LINPACK HPL的跑分结果,毕竟这套系统已经投入使用,特斯拉作为商业公司,也没必要去停止手头的训练负载而追求跑分。DOJO的话,特斯拉并没有公开升级其规模,上文中的1.1EFLOPS的峰值算力也是基于BF16的,所以也不适合拿来直接对比。

写在最后

电动车时代的来临给不少造车新势力降低了门槛,然而自动驾驶技术的存在又将整个门槛拉高了一大截。从目前头部企业的动向来看,搭建智算中心,拿高密度的计算资源去跑训练或许是唯一的自研路线,这样法规完善后,才能让自动驾驶汽车在全国范围内铺开,自动驾驶也不会局限于试点技术。

但是否摸清楚了技术路线,是否愿意砸这个钱,以及回报率高低才是他们迈出这一步关键,毕竟要让一个车企去组建团队搞芯片设计,这个要求还是有些过分了,但仅仅是与云服务厂商合作打造这样一个智算中心,同样也得付出不小的成本。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 特斯拉
    +关注

    关注

    66

    文章

    6289

    浏览量

    126433
  • 自动驾驶
    +关注

    关注

    782

    文章

    13643

    浏览量

    166043
收藏 人收藏

    评论

    相关推荐

    特斯拉2025年末批量装备Dojo 2 AI训练芯片

    在近期举行的All-In Summit 2024活动上,特斯拉CEO埃隆·马斯克透露了公司AI技术发展的最新蓝图。他宣布,特斯拉下一代AI训练芯片——Dojo 2,预计将于2025年末实现批量装备。这一消息彰显了
    的头像 发表于 09-12 17:39 545次阅读

    FPGA在自动驾驶领域有哪些优势?

    FPGA(Field-Programmable Gate Array,现场可编程门阵列)在自动驾驶领域具有显著的优势,这些优势使得FPGA成为自动驾驶技术中不可或缺的一部分。以下是FPGA在自动驾驶
    发表于 07-29 17:11

    FPGA在自动驾驶领域有哪些应用?

    FPGA(Field-Programmable Gate Array,现场可编程门阵列)在自动驾驶领域具有广泛的应用,其高性能、可配置性、低功耗和低延迟等特点为自动驾驶的实现提供了强有力的支持。以下
    发表于 07-29 17:09

    特斯拉自动驾驶风波再起:加州监管机构指控引关注

    特斯拉自动驾驶虚假营销风波再起:加州监管机构指控引关注   近日,特斯拉再次成为公众关注的焦点,不过这次并非因为其在电动汽车技术上的创新突破,而是因为一场涉及自动驾驶虚假营销的争
    的头像 发表于 06-11 16:53 767次阅读

    标贝数据采集标注自动驾驶场景中落地应用实例

    高质量AI数据做支撑。标贝科技深耕AI数据服务领域多年,在自动驾驶数据采集标注领域中有着多个成功案例,在自动驾驶场景中,数据采集和标注分别有着以下落地应用
    的头像 发表于 05-28 14:22 455次阅读
    标贝数据采集<b class='flag-5'>标注</b>在<b class='flag-5'>自动驾驶</b>场景中落地应用实例

    特斯拉在华推进全自动驾驶

    特斯拉自动驾驶技术入华成为市场焦点。马斯克提出的“无人驾驶出租车”概念正引领特斯拉在中国市场加速推进自动驾驶技术的创新。
    的头像 发表于 05-11 09:39 402次阅读

    特斯拉与百度合作扫清自动驾驶关键障碍

    知情者透露,特斯拉有望在此基础上推进自动驾驶服务。特斯拉于2020年起在华转向使用百度地图及导航服务,新的合作旨在解决更先进的自动驾驶地图需求。
    的头像 发表于 04-29 14:40 513次阅读

    马斯克称特斯拉自动驾驶累计投入将百亿美元

    特斯拉的首席执行官埃隆·马斯克近日在社交媒体平台X上表示,特斯拉今年在自动驾驶领域的累计投入将超过100亿美元。
    的头像 发表于 04-12 10:52 791次阅读

    未来已来,多传感器融合感知是自动驾驶破局的关键

    方面表示,这是L4级自动驾驶公司和车企为了打造Robotaxi量产车,在国内成立的首个合资公司。首款车型已完成产品定义,正在进行设计造型的联合评审,计划明年实现量产。未来已来,2024年是全球L3
    发表于 04-11 10:26

    特斯拉将投100亿美元于今年自动驾驶领域

    此外,这则消息源自于一名电动汽车忠实粉丝对特斯拉FSD训练过程的推测。此前,特斯拉自动驾驶技术广受瞩目,特别是在其发布FSD车队累积驾驶里程超过10亿英里后。
    的头像 发表于 04-08 15:45 416次阅读

    全球大厂自研芯片进度分析

    特斯拉自动驾驶需求为主,至今推出两种AI芯片,分别是全自动驾驶的FSD芯片和Dojo D1芯片。FSD 芯片用于特斯拉
    发表于 02-20 09:41 280次阅读

    特斯拉将斥资5亿美元建造Dojo超级计算机

    据外媒报道,特斯拉将在其位于纽约布法罗的超级工厂投资超过5亿美元,建造一台名为Dojo的超级计算机。这一举措旨在推进特斯拉自动驾驶汽车计划。
    的头像 发表于 01-29 11:26 653次阅读

    负责人离职,特斯拉下一代自动驾驶何去何从?

    Peter Bannon 领导。特斯拉Dojo 项目不仅在为其自动驾驶技术提供大量的力,也在特斯拉人形机器人 Optimus 项目开发
    的头像 发表于 01-02 09:19 1453次阅读

    LabVIEW开发自动驾驶的双目测距系统

    LabVIEW开发自动驾驶的双目测距系统 随着车辆驾驶技术的不断发展,自动驾驶技术正日益成为现实。从L2级别的辅助驾驶技术到L3级别的受条件约束的
    发表于 12-19 18:02

    特斯拉超级计算机Dojo项目负责人离职,对自动驾驶技术影响显著

    该超级计算平台 Dojo 专为人工智能机器学习研发,旨在提升特斯拉自动驾驶的视觉技术。值得注意的是,Dojo 使用了由 Ganesh、Peter 及其他行业精英设计的定制 D1 芯片。
    的头像 发表于 12-11 16:04 454次阅读