电子发烧友网报道(文/周凯扬)这年头不少车企都开始自主研发自动驾驶系统,连带部署数据中心和超算已经不是什么新鲜事了。除了特斯拉的DOJO和GPU超算以外,小鹏也在本月宣布与阿里云合作搭建了全国最大的自动驾驶智算中心“扶摇”,算力可达600PFLOPS,看来新一轮的军备竞赛很快就会拉开帷幕。
对于自动驾驶的开发来说,模型训练至关重要,寻常的服务器CPU基本无法满足这个负载需求,所以不少车企都在借助英伟达的GPU开展训练,特斯拉也不例外。正巧今年的Hot Chips大会上安排了三场特斯拉的分享,都与特斯拉的AI与DOJO平台有关,特斯拉的几位自动驾驶与AI部门负责人也都透露了他们在软硬件上的一些进展,就当是作为下个月底特斯拉AI日的前瞻了。
DOJO超算
特斯拉的DOJO是他们自研自用的机器学习超级计算机,采用了高度可扩展而且完全分布式的系统,对神经网络训练负载进行了专门的优化,支持灵活适应新的算法和应用。根据特斯拉Autopilot硬件工程师Emil Talpes的说法,DOJO从设计之初就是为了大型系统设计的,而不是基于目前已有的商用小系统,再把规模做大。
DOJO的基础组成部分,就是它的D1裸片。D1基于台积电7nm工艺,单个裸片面积占645mm2。大家都知道苹果M1 Ultra的die size相当大,可哪怕是M1 Ultra的单个裸片大小也只有432mm2。D1采用了极度模块化的设计,每个D1上共有354个DOJO处理单元,而且以2D阵列的形式物理和逻辑排布,单个D1在2GHz下的算力可达362TFLOPS。
DOJO训练模块 / 特斯拉
由5x5排布的25个合格D1芯片(KGD)组成了一个DOJO训练模块,整个模块从电、热、机械结构上都是完全集成在一起的,模块水平层面负责不同模块之间的通信,而垂直层面则解决15kW的供电和散热问题。
整个DOJO系统就是由DOJO训练模块按2D网格结构排列而成,网格边缘配置了DOJO接口处理器(DIP)来提供共享内存支持。而本届Hot Chips上,特斯拉终于放出了这一处理器的详细情报。
DOJO接口处理器 / 特斯拉
表面看上去,DIP像是一张PCIe卡,而它实际上使用的也确实是32GB/s的PCIe 4.0接口,配有32GB的HBM内核,提供800GB/s的总内存带宽。但这PCIe 4.0的接口只是用于连接主机,真正发挥其性能的是特斯拉自研的TTP协议接口,提供900GB/s的超大带宽给训练模块。
训练模块的边缘配置了5个DIP卡,如此一来每边都提供了160GB的共享DRAM,并通过这5张卡实现4.5TB/s的最大带宽。要想扩展网络通信的话,比如SmartNIC或交换机,DIP也原生硬件支持标准以太网上的TTP通信,当然了选择这种通信方式的话带宽也会降低至50GB/s,延迟也会增加。
整个系统即一个ExaPOD,由10个机柜,超过100万片D1 CPU组成,算力可达1.1EFLOPS。而这样的算力为特斯拉带来了前所未有的训练性能,尤其是在自动标注上。
被机器取代的人工标注员
虽然是特斯拉本身的商用车走的纯视觉方案,但特斯拉路测车队并不局限于提供视频片段,毕竟去年就有人发现特斯拉的路测车辆顶着激光雷达在收集数据。在特斯拉路测车队提交的片段中,除了视频数据以外,还有IMU、GPS和测距仪等传感器给出的数据。
这些数据经过离线神经网络后,根据汽车行驶轨迹进行静态世界重构,同时根据移动物体和动力学对物体进行自动标注。特斯拉可以自行选择需要进行标注的片段,比如查询可视条件不佳下的最近车辆,系统会自动返回这些片段然后进行自动标注。再加上特斯拉的4D标注,也就是在标注一次后,同时标注所有相机中的多帧画面,极大地加快了标注速度。根据特斯拉的说法,他们可以在一周之内收集并自动标注1万个片段。
人工标注与自动标注的占比变化 / 特斯拉
这也就是特斯拉引入DOJO超算的原因,虽然标注的工作量在不断提升,但随着机器学习硬件资源的增多,手动标注的占比越来越低,而自动标注开始占据主导,这或许才是为何特斯拉标注团队开始裁员的真相。
仍在继续扩大规模的GPU超算
DOJO作为一个纯CPU的超算系统,能做到以上已经相当厉害了,然而我们也不能忘记了特斯拉的另外两台GPU超算。早在2021年,特斯拉最新的一台GPU超算规模就已经达到了720个节点,每个节点包含8块英伟达A100 80GB GPU,整个系统的总GPU数达到了惊人的5760块。
根据英伟达给出的数据,每个A100的算力有312TFLOPS,这也就意味着这台最新GPU超算的算力已经超越了E级,达到了可怕的1.8EFLOPS。不过这里的E级和我们平常说的E级超算还是有区别的,TOP500的那些超算跑分用的是LINPACK HPL,用到的是64位双精度的格式,得出的实际应用性能。而英伟达的A100的312TFLOPS是基于16位半精度来算的,而且是峰值性能。
特斯拉GPU超算 / 特斯拉
可即便如此,这台超算的实力也能在TOP500上名列前茅,根据特斯拉前AI主管Andrej Karpathy的说法,单论算力(峰值)的话,特斯拉这台GPU超算确实能在去年六月的超算榜上名列第五。
而近期,特斯拉负责AI基础设施和AI平台团队的工程经理Tim Zaman宣布,特斯拉已经将这台超算的规模再度升级,A100 80GB GPU的数量再度提升28%,达到了可怕的7360个。这价格十万左右的GPU一下就添置近2000个,不得不承认特斯拉确实愿意下血本。Tim Zaman表示哪怕单论GPU数量,这台超算也能排名世界第七了。
至于峰值算力,这台超算目前大概还是在第五的位置,这是因为今年的前五席多出了两位新晋选手,第一名的Frontier和第三名的LUMI都比这台超算要强。而且特斯拉也并没有提交LINPACK HPL的跑分结果,毕竟这套系统已经投入使用,特斯拉作为商业公司,也没必要去停止手头的训练负载而追求跑分。DOJO的话,特斯拉并没有公开升级其规模,上文中的1.1EFLOPS的峰值算力也是基于BF16的,所以也不适合拿来直接对比。
写在最后
电动车时代的来临给不少造车新势力降低了门槛,然而自动驾驶技术的存在又将整个门槛拉高了一大截。从目前头部企业的动向来看,搭建智算中心,拿高密度的计算资源去跑训练或许是唯一的自研路线,这样法规完善后,才能让自动驾驶汽车在全国范围内铺开,自动驾驶也不会局限于试点技术。
但是否摸清楚了技术路线,是否愿意砸这个钱,以及回报率高低才是他们迈出这一步关键,毕竟要让一个车企去组建团队搞芯片设计,这个要求还是有些过分了,但仅仅是与云服务厂商合作打造这样一个智算中心,同样也得付出不小的成本。
对于自动驾驶的开发来说,模型训练至关重要,寻常的服务器CPU基本无法满足这个负载需求,所以不少车企都在借助英伟达的GPU开展训练,特斯拉也不例外。正巧今年的Hot Chips大会上安排了三场特斯拉的分享,都与特斯拉的AI与DOJO平台有关,特斯拉的几位自动驾驶与AI部门负责人也都透露了他们在软硬件上的一些进展,就当是作为下个月底特斯拉AI日的前瞻了。
DOJO超算
特斯拉的DOJO是他们自研自用的机器学习超级计算机,采用了高度可扩展而且完全分布式的系统,对神经网络训练负载进行了专门的优化,支持灵活适应新的算法和应用。根据特斯拉Autopilot硬件工程师Emil Talpes的说法,DOJO从设计之初就是为了大型系统设计的,而不是基于目前已有的商用小系统,再把规模做大。
DOJO的基础组成部分,就是它的D1裸片。D1基于台积电7nm工艺,单个裸片面积占645mm2。大家都知道苹果M1 Ultra的die size相当大,可哪怕是M1 Ultra的单个裸片大小也只有432mm2。D1采用了极度模块化的设计,每个D1上共有354个DOJO处理单元,而且以2D阵列的形式物理和逻辑排布,单个D1在2GHz下的算力可达362TFLOPS。
DOJO训练模块 / 特斯拉
由5x5排布的25个合格D1芯片(KGD)组成了一个DOJO训练模块,整个模块从电、热、机械结构上都是完全集成在一起的,模块水平层面负责不同模块之间的通信,而垂直层面则解决15kW的供电和散热问题。
整个DOJO系统就是由DOJO训练模块按2D网格结构排列而成,网格边缘配置了DOJO接口处理器(DIP)来提供共享内存支持。而本届Hot Chips上,特斯拉终于放出了这一处理器的详细情报。
DOJO接口处理器 / 特斯拉
表面看上去,DIP像是一张PCIe卡,而它实际上使用的也确实是32GB/s的PCIe 4.0接口,配有32GB的HBM内核,提供800GB/s的总内存带宽。但这PCIe 4.0的接口只是用于连接主机,真正发挥其性能的是特斯拉自研的TTP协议接口,提供900GB/s的超大带宽给训练模块。
训练模块的边缘配置了5个DIP卡,如此一来每边都提供了160GB的共享DRAM,并通过这5张卡实现4.5TB/s的最大带宽。要想扩展网络通信的话,比如SmartNIC或交换机,DIP也原生硬件支持标准以太网上的TTP通信,当然了选择这种通信方式的话带宽也会降低至50GB/s,延迟也会增加。
整个系统即一个ExaPOD,由10个机柜,超过100万片D1 CPU组成,算力可达1.1EFLOPS。而这样的算力为特斯拉带来了前所未有的训练性能,尤其是在自动标注上。
被机器取代的人工标注员
虽然是特斯拉本身的商用车走的纯视觉方案,但特斯拉路测车队并不局限于提供视频片段,毕竟去年就有人发现特斯拉的路测车辆顶着激光雷达在收集数据。在特斯拉路测车队提交的片段中,除了视频数据以外,还有IMU、GPS和测距仪等传感器给出的数据。
这些数据经过离线神经网络后,根据汽车行驶轨迹进行静态世界重构,同时根据移动物体和动力学对物体进行自动标注。特斯拉可以自行选择需要进行标注的片段,比如查询可视条件不佳下的最近车辆,系统会自动返回这些片段然后进行自动标注。再加上特斯拉的4D标注,也就是在标注一次后,同时标注所有相机中的多帧画面,极大地加快了标注速度。根据特斯拉的说法,他们可以在一周之内收集并自动标注1万个片段。
人工标注与自动标注的占比变化 / 特斯拉
仍在继续扩大规模的GPU超算
DOJO作为一个纯CPU的超算系统,能做到以上已经相当厉害了,然而我们也不能忘记了特斯拉的另外两台GPU超算。早在2021年,特斯拉最新的一台GPU超算规模就已经达到了720个节点,每个节点包含8块英伟达A100 80GB GPU,整个系统的总GPU数达到了惊人的5760块。
根据英伟达给出的数据,每个A100的算力有312TFLOPS,这也就意味着这台最新GPU超算的算力已经超越了E级,达到了可怕的1.8EFLOPS。不过这里的E级和我们平常说的E级超算还是有区别的,TOP500的那些超算跑分用的是LINPACK HPL,用到的是64位双精度的格式,得出的实际应用性能。而英伟达的A100的312TFLOPS是基于16位半精度来算的,而且是峰值性能。
特斯拉GPU超算 / 特斯拉
可即便如此,这台超算的实力也能在TOP500上名列前茅,根据特斯拉前AI主管Andrej Karpathy的说法,单论算力(峰值)的话,特斯拉这台GPU超算确实能在去年六月的超算榜上名列第五。
而近期,特斯拉负责AI基础设施和AI平台团队的工程经理Tim Zaman宣布,特斯拉已经将这台超算的规模再度升级,A100 80GB GPU的数量再度提升28%,达到了可怕的7360个。这价格十万左右的GPU一下就添置近2000个,不得不承认特斯拉确实愿意下血本。Tim Zaman表示哪怕单论GPU数量,这台超算也能排名世界第七了。
至于峰值算力,这台超算目前大概还是在第五的位置,这是因为今年的前五席多出了两位新晋选手,第一名的Frontier和第三名的LUMI都比这台超算要强。而且特斯拉也并没有提交LINPACK HPL的跑分结果,毕竟这套系统已经投入使用,特斯拉作为商业公司,也没必要去停止手头的训练负载而追求跑分。DOJO的话,特斯拉并没有公开升级其规模,上文中的1.1EFLOPS的峰值算力也是基于BF16的,所以也不适合拿来直接对比。
写在最后
电动车时代的来临给不少造车新势力降低了门槛,然而自动驾驶技术的存在又将整个门槛拉高了一大截。从目前头部企业的动向来看,搭建智算中心,拿高密度的计算资源去跑训练或许是唯一的自研路线,这样法规完善后,才能让自动驾驶汽车在全国范围内铺开,自动驾驶也不会局限于试点技术。
但是否摸清楚了技术路线,是否愿意砸这个钱,以及回报率高低才是他们迈出这一步关键,毕竟要让一个车企去组建团队搞芯片设计,这个要求还是有些过分了,但仅仅是与云服务厂商合作打造这样一个智算中心,同样也得付出不小的成本。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
特斯拉
+关注
关注
66文章
6311浏览量
126545 -
自动驾驶
+关注
关注
784文章
13784浏览量
166392
发布评论请先 登录
相关推荐
浅析基于自动驾驶的4D-bev标注技术
4D-bev标注技术是指在3D空间中以时间作为第四个维度进行标注的过程。4D-bev通常在地场景较为复杂的自动驾驶场景中使用,其可以通过精准地跟踪和记录动态对象的运动轨迹、姿势变化以及速度等信息,全面理解和分析动态对象在连续的时
特斯拉2025年末批量装备Dojo 2 AI训练芯片
在近期举行的All-In Summit 2024活动上,特斯拉CEO埃隆·马斯克透露了公司AI技术发展的最新蓝图。他宣布,特斯拉下一代AI训练芯片——Dojo 2,预计将于2025年末实现批量装备。这一消息彰显了
FPGA在自动驾驶领域有哪些优势?
FPGA(Field-Programmable Gate Array,现场可编程门阵列)在自动驾驶领域具有显著的优势,这些优势使得FPGA成为自动驾驶技术中不可或缺的一部分。以下是FPGA在自动驾驶
发表于 07-29 17:11
FPGA在自动驾驶领域有哪些应用?
FPGA(Field-Programmable Gate Array,现场可编程门阵列)在自动驾驶领域具有广泛的应用,其高性能、可配置性、低功耗和低延迟等特点为自动驾驶的实现提供了强有力的支持。以下
发表于 07-29 17:09
特斯拉自动驾驶风波再起:加州监管机构指控引关注
特斯拉自动驾驶虚假营销风波再起:加州监管机构指控引关注
近日,特斯拉再次成为公众关注的焦点,不过这次并非因为其在电动汽车技术上的创新突破,而是因为一场涉及自动驾驶虚假营销的争
标贝数据采集标注在自动驾驶场景中落地应用实例
高质量AI数据做支撑。标贝科技深耕AI数据服务领域多年,在自动驾驶数据采集标注领域中有着多个成功案例,在自动驾驶场景中,数据采集和标注分别有着以下落地应用
特斯拉与百度合作扫清自动驾驶关键障碍
知情者透露,特斯拉有望在此基础上推进自动驾驶服务。特斯拉于2020年起在华转向使用百度地图及导航服务,新的合作旨在解决更先进的自动驾驶地图需求。
马斯克称特斯拉自动驾驶累计投入将超百亿美元
特斯拉的首席执行官埃隆·马斯克近日在社交媒体平台X上表示,特斯拉今年在自动驾驶领域的累计投入将超过100亿美元。
未来已来,多传感器融合感知是自动驾驶破局的关键
方面表示,这是L4级自动驾驶公司和车企为了打造Robotaxi量产车,在国内成立的首个合资公司。首款车型已完成产品定义,正在进行设计造型的联合评审,计划明年实现量产。未来已来,2024年是全球L3
发表于 04-11 10:26
特斯拉将斥资5亿美元建造Dojo超级计算机
据外媒报道,特斯拉将在其位于纽约布法罗的超级工厂投资超过5亿美元,建造一台名为Dojo的超级计算机。这一举措旨在推进特斯拉的自动驾驶汽车计划。
超算负责人离职,特斯拉下一代自动驾驶何去何从?
Peter Bannon 领导。特斯拉的 Dojo 项目不仅在为其自动驾驶技术提供大量的算力,也在特斯拉人形机器人 Optimus 项目开发
评论