0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

​特斯拉机器学习超级计算机DOJO支持灵活适应新的算法和应用

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-08-25 15:21 次阅读

电子发烧友网报道(文/周凯扬)这年头不少车企都开始自主研发自动驾驶系统,连带部署数据中心和超算已经不是什么新鲜事了。除了特斯拉的DOJO和GPU超算以外,小鹏也在本月宣布与阿里云合作搭建了全国最大的自动驾驶智算中心“扶摇”,算力可达600PFLOPS,看来新一轮的军备竞赛很快就会拉开帷幕。

对于自动驾驶的开发来说,模型训练至关重要,寻常的服务器CPU基本无法满足这个负载需求,所以不少车企都在借助英伟达的GPU开展训练,特斯拉也不例外。正巧今年的Hot Chips大会上安排了三场特斯拉的分享,都与特斯拉的AI与DOJO平台有关,特斯拉的几位自动驾驶与AI部门负责人也都透露了他们在软硬件上的一些进展,就当是作为下个月底特斯拉AI日的前瞻了。

DOJO超算

特斯拉的DOJO是他们自研自用的机器学习超级计算机,采用了高度可扩展而且完全分布式的系统,对神经网络训练负载进行了专门的优化,支持灵活适应新的算法和应用。根据特斯拉Autopilot硬件工程师Emil Talpes的说法,DOJO从设计之初就是为了大型系统设计的,而不是基于目前已有的商用小系统,再把规模做大。

DOJO的基础组成部分,就是它的D1裸片。D1基于台积电7nm工艺,单个裸片面积占645mm2。大家都知道苹果M1 Ultra的die size相当大,可哪怕是M1 Ultra的单个裸片大小也只有432mm2。D1采用了极度模块化的设计,每个D1上共有354个DOJO处理单元,而且以2D阵列的形式物理和逻辑排布,单个D1在2GHz下的算力可达362TFLOPS。

由5x5排布的25个合格D1芯片(KGD)组成了一个DOJO训练模块,整个模块从电、热、机械结构上都是完全集成在一起的,模块水平层面负责不同模块之间的通信,而垂直层面则解决15kW的供电和散热问题。

整个DOJO系统就是由DOJO训练模块按2D网格结构排列而成,网格边缘配置了DOJO接口处理器(DIP)来提供共享内存支持。而本届Hot Chips上,特斯拉终于放出了这一处理器的详细情报。

表面看上去,DIP像是一张PCIe卡,而它实际上使用的也确实是32GB/s的PCIe 4.0接口,配有32GB的HBM内核,提供800GB/s的总内存带宽。但这PCIe 4.0的接口只是用于连接主机,真正发挥其性能的是特斯拉自研的TTP协议接口,提供900GB/s的超大带宽给训练模块。

训练模块的边缘配置了5个DIP卡,如此一来每边都提供了160GB的共享DRAM,并通过这5张卡实现4.5TB/s的最大带宽。要想扩展网络通信的话,比如SmartNIC交换机,DIP也原生硬件支持标准以太网上的TTP通信,当然了选择这种通信方式的话带宽也会降低至50GB/s,延迟也会增加。

整个系统即一个ExaPOD,由10个机柜,超过100万片D1 CPU组成,算力可达1.1EFLOPS。而这样的算力为特斯拉带来了前所未有的训练性能,尤其是在自动标注上。

被机器取代的人工标注员

虽然是特斯拉本身的商用车走的纯视觉方案,但特斯拉路测车队并不局限于提供视频片段,毕竟去年就有人发现特斯拉的路测车辆顶着激光雷达在收集数据。在特斯拉路测车队提交的片段中,除了视频数据以外,还有IMU、GPS和测距仪等传感器给出的数据。

这些数据经过离线神经网络后,根据汽车行驶轨迹进行静态世界重构,同时根据移动物体和动力学对物体进行自动标注。特斯拉可以自行选择需要进行标注的片段,比如查询可视条件不佳下的最近车辆,系统会自动返回这些片段然后进行自动标注。再加上特斯拉的4D标注,也就是在标注一次后,同时标注所有相机中的多帧画面,极大地加快了标注速度。根据特斯拉的说法,他们可以在一周之内收集并自动标注1万个片段。

这也就是特斯拉引入DOJO超算的原因,虽然标注的工作量在不断提升,但随着机器学习硬件资源的增多,手动标注的占比越来越低,而自动标注开始占据主导,这或许才是为何特斯拉标注团队开始裁员的真相。

仍在继续扩大规模的GPU超算

DOJO作为一个纯CPU的超算系统,能做到以上已经相当厉害了,然而我们也不能忘记了特斯拉的另外两台GPU超算。早在2021年,特斯拉最新的一台GPU超算规模就已经达到了720个节点,每个节点包含8块英伟达A100 80GB GPU,整个系统的总GPU数达到了惊人的5760块。

根据英伟达给出的数据,每个A100的算力有312TFLOPS,这也就意味着这台最新GPU超算的算力已经超越了E级,达到了可怕的1.8EFLOPS。不过这里的E级和我们平常说的E级超算还是有区别的,TOP500的那些超算跑分用的是LINPACK HPL,用到的是64位双精度的格式,得出的实际应用性能。而英伟达的A100的312TFLOPS是基于16位半精度来算的,而且是峰值性能。

可即便如此,这台超算的实力也能在TOP500上名列前茅,根据特斯拉前AI主管Andrej Karpathy的说法,单论算力(峰值)的话,特斯拉这台GPU超算确实能在去年六月的超算榜上名列第五。

而近期,特斯拉负责AI基础设施和AI平台团队的工程经理Tim Zaman宣布,特斯拉已经将这台超算的规模再度升级,A100 80GB GPU的数量再度提升28%,达到了可怕的7360个。这价格十万左右的GPU一下就添置近2000个,不得不承认特斯拉确实愿意下血本。Tim Zaman表示哪怕单论GPU数量,这台超算也能排名世界第七了。

至于峰值算力,这台超算目前大概还是在第五的位置,这是因为今年的前五席多出了两位新晋选手,第一名的Frontier和第三名的LUMI都比这台超算要强。而且特斯拉也并没有提交LINPACK HPL的跑分结果,毕竟这套系统已经投入使用,特斯拉作为商业公司,也没必要去停止手头的训练负载而追求跑分。DOJO的话,特斯拉并没有公开升级其规模,上文中的1.1EFLOPS的峰值算力也是基于BF16的,所以也不适合拿来直接对比。

写在最后

电动车时代的来临给不少造车新势力降低了门槛,然而自动驾驶技术的存在又将整个门槛拉高了一大截。从目前头部企业的动向来看,搭建智算中心,拿高密度的计算资源去跑训练或许是唯一的自研路线,这样法规完善后,才能让自动驾驶汽车在全国范围内铺开,自动驾驶也不会局限于试点技术。

但是否摸清楚了技术路线,是否愿意砸这个钱,以及回报率高低才是他们迈出这一步关键,毕竟要让一个车企去组建团队搞芯片设计,这个要求还是有些过分了,但仅仅是与云服务厂商合作打造这样一个智算中心,同样也得付出不小的成本。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超级计算机
    +关注

    关注

    2

    文章

    460

    浏览量

    41923
  • 特斯拉
    +关注

    关注

    66

    文章

    6292

    浏览量

    126461
  • 机器学习
    +关注

    关注

    66

    文章

    8377

    浏览量

    132407

原文标题:​特斯拉的自动驾驶标注员正在被DOJO超算取代

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA助力丹麦发布首台AI超级计算机

    这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设,是一台 NVIDIA DGX SuperPOD 超级计算机
    的头像 发表于 10-27 09:42 387次阅读

    云端超级计算机怎么用

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 10-18 10:14 109次阅读

    借助NVIDIA超级计算机加速量子计算发展

    科学期刊《自然》(Nature)本月早些时候发表了一项研究,通过使用 NVIDIA 驱动的超级计算机,验证了量子计算的商业化途径。
    的头像 发表于 07-25 09:55 487次阅读

    计算机视觉技术的AI算法模型

    计算机视觉技术作为人工智能领域的一个重要分支,旨在使计算机能够像人类一样理解和解释图像及视频中的信息。为了实现这一目标,计算机视觉技术依赖于多种先进的AI算法模型。以下将详细介绍几种常
    的头像 发表于 07-24 12:46 619次阅读

    计算机视觉和机器视觉区别在哪

    计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。 一、定义 计算机视觉 计算机视觉是一门研究如何使计算机能够像人类一样理解和解释视觉
    的头像 发表于 07-09 09:22 405次阅读

    机器学习算法原理详解

    机器学习作为人工智能的一个重要分支,其目标是通过让计算机自动从数据中学习并改进其性能,而无需进行明确的编程。本文将深入解读几种常见的机器
    的头像 发表于 07-02 11:25 762次阅读

    马斯克计划打造超级计算机推动AI发展

    科技巨头埃隆·马斯克近日在投资者会议上透露,其人工智能初创公司xAI正全力筹备打造一台超级计算机。这台计算机将作为下一版人工智能聊天机器人Grok的强大后盾,为其提供强大的算力
    的头像 发表于 05-28 09:18 509次阅读

    富士通使用富岳超级计算机训练LLM

    尽管富士通的富岳超级计算机不再是超级计算机500强名单中最快的机器,但它仍然是一个非常强大的系统,A64FX处理器的多功能性允许将其用于各种
    的头像 发表于 05-13 14:18 516次阅读

    计算机视觉的十大算法

    随着科技的不断发展,计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法,包括它们的基本原理、应用场景和优缺点。这些算法在图像处理、目标检测、人脸识别等领域有着广泛的应
    的头像 发表于 02-19 13:26 1201次阅读
    <b class='flag-5'>计算机</b>视觉的十大<b class='flag-5'>算法</b>

    Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 AI GPU 提供支持Dojo 超级计算机

    ABSTRACT摘要Tesla计划斥资5亿美元建造一台由NVIDIA的AIGPU提供支持Dojo超级计算机,因此该公司正在加大基于AI的开发力度。JAEALOT2024年1月27日T
    的头像 发表于 02-19 12:45 543次阅读
    Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 AI GPU 提供<b class='flag-5'>支持</b>的 <b class='flag-5'>Dojo</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    特斯拉将在纽约州打造Dojo超级计算机

    特斯拉近日宣布,将在美国纽约州布法罗市投资5亿美元,建造一台名为“Dojo”的超级计算机。这一决策源于纽约州稳定的电力供应、杰出的人才储备以及满足项目需求的充足空间。
    的头像 发表于 02-01 10:32 628次阅读

    特斯拉将斥资5亿美元建造Dojo超级计算机

    据外媒报道,特斯拉将在其位于纽约布法罗的超级工厂投资超过5亿美元,建造一台名为Dojo超级计算机。这一举措旨在推进
    的头像 发表于 01-29 11:26 665次阅读

    特斯拉在布法罗超级工厂投资5亿美元建造Dojo超级计算机

    霍楚尔表示,此次项目投资为5亿美元,并将同时在纽约州立大学建设另一台独立的AI超级计算机。“我很荣幸地告诉大家,特斯拉将在布法罗投资5亿美元,用于其新一代超级
    的头像 发表于 01-29 10:58 388次阅读

    特斯拉超级计算机Dojo项目负责人离职,对自动驾驶技术影响显著

    超级计算平台 Dojo 专为人工智能机器学习研发,旨在提升特斯拉自动驾驶的视觉技术。值得注意的
    的头像 发表于 12-11 16:04 458次阅读

    特斯拉Dojo超级计算机项目负责人离职,前苹果高管接任

    特斯拉Dojo项目使用公司自主开发的芯片处理特斯拉汽车的大量数据和视频,并训练公司自主开发的自动行驶软件。在发送原稿之前,特斯拉没有立即回应评论要求。
    的头像 发表于 12-08 10:15 372次阅读