电子发烧友网报道(文/李弯弯)前不久,毫末智行与火山引擎共同发布了中国自动驾驶行业最大的智算中心——毫末“雪湖·绿洲”(MANA OASIS)。据毫末智行CEO顾维灏介绍,MANA OASIS的算力高达67亿亿次/秒,存储带宽可达2T/秒,通信带宽达到800G/秒,可以为自动驾驶技术的持续迭代提供充足动力。
不仅仅是自动驾驶车自身算力,智算中心也成为车企和自动驾驶公司竞争的焦点。众所周知,自动驾驶行业的领军企业特斯拉在几年前就已经建立自己的智算中心,并且还自研芯片以提升效率。国内除了毫末智行,小鹏汽车在今年8月也宣布已经建成自动驾驶智算中心。
多方面优化,MANA OASIS训练效率提升100倍
结合自动驾驶近十年的发展历史,毫末智行认为,可以将近十年的自动驾驶技术发展分成三个阶段:最早的硬件驱动方式,可以称为自动驾驶的1.0时代;最近几年的软件驱动方式,可称之为自动驾驶的2.0时代;即将发生,并将持续发展的数据驱动方式,是自动驾驶的3.0时代。数据驱动也是自动驾驶发展公认的方向,而它对智算中心的要求很高。
因此毫末和火山引擎共同定制了一个属于自动驾驶的智算中心。具体来看,在系统架构方面,如下图,左边是高性能存储,基于高性能并行文件系统VePFS,可以提供高达2T/s的读取速度,并且支持百亿级小文件高速读写。右边是计算平台,提供了充沛的算力,每台服务器配置8个GPU卡,通过600G/s的双向NVSwitch高速互联,进行通信。服务器之间通过4张200G带宽的RDMA网络互联,提供高达800G/s的网络带宽。
在数据管理上,为了充分发挥智算中心的价值,让GPU持续饱和运行,毫末经过2年多研发,建立了全套面向大规模AI训练的毫末文件系统。在采集端,把数据按照训练的要求,以4D Clip为单位组织文件形态;在传输端,基于毫末场景库,对数据进行场景化分析,打上各类Tag,方便模型基于Tag从不同维度对数据进行采样、分布统计、语料提取;在训练端,基于分级存储理念,把对象存储、高性能、显存充分整合,实现高容量与高性能并存。
最终实现了百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500us。在毫末文件系统的加持下,消除数据瓶颈,GPU利用率从60%提升到接近80%。
在MANA OASIS的训练加速上也做了大量优化。大家都知道,transformer大模型的训练成本非常高,训练一个大模型有时成本高达几千万。毫末在此方向深入研究,借鉴了学术界最新的研究成果,基于Sparse MoE,可以根据计算特点,进行稀疏激活,提高计算效率,实现单机8卡就能训练百亿参数大模型的效果。
毫末智算中心也实现了跨机共享expert的方法,完成千亿参数规模大模型的训练,而且训练成本降低到百卡周级别。在此基础上,毫末基于自己的业务特点,设计并实现了业界领先的多任务并行训练系统,能同时处理图片、点云、结构化文本等多种模态的信息,既保证了模型的稀疏性,又提升了计算效率。结合多方面的优化,毫末智算中心的训练效率提升了100倍。
为何小鹏、特斯拉等车企要建立自己的智算中心
除了毫末智行,小鹏汽车、特斯拉等车企也已建设自己的智算中心。今年8月,小鹏汽车宣布在乌兰察布建成当时中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。“扶摇”基于阿里云智能计算平台,算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏自动驾驶核心模型的训练速度提升了近170倍。
通过与阿里云合作,“扶摇”以更低成本实现了更强算力。具体来看,对GPU资源进行细粒度切分、调度,将GPU资源虚拟化利用率提高3倍,支持更多人同时在线开发,效率提升十倍以上。在通讯层面,端对端通信延迟降低80%至2微秒。
整体计算效率上,实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍,数据传输能力相当于从送快递的微型面包车,换成了20多米长的40吨集装箱重卡。此外,阿里云机器学习平台PAI提供了模型训练部署、推理优化等AI工程化工具,比开源框架训练性能提升30%以上。
“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天,缩短至1小时内,大幅提速近170倍。据介绍,“扶摇”正用于小鹏城市NGP辅助驾驶系统的算法模型训练。和高速道路相比,城市路段的交通状况更为复杂,自动驾驶特殊场景的数据集规模增加了上百倍。
早几年前,特斯拉就已经建立了自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。为了进一步提升效率,特斯拉在2021年发布了自研的AI加速芯片D1,25个D1封装在一起组成一个训练模块(Training tile),然后再将训练模块组成一个机柜(Dojo ExaPOD)。在今年10月的AI Day上,特斯拉展示了自有AI计算中心的最新进展,用自研的D1芯片打造的计算设备能够提升30%的模型训练效率。
可以看到,车企和自动驾驶公司自建智算中心,能够在性能上进行多方面的优化,提升效率。此外在成本上也会更有利,何小鹏此前谈到,对于智能汽车公司来说,算力成本将会从今天的亿元级别上升到将来的十亿元级别。因此,如果持续使用公有云服务,边际成本将会不断上涨。如果自行组建智算中心,一次性投资约在数千万到1亿元以内,长期来看性价比更高。
不仅仅是自动驾驶车自身算力,智算中心也成为车企和自动驾驶公司竞争的焦点。众所周知,自动驾驶行业的领军企业特斯拉在几年前就已经建立自己的智算中心,并且还自研芯片以提升效率。国内除了毫末智行,小鹏汽车在今年8月也宣布已经建成自动驾驶智算中心。
多方面优化,MANA OASIS训练效率提升100倍
结合自动驾驶近十年的发展历史,毫末智行认为,可以将近十年的自动驾驶技术发展分成三个阶段:最早的硬件驱动方式,可以称为自动驾驶的1.0时代;最近几年的软件驱动方式,可称之为自动驾驶的2.0时代;即将发生,并将持续发展的数据驱动方式,是自动驾驶的3.0时代。数据驱动也是自动驾驶发展公认的方向,而它对智算中心的要求很高。
因此毫末和火山引擎共同定制了一个属于自动驾驶的智算中心。具体来看,在系统架构方面,如下图,左边是高性能存储,基于高性能并行文件系统VePFS,可以提供高达2T/s的读取速度,并且支持百亿级小文件高速读写。右边是计算平台,提供了充沛的算力,每台服务器配置8个GPU卡,通过600G/s的双向NVSwitch高速互联,进行通信。服务器之间通过4张200G带宽的RDMA网络互联,提供高达800G/s的网络带宽。
![](https://file.elecfans.com/web2/M00/8B/41/poYBAGPVPuyAMxrCAAYYfAonELY423.png)
在数据管理上,为了充分发挥智算中心的价值,让GPU持续饱和运行,毫末经过2年多研发,建立了全套面向大规模AI训练的毫末文件系统。在采集端,把数据按照训练的要求,以4D Clip为单位组织文件形态;在传输端,基于毫末场景库,对数据进行场景化分析,打上各类Tag,方便模型基于Tag从不同维度对数据进行采样、分布统计、语料提取;在训练端,基于分级存储理念,把对象存储、高性能、显存充分整合,实现高容量与高性能并存。
最终实现了百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500us。在毫末文件系统的加持下,消除数据瓶颈,GPU利用率从60%提升到接近80%。
在MANA OASIS的训练加速上也做了大量优化。大家都知道,transformer大模型的训练成本非常高,训练一个大模型有时成本高达几千万。毫末在此方向深入研究,借鉴了学术界最新的研究成果,基于Sparse MoE,可以根据计算特点,进行稀疏激活,提高计算效率,实现单机8卡就能训练百亿参数大模型的效果。
毫末智算中心也实现了跨机共享expert的方法,完成千亿参数规模大模型的训练,而且训练成本降低到百卡周级别。在此基础上,毫末基于自己的业务特点,设计并实现了业界领先的多任务并行训练系统,能同时处理图片、点云、结构化文本等多种模态的信息,既保证了模型的稀疏性,又提升了计算效率。结合多方面的优化,毫末智算中心的训练效率提升了100倍。
为何小鹏、特斯拉等车企要建立自己的智算中心
除了毫末智行,小鹏汽车、特斯拉等车企也已建设自己的智算中心。今年8月,小鹏汽车宣布在乌兰察布建成当时中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。“扶摇”基于阿里云智能计算平台,算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏自动驾驶核心模型的训练速度提升了近170倍。
通过与阿里云合作,“扶摇”以更低成本实现了更强算力。具体来看,对GPU资源进行细粒度切分、调度,将GPU资源虚拟化利用率提高3倍,支持更多人同时在线开发,效率提升十倍以上。在通讯层面,端对端通信延迟降低80%至2微秒。
整体计算效率上,实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍,数据传输能力相当于从送快递的微型面包车,换成了20多米长的40吨集装箱重卡。此外,阿里云机器学习平台PAI提供了模型训练部署、推理优化等AI工程化工具,比开源框架训练性能提升30%以上。
“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天,缩短至1小时内,大幅提速近170倍。据介绍,“扶摇”正用于小鹏城市NGP辅助驾驶系统的算法模型训练。和高速道路相比,城市路段的交通状况更为复杂,自动驾驶特殊场景的数据集规模增加了上百倍。
早几年前,特斯拉就已经建立了自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。为了进一步提升效率,特斯拉在2021年发布了自研的AI加速芯片D1,25个D1封装在一起组成一个训练模块(Training tile),然后再将训练模块组成一个机柜(Dojo ExaPOD)。在今年10月的AI Day上,特斯拉展示了自有AI计算中心的最新进展,用自研的D1芯片打造的计算设备能够提升30%的模型训练效率。
可以看到,车企和自动驾驶公司自建智算中心,能够在性能上进行多方面的优化,提升效率。此外在成本上也会更有利,何小鹏此前谈到,对于智能汽车公司来说,算力成本将会从今天的亿元级别上升到将来的十亿元级别。因此,如果持续使用公有云服务,边际成本将会不断上涨。如果自行组建智算中心,一次性投资约在数千万到1亿元以内,长期来看性价比更高。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
自动驾驶
+关注
关注
777文章
13254浏览量
164183 -
智算中心
+关注
关注
0文章
32浏览量
1406
发布评论请先 登录
相关推荐
壁仞科技为中国移动呼和浩特智算中心提供强大算力
随着人工智能技术的飞速发展,高性能计算中心成为推动AI创新和应用的关键基础设施。近日,中国移动智算中心(呼和浩特)成功上线运营。国内领先的GPU企业壁仞科技的壁砺系列通用GPU
打造新型智算中心,神州鲲泰中标中移动智算中心采购
5月16日,中国移动采购与招标网发布了《中国移动2024年至2025年新型智算中心采购中标候选人公示》,神州数码集团股份有限公司下属控股子公司神州鲲泰(厦门)信息技术有限公司(以下简称“神州鲲泰
![打造新型智<b class='flag-5'>算</b><b class='flag-5'>中心</b>,神州鲲泰中标中移动智<b class='flag-5'>算</b><b class='flag-5'>中心</b>采购](https://file1.elecfans.com//web2/M00/E6/6C/wKgZomZHDTSAWtsdAAJoys4FjFc260.png)
未来已来,多传感器融合感知是自动驾驶破局的关键
方面表示,这是L4级自动驾驶公司和车企为了打造Robotaxi量产车,在国内成立的首个合资公司。首款车型已完成产品定义,正在进行设计造型的联
发表于 04-11 10:26
![](https://file1.elecfans.com/web2/M00/C1/5E/wKgZomXdmR-ABkwEAAy87b_KKZA02.jpeg)
智算时代:数据中心为什么要选用镍氢电池?
在智算时代背景下,数据中心高功率密度和高弹性需求成为了亟待解决的问题。智算中心作为信息基础设施的核心,承担着海量数据的处理、存储和传输任务,对电源的供备电稳定性和安全性提出了极高的要求
![智<b class='flag-5'>算</b>时代:数据<b class='flag-5'>中心</b>为什么要选用镍氢电池?](https://file1.elecfans.com//web2/M00/B2/97/wKgZomVgYk6ASdL4AABafm8tJUA489.png)
单芯片560TOPS算力!地平线下一代自动驾驶芯片曝光
可以达到128TOPS,能够支持L4级自动驾驶,出货量已经突破20万片。 在出货量进入快速增长期后,近期地平线也透露了下一代自动驾驶芯片征程6的信息。 高阶自动驾驶算力需求膨胀
一文读懂智算中心网络
人工智能领域包括8大重要应用场景,包括:识别检测、语音交互、AI芯片、自动驾驶、机器人、视频解析、人机协同、机器翻译、精准推荐等。每类场景对算力的要求不同。以人工智能最常应用的三大类场景为例,在
![一文读懂智<b class='flag-5'>算</b><b class='flag-5'>中心</b>网络](https://file1.elecfans.com/web2/M00/A9/A2/wKgaomUzKpqAVRYyAACM_-bCJLk518.jpg)
华为全联接大会2023|瞄准多元算力网络挑战,华为发布L4数据中心自动驾驶网络方案
算力时代的大门,驱动多样性算力需求的爆发式增长,使得数据中心加速迈入AI时代。 而作为算力的关键承载之一的数据中心网络,需要持续演进以适应新
![华为全联接大会2023|瞄准多元<b class='flag-5'>算</b>力网络挑战,华为<b class='flag-5'>发布</b>L4数据<b class='flag-5'>中心</b><b class='flag-5'>自动驾驶</b>网络方案](https://file1.elecfans.com//web2/M00/AA/1B/wKgZomUs74mATT9mAABYb2B4C6Q812.png)
智算中心网络架构选型原则
通常,在在AI智算系统中,一个模型从生产到应用,一般包括离线训练和推理部署两大阶段;本文选自“ 智算中心网络架构白皮书(2023) ”“ 智能计算中心规划建设指南 ”,常用的对IB
大算力自动驾驶SoC芯片主要玩家及出货量排名
智能化做出应对动作。要处理这些数据,需要高算力的自动驾驶SoC芯片做支撑。 传统汽车或许用单一处理器的MCU就能满足计算要求了。但随着汽车向自动驾驶高智能化方向发展,MCU的算力出
![大<b class='flag-5'>算</b>力<b class='flag-5'>自动驾驶</b>SoC芯片主要玩家及出货量排名](https://file1.elecfans.com/web2/M00/8C/D6/wKgZomSy25WALld4AACogAxFj-w779.png)
评论