基于4000万公里量产车驾驶数据训练，参数规模1200亿-电子发烧友网

4 月 11 日，InfoQ 获悉，自动驾驶创企毫末智行发布了业内首个自动驾驶生成式大模型 DriveGPT，中文名“雪湖·海若”。

自动驾驶生成式大模型 DriveGPT 雪湖·海若

自动驾驶生成式大模型 DriveGPT 雪湖·海若，有望成为大模型技术落地自动驾驶新范式。

毫末智行 CEO 顾维灏介绍了雪湖·海若名字的来源：“‘海若’出自《庄子·秋水》，里面有两个神话人物河伯和北海若。河伯请教北海若，何谓大小之分，北海若教导，不因天地而觉大，不因毫末而觉小。毫末雪湖·海若，寓意智慧包容、海纳百川，为行业发展贡献力量。”

毫末 DriveGPT 雪湖·海若通过引入驾驶数据建立 RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化。它的最终目标是实现端到端自动驾驶，现阶段主要用于解决自动驾驶的认知决策问题，后续持续会将毫末多个大模型的能力整合到 DriveGPT。

目前，毫末 DriveGPT 雪湖·海若实现了模型架构与参数规模的升级，参数规模达到 1200 亿，预训练阶段引入 4000 万公里量产车驾驶数据，RLHF 阶段引入 5 万段人工精选的困难场景接管 Clips。

DriveGPT 雪湖·海若的底层模型采用 GPT（Generative Pre-trained Transformer）生成式预训练大模型，与 ChatGPT 使用自然语言进行输入与输出不同，DriveGPT 输入是感知融合后的文本序列，输出是自动驾驶场景文本序列，即将自动驾驶场景 Token 化，形成“Drive Language”，最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。（DriveGPT 雪湖·海若）DriveGPT 雪湖·海若的实现过程是，首先在预训练阶段通过引入量产驾驶数据，训练初始模型，再通过引入驾驶接管 Clips 数据完成反馈模型（Reward Model）的训练，然后再通过强化学习的方式，使用反馈模型去不断优化迭代初始模型，形成对自动驾驶认知决策模型的持续优化。同时，DriveGPT 雪湖·海若还会根据输入端的提示语以及毫末 CSS 自动驾驶场景库的决策样本去训练模型，让模型学习推理关系，从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程，完成可理解、可解释的推理逻辑链生成。

在应用方面，DriveGPT 雪湖·海若的首发车型是新摩卡 DHT-PHEV，即将量产上市。顾维灏提到，DriveGPT 雪湖·海若可以逐步应用到城市 NOH、捷径推荐、智能陪练以及脱困场景中。有了 DriveGPT 雪湖·海若的加持，车辆行驶会更安全；动作更人性、更丝滑，并有合理的逻辑告诉驾驶者，车辆为何选择这样的决策动作。对于普通用户来说，车辆越来越像老司机，用户对智能产品的信任感会更强，理解到车辆的行为都是可预期、可理解的。

目前，毫末 DriveGPT 雪湖·海若已正式对外开放，开启对限量首批客户的合作，北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等已经加入。毫末 DriveGPT 的对外开放及服务，将促进自动驾驶的从业者和研究机构快速构建基础能力。

毫末 DriveGPT 雪湖·海若将率先探索四大应用能力，包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。当前，毫末在使用数据过程中，逐步建立起一套基于 4D Clips 驾驶场景识别方案，具备极高性价比。在行业上，给出正确的标注结果，一张图片需要约 5 元；如果使用 DriveGPT 雪湖·海若的场景识别服务，一张图片的价格将下降到 0.5 元。单帧图片整体标注成本仅相当于行业的 1/10。接下来，毫末会将图像帧及 4D Clips 场景识别服务逐步向行业开放使用，这将大幅降低行业使用数据的成本，提高数据质量，从而加速自动驾驶技术的快速发展。

大模型研发离不开庞大的算力支撑。

顾维灏介绍，毫末在 2023 年 1 月发布的中国自动驾驶行业最大的智算中心 MANA OASIS（雪湖· 绿洲）此次从算力优化等层面升级了三大能力，进一步支持 DriveGPT 雪湖·海若的算力。首先，毫末与火山引擎全新搭建了“全套大模型训练保障框架”，实现了异常任务分钟级捕获和恢复能力，可以保证千卡任务连续训练数个月没有任何非正常中断, 有效保证了大模型训练稳定性；其次，毫末研发出以真实数据回传为核心的增量学习技术，并将其推广到了大模型训练，构建了一个大模型持续学习系统，自主研发任务级弹性伸缩调度器，分钟级调度资源，集群计算资源利用率达到 95%；最后，MANA OASIS 通过提升数据吞吐量来降本增效，满足 Transformer 大模型训练效率，通过引入火山引擎提供的 Lego 算子库实现算子融合，端到端吞吐提升 84%。

毫末打造的自动驾驶数据智能体系 MANA，在经过一年多的应用迭代后，也迎来了全面的升级，正式开放赋能。顾维灏介绍，MANA 计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化，并集成到 OASIS 中；其次，MANA 感知和认知相关大模型能力统一整合到 DriveGPT 雪湖·海若中；第三，增加了使用 NeRF 技术的数据合成服务，降低 Corner Case 数据的获取成本；同时针对多种芯片和多种车型的快速交付难题优化了异构部署工具和车型适配工具。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3261

浏览量
48914
自动驾驶

自动驾驶

+关注

关注
784

文章
13858

浏览量
166590
强化学习

强化学习

+关注

关注
4

文章
268

浏览量
11267

原文标题：自动驾驶生成式大模型 DriveGPT 来了：基于 4000 万公里量产车驾驶数据训练，参数规模 1200 亿

文章出处：【微信号：AI前线，微信公众号：AI前线】欢迎添加关注！文章转载请注明出处。

标贝科技：自动驾驶中的数据标注类别分享

自动驾驶训练模型的成熟和稳定离不开感知技术的成熟和稳定，训练自动驾驶感知模型需要使用大量准确真实的数据。据英特尔计算，L3+级自动

发表于 11-22 15:07 •930次阅读

标贝科技：自动<b class='flag-5'>驾驶</b>中的<b class='flag-5'>数据</b>标注类别分享

标贝科技：自动驾驶中的数据标注类别分享

自动驾驶训练模型的成熟和稳定离不开感知技术的成熟和稳定，训练自动驾驶感知模型需要使用大量准确真实的数据。据英特尔计算，L3+级自动

发表于 11-22 14:58 •688次阅读

小米SU7智能驾驶激活率超80%

小米科技创始人雷军近日公布了小米SU7车型智能驾驶的卓越表现。据悉，该车型的智能驾驶功能自交付以来仅44天，激活率便高达82.39%，行驶里程更是突破了258万公里，这一

发表于 05-21 09:34 •469次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

具有以下三个非常显著的特点，一个就是模型参数规模更大，训练数据更多。当然，对计算资源的要求也会更高。构建强大的语言模型时，模型的选型至关重要，涉及模型的基本架构，包括模型的主要结构

发表于 05-07 17:10

小鹏汽车智驾总里程假期5天超1800万公里

小鹏汽车官方公布了五一假期期间的智驾数据，总里程5天已超过1800万公里！ 5月4日智驾总里程达384.1万公里； 5月4日智能泊车6.3

发表于 05-06 18:31 •1123次阅读

百度开放车道级地图数据，助力高级驾驶与无人驾驶

5月1日期，百度地图将向高级辅助驾驶行业提供全量车道级地图数据（LD地图）。该数据已经覆盖全国360个地级市及超过360万公里的高速公路及城

发表于 04-30 16:54 •1315次阅读

毫末智行再获3亿元B2轮融资，加大自动驾驶研发投入

成立于2019年的毫末智行，专注于自动驾驶技术研发，短短四年间，已经成为中国量产自动驾驶领域的佼佼者之一。据统计，截止目前，搭载毫末Hipoilt的车辆已超过20款，累计行驶里程接近1.4亿公

发表于 04-23 17:59 •701次阅读

蔚来ET7搭载150度电池包，续航里程超1000公里

首先，从上海至厦门的路线中，尽管遭遇橙色暴雨恶劣天气，ET7 仍取得 1046 公里的续航成绩，百公里综合能耗仅为 13.3 度，NOP + 辅助驾驶里程占比达到 37.6%。

发表于 04-17 10:18 •445次阅读

未来已来，多传感器融合感知是自动驾驶破局的关键

方面表示，这是L4级自动驾驶公司和车企为了打造Robotaxi量产车，在国内成立的首个合资公司。首款车型已完成产品定义，正在进行设计造型的联合评审，计划明年实现量产。未来已来，2024年是全球L3

发表于 04-11 10:26

新能源汽车续保难题：部分保险公司拒保，里程门槛设为2万公里

据悉，在上海等地，行驶里程超过2万公里的新能源车很可能无法获得大公司的续保服务；而其他一些规模稍小的保险公司会同意提供服务，但相应的保费会相对较高。

发表于 04-01 10:55 •1301次阅读

小米SU7续航能力卓越，实测续航高达495公里

根据雷军的描述，小米SU7标准版的续航能力达到了700公里，且同样配备19英寸轮毂的情况下超过了特斯拉Model 3长续航版。而SU7 Max则突破至800公里，同时实现高达2秒内的快速加速以及800公里的超长续航。

发表于 03-28 11:42 •2657次阅读

蚂蚁推出20亿参数多模态遥感模型SkySense

据了解，负责开发的百灵团队利用自身拥有的19亿遥感影像数据集进行了预训练，从而生成了具有20.6亿参数的SkySense大模型。官方称其为全

发表于 02-28 15:53 •689次阅读

如何精确计算汽车百公里油耗？

老司机们经常说的“几个油”其实就是“百公里油耗”，指的是一辆车行驶一百公里消耗了多少升油，这一数值用来衡量一个车是否省油，当然会根据不同的情况而发生变化。实际上，关于油耗还有一个“官方说法”，即工信部综合油耗。

发表于 02-26 10:55 •680次阅读

毫末智行获亿元B1轮融资，主要用于AI自动驾驶与机器人研发

据悉，截至2024年2月，毫末智行车载智能驾驶产品HPIot已搭载20余种汽车上市，辅助驾驶总里程达1.2亿公里。此外，毫末推出的千元级辅助驾驶

发表于 02-22 10:44 •564次阅读

比亚迪智驾团队规模超4000人

在比亚迪的梦想日活动上，比亚迪集团总裁王传福宣布了一项令人瞩目的消息：比亚迪的智驾团队规模已经超过4000人。这一庞大的团队包括了1000多名算法工程师和3000多名软件工程师，展示了比亚迪在智能驾驶领域的强大实力和决心。

发表于 01-19 18:26 •1703次阅读

搜索历史

基于4000万公里量产车驾驶数据训练，参数规模1200亿

评论

标贝科技：自动驾驶中的数据标注类别分享

标贝科技：自动驾驶中的数据标注类别分享

小米SU7智能驾驶激活率超80%

【大语言模型：原理与工程实践】大语言模型的预训练

小鹏汽车智驾总里程假期5天超1800万公里

百度开放车道级地图数据，助力高级驾驶与无人驾驶

毫末智行再获3亿元B2轮融资，加大自动驾驶研发投入

蔚来ET7搭载150度电池包，续航里程超1000公里

未来已来，多传感器融合感知是自动驾驶破局的关键

新能源汽车续保难题：部分保险公司拒保，里程门槛设为2万公里

小米SU7续航能力卓越，实测续航高达495公里

蚂蚁推出20亿参数多模态遥感模型SkySense

如何精确计算汽车百公里油耗？

毫末智行获亿元B1轮融资，主要用于AI自动驾驶与机器人研发

比亚迪智驾团队规模超4000人