从数据闭环到混合数据增强，关于自动驾驶数据的那些事-电子发烧友网

今天，小编将继续为大家带来Nullmax感知部总监兼计算机视觉首席科学家成二康博士做客汽车之心·行家说栏目的内容整理下篇，关于自动驾驶的数据闭环及混合数据增强的简要介绍。Nullmax正通过将这些技术应用到不同的量产项目中，推进自动驾驶系统的迭代升级。

对于自动驾驶而言，数据具有至关重要的技术驱动作用，通过数据闭环高效收集、利用海量的真实数据，是自动驾驶研发和落地的一项核心能力。与此同时，在无法充分获得所需真实数据的情况下，大规模地生成虚拟样本也是一种可行的方式。

对于自动驾驶来说，真实世界的驾驶环境变幻莫测，驾驶场景层出不穷，训练有素的软件算法也会面临长尾效应带来的一系列问题，遇到一些很少遇到但是很难应对的极端场景。

因此，针对自动驾驶的长尾问题，Nullmax打造了高效的数据闭环，支持行泊一体方案的大规模应用，并且探索了大规模地生成虚拟样本数据，运用混合数据增强方法解决少见目标检测方面的相关难题。

这样的话，可以最大程度、最高效率地在真实场景中收集和利用困难样本数据，同时在真实场景数据难以满足需求的情况，通过合成虚拟样本来解决数据难题。

数据闭环

Nullmax的数据闭环，名为MaxFlow自主成长系统。它包含了车端、云端两大部分，车端源源不断地获取数据，云端对数据进行分析，完成获取、清洗、标注、训练以及模型验证的整个闭环。

它可以为感知、融合、决策、定位、测试等环节提供全方位的帮助，实现持续不断的迭代升级，驱动自动驾驶的整个系统自主成长。特别是在感知层面，尤其是视觉感知当中，自主成长系统发挥了巨大作用。

数据闭环的数据，主要源自两个方面。一是以offline的方式，在收集全量数据后，通过data filter机制筛选出感兴趣的数据，然后送到云端参与训练等任务。二是以online的方式，在车端运用trigger机制，通过影子模式等方法，自主地收集一些感兴趣的数据，包括困难样本。（点击查看详情）

影子模式，简单来说就是通过对比人类司机和自动驾驶系统的驾驶差异，获得一些数据，提升自动驾驶系统的驾驶能力，从而逼近甚至是超越人类驾驶水平。对于感知层面来说，也是如此，比如AEB误触发，那么就可以在误触发的时候，将视觉传感器的数据进行回收，送到云端分析处理。这是一种相对被动的学习方式，此外系统也包含一些相对主动的学习方式，比如通过不确定性等进行样本的筛选。

在线的trigger方面，包括有人机一致性、时序一致性、多传感器一致性、多算法一致性、指定特殊场景等不同类型的设置。如果遇到变道失败、传感器之间结果不一致、算法结果不一致等等情况，那么就会触发相应数据的收集。

举个例子，一个障碍物在时间维度而言，既不可能凭空消失，也不可能凭空出现，这就是时序的一致性。如果一个行人在连续轨迹上消失了，那么就是典型的漏检。

另外一个例子，就是同样的一张图片，用不同的算法进行一致性的校验。比如freespace和障碍物相互校验，可行驶区域当中不应存在障碍物，不然的话就是漏检。

此外，运用多种算法校验来筛选难样本，也是非常重要的手段。比如行驶在路面的车辆，如果只检测出车轮，但没有检测出车辆，那么极有可能这是一个比较难的样本，比如涂装车、挖掘机、平板车等等罕见的车辆。这种方法也可以用来筛选一些极近距离的大车，比如油罐车、拖车、挂车等等少见场景的数据。

同样的，对于行人也可以通过头部的检测和身体的检测，来校验检测结果，筛选困难案例。

混合数据增强

对于自动驾驶而言，除了通过数据闭环在真实场景中收集困难样本之外，另外一种获取数据样本的方式，就是大规模的自动化生成虚拟样本。

比如，在CVPR 2022上提出的合成数据集SHIFT，就是通过CARLA仿真几乎零成本地生成真值数据。再比如Block-NeRF，利用3个月收集的数据重建旧金山市的场景，这是另外一种生成数据的方式，通过一些样本的视角来生成其他视角的虚拟图像。

此外，通过计算机图形学和生成式模型相结合，也能够以Neural Rendering的方式生成大量的虚拟数据。

在ICRA 2022上，Nullmax同样也提出了一种生成虚拟样本的方式，通过混合数据增强的方法，解决罕见目标检测的难题。（点击查看详情）

因为对自动驾驶而言，即使专门去筛一些数据，获得的数据量仍可能还是很小。收集一些少见的样本，比如锥形筒相关的场景，其实依然很难。

所以我们当初的想法是，既然拥有大量没有锥形筒的真实场景，那么能不能将锥形筒的mask（掩膜）贴到这些真实场景图片上面，几乎零成本地自动生成大量少见样本呢？这就是我们想要通过混合数据增强来实现的目标。

这当中有两个非常关键的问题，一个是锥形筒mask贴到什么位置，一个是怎么贴mask。因此，我们提出了一个多任务的深度学习网络，为交通场景提供相应的约束，确保mask沿着车道线贴到freespace上，而不是车上。同时，还提出了一个局部自适应的颜色变换，让mask能够自动适应每张图片本身的颜色分布。

实验结果显示，对锥形筒这类少见样本来说，如果只有少量数据，检测效果其实比较一般。但是在结合我们的混合数据增强方法后，检测效果可以大幅提升。

Nullmax已经开源相应的ROD（Rare Object Dataset）数据集，当中包含1万多张的数据，分布在不同的道路、天气和光照条件。如果大家感兴趣，欢迎登陆网站下载 https://nullmax-vision.github.io/。

篇后语

为了更好地实现行泊一体，Nullmax开发了能够自动化支持行车和泊车两类任务的感知基础架构，从而最大程度地复用软件算法。这其中，就包括了数据、训练和部署。

基于这套架构，Nullmax能够通过数据闭环收集的海量真实数据，以及大规模生成的虚拟样本，以非常高效、经济的方式提供提供丰富、充足的训练样本，对算法进行真实和混合数据的混合训练，打造出一个满足全场景自动驾驶需求的「超级大脑」。

后续，我们将介绍这套强大的感知基础架构，敬请关注！

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7021

浏览量
89017
自动驾驶

自动驾驶

+关注

关注
784

文章
13809

浏览量
166441
LLM

LLM

+关注

关注
0

文章
287

浏览量
331

原文标题：Nullmax研习社 | 从数据闭环到混合数据增强，关于自动驾驶数据的那些事

文章出处：【微信号：Nullmax，微信公众号：Nullmax纽劢】欢迎添加关注！文章转载请注明出处。

标贝科技：自动驾驶中的数据标注类别分享

自动驾驶训练模型的成熟和稳定离不开感知技术的成熟和稳定，训练自动驾驶感知模型需要使用大量准确真实的数据。据英特尔计算，L3+级自动驾驶每辆汽车每天产生的

发表于 11-22 15:07 •892次阅读

标贝科技：<b class='flag-5'>自动驾驶</b>中的<b class='flag-5'>数据</b>标注类别分享

标贝科技：自动驾驶中的数据标注类别分享

发表于 11-22 14:58 •411次阅读

自动驾驶算法数据链路是怎么样的？#ADAS #智能驾驶

自动驾驶

北汇信息POLELINK

发布于 :2024年11月20日 13:05:51

如祺出行在2024广州车展发布数据闭环飞轮

近日，第二十二届广州国际汽车展览会（下称“广州车展”）隆重开幕。作为推动自动驾驶技术商业的先行者，如祺出行重点发布了基于自动驾驶运营优势和自动驾驶数据解决方案构建的

发表于 11-18 09:16 •308次阅读

从特斯拉看智能驾驶未来发展

。特斯拉作为该领域的先行者，通过对算法、硬件、数据闭环和市场战略的深度布局，为自动驾驶行业的发展提供了重要借鉴。特斯拉智能驾驶历史复盘 1.1 智能

发表于 11-16 16:49 •1141次阅读

<b class='flag-5'>从</b>特斯拉看智能<b class='flag-5'>驾驶</b>未来发展

连接视觉语言大模型与端到端自动驾驶

端到端自动驾驶在大规模驾驶数据上训练，展现出很强的决策规划能力，但是面对复杂罕见的驾驶场景，依然存在局限性，这是因为端

发表于 11-07 15:15 •239次阅读

连接视觉语言大模型与端<b class='flag-5'>到</b>端<b class='flag-5'>自动驾驶</b>

FPGA在自动驾驶领域有哪些优势?

领域的主要优势：高性能与并行处理能力： FPGA内部包含大量的逻辑门和可配置的连接，能够同时处理多个数据流和计算任务。这种并行处理能力使得FPGA在处理自动驾驶中复杂的图像识别、传感器数据处理等

发表于 07-29 17:11

FPGA在自动驾驶领域有哪些应用？

是FPGA在自动驾驶领域的主要应用：一、感知算法加速图像处理：自动驾驶中需要通过摄像头获取并识别道路信息和行驶环境，这涉及到大量的图像处理任务。FPGA在处理图像上的运算速度快，可并行性强，且功耗

发表于 07-29 17:09

VSP2272适合数码相机的完整混合信号处理IC数据表

电子发烧友网站提供《VSP2272适合数码相机的完整混合信号处理IC数据表.pdf》资料免费下载

发表于 07-22 11:21 •0次下载

VSP2272适<b class='flag-5'>合数</b>码相机的完整<b class='flag-5'>混合</b>信号处理IC<b class='flag-5'>数据</b>表

标贝数据采集标注在自动驾驶场景中落地应用实例

AI数据服务作为人工智能和机器学习的基础，在自动驾驶领域中有着重要地位。与其他人工智能应用场景相比，自动驾驶的落地场景相对复杂，想要让汽车本身的算法做到处理更多、更复杂的场景，就需要运用大量场景化

发表于 05-28 14:22 •572次阅读

标贝<b class='flag-5'>数据</b>采集标注在<b class='flag-5'>自动驾驶</b>场景中落地应用实例

特斯拉拟在华建数据中心，加速自动驾驶发展

据知情人士透露，特斯拉正计划在中国境内建立数据中心，此举是埃隆·马斯克全球自动驾驶战略的重要一环。新数据中心将专门用于训练自动驾驶车辆所需的先进算法，以推动全球

发表于 05-20 10:12 •441次阅读

未来已来，多传感器融合感知是自动驾驶破局的关键

巨大的进展；自动驾驶开始摒弃手动编码规则和机器学习模型的方法，转向全面采用端到端的神经网络AI系统，它能模仿学习人类司机的驾驶，遇到场景直接输入传感器数据，再直接输出转向、制动和加速信

发表于 04-11 10:26

自动驾驶数据集的生成模型之WoVoGen框架原理

生成多摄像头的街景视频对于增加自动驾驶数据集至关重要，解决了对广泛而多样的数据的迫切需求。由于多样性的限制和处理光照条件的挑战，传统的基于渲染的方法越来越多的被基于扩散的方法所取代。

发表于 01-25 15:26 •579次阅读

<b class='flag-5'>自动驾驶</b><b class='flag-5'>数据</b>集的生成模型之WoVoGen框架原理

自动驾驶领域的数据集汇总

发自动驾驶论文哪少的了数据集，今天笔者将为大家推荐一篇最新的综述，总结了200多个自动驾驶领域的数据集，大家堆工作量的时候也可以找一些小众的数据

发表于 01-19 10:48 •1006次阅读

动态自动驾驶数据量身定制的NeRF：NeuRAD

神经辐射场( NeRFs )在自动驾驶( AD )社区中得到了广泛的应用。最近的方法显示了NeRFs在闭环仿真、AD系统测试以及作为先进的训练数据增强技术方面的潜力。

发表于 01-11 09:41 •523次阅读

搜索历史

从数据闭环到混合数据增强，关于自动驾驶数据的那些事

评论

标贝科技：自动驾驶中的数据标注类别分享

标贝科技：自动驾驶中的数据标注类别分享

自动驾驶算法数据链路是怎么样的？#ADAS #智能驾驶

如祺出行在2024广州车展发布数据闭环飞轮

从特斯拉看智能驾驶未来发展

连接视觉语言大模型与端到端自动驾驶

FPGA在自动驾驶领域有哪些优势?

FPGA在自动驾驶领域有哪些应用？

VSP2272适合数码相机的完整混合信号处理IC数据表

标贝数据采集标注在自动驾驶场景中落地应用实例

特斯拉拟在华建数据中心，加速自动驾驶发展

未来已来，多传感器融合感知是自动驾驶破局的关键

自动驾驶数据集的生成模型之WoVoGen框架原理

自动驾驶领域的数据集汇总

动态自动驾驶数据量身定制的NeRF：NeuRAD