BEVSegFormer创造了新的BEV分割SOTA-电子发烧友网

对自动驾驶而言，BEV（鸟瞰图）下的语义分割是一项重要任务。尽管这项工作已经吸引了大量的研究，但灵活处理自动驾驶车辆上的任意相机配置（单个或多个摄像头），仍然是一项挑战。

为此，Nullmax的感知团队提出了BEVSegFormer，这一基于Transformer的BEV语义分割方法，可面向任意配置的相机进行BEV语义分割。

这项研究的题目为《BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs》，论文链接：https://arxiv.org/abs/2203.04050。

为了评估这一算法的效果，Nullmax在nuScenes公开数据集以及Nullmax的自采数据集上进行了验证。实验结果表明，BEVSegFormer对任意相机配置的BEV语义分割，具有出色的性能表现。并且在nuScenes验证集上，BEVSegFormer创造了新的BEV分割SOTA。

在接下来的工作中，我们还计划针对自动驾驶以及BEV语义分割的一些其他挑战，展开进一步的研究。

欢迎对计算机视觉及自动驾驶感知感兴趣的小伙伴加入我们，一起探索！

关于BEVSegFormer

在自动驾驶或者机器人导航系统中，以BEV形式对感知信息进行表征，具有至关重要的作用，因为它可以为规划和控制提供诸多的便利。

比如，在无地图导航方案中，构建本地BEV地图，不仅成为了高精地图外的另一种选择，并且对于包括智体行为预测以及运动规划等感知系统下游任务而言，也非常重要。而利用相机的输入进行BEV语义分割，通常被视为构建本地BEV地图的第一步。

为此，传统方法一般会先在图像空间生成分割结果，然后通过逆透视变换（IPM）函数转换到BEV空间。虽然这是一种连接图像空间和BEV空间的简单直接的方法，但它需要准确的相机内外参，或者实时的相机位姿估计。所以，视图变换的实际效果有可能比较差。

以车道线分割为例，在一些挑战性场景中，比如遮挡或者远处区域，使用IPM的传统方法提供的结果就不够准确，如图所示。

近年来，深度学习方法已被研究用于BEV语义分割。Lift-Splat-Shoot通过逐像素深度估计结果完成了从图像视图到BEV的视图变换。不过使用深度估计，也增加了视图变换过程的复杂度。此外，有一些方法应用MLP或者FC算子来进行视图变换。这些固定的视图变换方法，学习图像空间和BEV空间之间的固定映射，因此不依赖于输入的数据。

而基于Transformer的方法，是在BEV空间下进行感知的另一个研究方向。在目标检测任务中，DETR3D引入了一种3D边界框检测方法，直接从多个相机图像的2D特征生成3D空间中的预测。3D空间和2D图像空间之间的视图变换，通过交叉注意模块的3D到2D查询来实现。

受此启发，我们提出了BEVSegFormer，通过在Transformer中使用交叉注意机制进行BEV到图像的查询，来计算视图变换。

BEVSegFormer由3个主要的组件组成：

共享的主干网络，用于提取任意相机的特征图；

Transformer编码器，通过自注意模块嵌入特征图；

BEV Transformer解码器，通过交叉注意机制处理BEV查询，输出最终的BEV语义分割结果。

具体来说，BEVSegFormer首先是使用了共享的主干网络，对来自任意相机的图像特征进行编码，然后通过基于可变形Transformer的编码器对这些特征进行增强。

除此之外，BEVSegFormer还引入了一个BEV Transformer解码器模块，对BEV语义分割的结果进行解析，以及一种高效的多相机可变形注意单元，完成BEV到图像的视图变换。

最后，根据BEV中的网格布局对查询进行重塑，并进行上采样，以有监督的方式生成语义分割结果。

我们分别在nuScenes公开数据集以及Nullmax的自采数据集上，检验了BEVSegFormer的算法效果。实验结果表明，BEVSegFormer在nuScenes验证集上创造了新的BEV分割SOTA。通过消融实验，当中每个组件的效果也得到了验证。

加入我们

在这项研究中，我们为了应对自动驾驶车辆上任意相机配置的BEV语义分割挑战，提出了BEVSegFormer。

接下来，我们还计划在自动驾驶当中，基于Transformer探索内存效率更高、解释性更强的BEV语义分割方法。

欢迎对BEV、Transformer在自动驾驶中的感知任务感兴趣，以及希望从事于计算机视觉和自动驾驶感知研发的同学，加入Nullmax感知团队。

在这里，你可以直接参与到大量自动驾驶量产项目的落地，以及最前沿技术的预研当中，为你的idea和技术找到一个充分施展的舞台！

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自动驾驶

自动驾驶

+关注

关注
785

文章
13954

浏览量
167252
深度学习

深度学习

+关注

关注
73

文章
5521

浏览量
121657

原文标题：当BEV语义分割遇上了Transformer，故事的结局是新的SOTA

文章出处：【微信号：Nullmax，微信公众号：Nullmax纽劢】欢迎添加关注！文章转载请注明出处。

康谋方案 | BEV感知技术：多相机数据采集与高精度时间同步方案

随着自动驾驶技术的快速发展，车辆准确感知周围环境的能力变得至关重要。BEV Camera数据采集方案有效解决了多相机同步采集和高精度时间同步的难题，还提供了灵活的相机参数配置和高效的数据传输，能够满足自动驾驶和高精度测量等场景的

发表于 02-06 13:45 •2397次阅读

康谋方案 | <b class='flag-5'>BEV</b>感知技术：多相机数据采集与高精度时间同步方案

Mamba入局图像复原,达成新SOTA

MambaIRv2，更高性能、更高效率！另外还有ACM MM 2024上的Freqmamba方法，在图像去雨任务中取得了SOTA性能！显然，这种基于Mamba的方法在图像复原领域，比基于CNN

发表于 12-30 18:09 •269次阅读

Mamba入局图像复原,达成新<b class='flag-5'>SOTA</b>

浅析基于自动驾驶的4D-bev标注技术

4D-bev标注技术是指在3D空间中以时间作为第四个维度进行标注的过程。4D-bev通常在地场景较为复杂的自动驾驶场景中使用，其可以通过精准地跟踪和记录动态对象的运动轨迹、姿势变化以及速度等信息，全面理解和分析动态对象在连续的时间序列中的变化，提升自动驾驶系统的感知、决策

发表于 12-06 15:01 •1564次阅读

浅析基于自动驾驶的4D-<b class='flag-5'>bev</b>标注技术

自动驾驶中一直说的BEV+Transformer到底是个啥？

在很多车企的自动驾驶介绍中，都会听到一个关键技术，那就是BEV+Transformer，那BEV+Transformer到底是个啥？为什么很多车企在自动驾驶技术中都十分追捧这项技术？其实“BEV

发表于 11-07 11:19 •580次阅读

自动驾驶中一直说的<b class='flag-5'>BEV</b>+Transformer到底是个啥？

语义分割25种损失函数综述和展望

本综述提供了对25种用于图像分割的损失函数的全面且统一的回顾。我们提供了一种新颖的分类法，并详细审查了这些损失函数如何在图像分割中被定制和利

发表于 10-22 08:04 •882次阅读

画面分割器怎么调试

画面分割器，通常指的是视频画面分割器，它是一种可以将一个视频信号分割成多个小画面的设备。这种设备广泛应用于监控系统、视频会议、多画面显示等场景。调试画面分割器是一个技术性很强的工作，需

发表于 10-17 09:32 •560次阅读

画面分割器怎么连接

画面分割器，也称为视频分割器或多画面处理器，是一种可以将多个视频信号源分割成单个画面或多个画面显示在单个监视器上的设备。这种设备广泛应用于监控系统、视频会议、多媒体展示等领域。一、画面分割

发表于 10-17 09:29 •449次阅读

关于\"OPA615\"的SOTA的跨导大小的疑问求解

关于OPA615的SOTA部分，看datasheet的page9的figure22，我们可以知道跨导大小大概是35mA/V左右，并且可以知道其Chold输出一般在5mA以内，但是我从社区里面找到

发表于 09-13 06:25

图像语义分割的实用性是什么

图像语义分割是一种重要的计算机视觉任务，它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用，如自动驾驶、医学图像分析、机器人导航等。一、图像语义分割的基本原理 1.1

发表于 07-17 09:56 •563次阅读

图像分割和语义分割的区别与联系

图像分割和语义分割是计算机视觉领域中两个重要的概念，它们在图像处理和分析中发挥着关键作用。 1. 图像分割简介图像分割是将图像划分为多个区域或对象的过程。这些区域或对象具有相似的属性

发表于 07-17 09:55 •1220次阅读

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据分割的方法，包括常见的分割方法、各自的优缺点、适用场景以及实际应用中的注意事项。

发表于 07-10 16:10 •2211次阅读

图像分割与语义分割中的CNN模型综述

图像分割与语义分割是计算机视觉领域的重要任务，旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络（CNN）作为深度学习的一种核心模型，在图像分割与语义分割中发挥着至关重要的

发表于 07-09 11:51 •1212次阅读

机器人视觉技术中常见的图像分割方法

机器人视觉技术中的图像分割方法是一个广泛且深入的研究领域。图像分割是将图像划分为多个区域或对象的过程，这些区域或对象具有某种共同的特征，如颜色、纹理、形状等。在机器人视觉中，图像分割对于物体识别

发表于 07-09 09:31 •924次阅读

NB81是否支持OneNet SOTA功能？应该如何激活SOTA？

NB81是否支持OneNet SOTA功能？可以支持，应该如何激活SOTA？

发表于 06-04 06:14

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，为什么？

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，用示波器采的输入到MCU端的差分电压是一样的，难道是SOTA使能后影响了MCU芯片内部的等效阻抗吗，有专家

发表于 05-17 08:13

搜索历史

BEVSegFormer创造了新的BEV分割SOTA

评论

康谋方案 | BEV感知技术：多相机数据采集与高精度时间同步方案

Mamba入局图像复原,达成新SOTA

浅析基于自动驾驶的4D-bev标注技术

自动驾驶中一直说的BEV+Transformer到底是个啥？

语义分割25种损失函数综述和展望

画面分割器怎么调试

画面分割器怎么连接

关于\"OPA615\"的SOTA的跨导大小的疑问求解

图像语义分割的实用性是什么

图像分割和语义分割的区别与联系

机器学习中的数据分割方法

图像分割与语义分割中的CNN模型综述

机器人视觉技术中常见的图像分割方法

NB81是否支持OneNet SOTA功能？应该如何激活SOTA？

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，为什么？