0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

BEVSegFormer创造了新的BEV分割SOTA

Nullmax纽劢 来源:纽劢科技 作者:纽劢科技 2022-04-27 09:50 次阅读

自动驾驶而言,BEV(鸟瞰图)下的语义分割是一项重要任务。尽管这项工作已经吸引了大量的研究,但灵活处理自动驾驶车辆上的任意相机配置(单个或多个摄像头),仍然是一项挑战。

为此,Nullmax的感知团队提出了BEVSegFormer,这一基于Transformer的BEV语义分割方法,可面向任意配置的相机进行BEV语义分割。

这项研究的题目为《BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs》,论文链接:https://arxiv.org/abs/2203.04050。

为了评估这一算法的效果,Nullmax在nuScenes公开数据集以及Nullmax的自采数据集上进行了验证。实验结果表明,BEVSegFormer对任意相机配置的BEV语义分割,具有出色的性能表现。并且在nuScenes验证集上,BEVSegFormer创造了新的BEV分割SOTA。

在接下来的工作中,我们还计划针对自动驾驶以及BEV语义分割的一些其他挑战,展开进一步的研究。

欢迎对计算机视觉及自动驾驶感知感兴趣的小伙伴加入我们,一起探索!

01

关于BEVSegFormer

在自动驾驶或者机器人导航系统中,以BEV形式对感知信息进行表征,具有至关重要的作用,因为它可以为规划和控制提供诸多的便利。

比如,在无地图导航方案中,构建本地BEV地图,不仅成为了高精地图外的另一种选择,并且对于包括智体行为预测以及运动规划等感知系统下游任务而言,也非常重要。而利用相机的输入进行BEV语义分割,通常被视为构建本地BEV地图的第一步。

为此,传统方法一般会先在图像空间生成分割结果,然后通过逆透视变换(IPM)函数转换到BEV空间。虽然这是一种连接图像空间和BEV空间的简单直接的方法,但它需要准确的相机内外参,或者实时的相机位姿估计。所以,视图变换的实际效果有可能比较差。

以车道线分割为例,在一些挑战性场景中,比如遮挡或者远处区域,使用IPM的传统方法提供的结果就不够准确,如图所示。

d90fae6c-c5ca-11ec-bce3-dac502259ad0.png

近年来,深度学习方法已被研究用于BEV语义分割。Lift-Splat-Shoot通过逐像素深度估计结果完成了从图像视图到BEV的视图变换。不过使用深度估计,也增加了视图变换过程的复杂度。此外,有一些方法应用MLP或者FC算子来进行视图变换。这些固定的视图变换方法,学习图像空间和BEV空间之间的固定映射,因此不依赖于输入的数据。

而基于Transformer的方法,是在BEV空间下进行感知的另一个研究方向。在目标检测任务中,DETR3D引入了一种3D边界框检测方法,直接从多个相机图像的2D特征生成3D空间中的预测。3D空间和2D图像空间之间的视图变换,通过交叉注意模块的3D到2D查询来实现。

受此启发,我们提出了BEVSegFormer,通过在Transformer中使用交叉注意机制进行BEV到图像的查询,来计算视图变换。

BEVSegFormer由3个主要的组件组成:

共享的主干网络,用于提取任意相机的特征图;

Transformer编码器,通过自注意模块嵌入特征图;

BEV Transformer解码器,通过交叉注意机制处理BEV查询,输出最终的BEV语义分割结果。

d944de0c-c5ca-11ec-bce3-dac502259ad0.png

具体来说,BEVSegFormer首先是使用了共享的主干网络,对来自任意相机的图像特征进行编码,然后通过基于可变形Transformer的编码器对这些特征进行增强。

除此之外,BEVSegFormer还引入了一个BEV Transformer解码器模块,对BEV语义分割的结果进行解析,以及一种高效的多相机可变形注意单元,完成BEV到图像的视图变换。

最后,根据BEV中的网格布局对查询进行重塑,并进行上采样,以有监督的方式生成语义分割结果。

我们分别在nuScenes公开数据集以及Nullmax的自采数据集上,检验了BEVSegFormer的算法效果。实验结果表明,BEVSegFormer在nuScenes验证集上创造了新的BEV分割SOTA。通过消融实验,当中每个组件的效果也得到了验证。

d97c3780-c5ca-11ec-bce3-dac502259ad0.png

02

加入我们

在这项研究中,我们为了应对自动驾驶车辆上任意相机配置的BEV语义分割挑战,提出了BEVSegFormer。

接下来,我们还计划在自动驾驶当中,基于Transformer探索内存效率更高、解释性更强的BEV语义分割方法。

欢迎对BEV、Transformer在自动驾驶中的感知任务感兴趣,以及希望从事于计算机视觉和自动驾驶感知研发的同学,加入Nullmax感知团队。

在这里,你可以直接参与到大量自动驾驶量产项目的落地,以及最前沿技术的预研当中,为你的idea和技术找到一个充分施展的舞台!

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    784

    文章

    13805

    浏览量

    166429
  • 深度学习
    +关注

    关注

    73

    文章

    5503

    浏览量

    121146

原文标题:当BEV语义分割遇上了Transformer,故事的结局是新的SOTA

文章出处:【微信号:Nullmax,微信公众号:Nullmax纽劢】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浅析基于自动驾驶的4D-bev标注技术

    4D-bev标注技术是指在3D空间中以时间作为第四个维度进行标注的过程。4D-bev通常在地场景较为复杂的自动驾驶场景中使用,其可以通过精准地跟踪和记录动态对象的运动轨迹、姿势变化以及速度等信息,全面理解和分析动态对象在连续的时间序列中的变化,提升自动驾驶系统的感知、决策
    的头像 发表于 12-06 15:01 782次阅读
    浅析基于自动驾驶的4D-<b class='flag-5'>bev</b>标注技术

    自动驾驶中一直说的BEV+Transformer到底是个啥?

    在很多车企的自动驾驶介绍中,都会听到一个关键技术,那就是BEV+Transformer,那BEV+Transformer到底是个啥?为什么很多车企在自动驾驶技术中都十分追捧这项技术?其实“BEV
    的头像 发表于 11-07 11:19 378次阅读
    自动驾驶中一直说的<b class='flag-5'>BEV</b>+Transformer到底是个啥?

    语义分割25种损失函数综述和展望

    本综述提供对25种用于图像分割的损失函数的全面且统一的回顾。我们提供一种新颖的分类法,并详细审查这些损失函数如何在图像分割中被定制和利
    的头像 发表于 10-22 08:04 508次阅读
    语义<b class='flag-5'>分割</b>25种损失函数综述和展望

    画面分割器怎么调试

    画面分割器,通常指的是视频画面分割器,它是一种可以将一个视频信号分割成多个小画面的设备。这种设备广泛应用于监控系统、视频会议、多画面显示等场景。调试画面分割器是一个技术性很强的工作,需
    的头像 发表于 10-17 09:32 376次阅读

    画面分割器怎么连接

    画面分割器,也称为视频分割器或多画面处理器,是一种可以将多个视频信号源分割成单个画面或多个画面显示在单个监视器上的设备。这种设备广泛应用于监控系统、视频会议、多媒体展示等领域。 一、画面分割
    的头像 发表于 10-17 09:29 314次阅读

    关于\"OPA615\"的SOTA的跨导大小的疑问求解

    关于OPA615的SOTA部分,看datasheet的page9的figure22,我们可以知道跨导大小大概是35mA/V左右,并且可以知道其Chold输出一般在5mA以内,但是我从社区里面找到
    发表于 09-13 06:25

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义分割的基本原理 1.1
    的头像 发表于 07-17 09:56 428次阅读

    图像分割和语义分割的区别与联系

    图像分割和语义分割是计算机视觉领域中两个重要的概念,它们在图像处理和分析中发挥着关键作用。 1. 图像分割简介 图像分割是将图像划分为多个区域或对象的过程。这些区域或对象具有相似的属性
    的头像 发表于 07-17 09:55 932次阅读

    图像分割与语义分割中的CNN模型综述

    图像分割与语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型,在图像分割与语义分割中发挥着至关重要的
    的头像 发表于 07-09 11:51 869次阅读

    NB81是否支持OneNet SOTA功能?应该如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,应该如何激活SOTA
    发表于 06-04 06:14

    旋变位置不变的情况下,当使能SOTA功能与关闭SOTA功能时,APP中DSADC采样得到的旋变sin和cos两者值不一样,为什么?

    旋变位置不变的情况下,当使能SOTA功能与关闭SOTA功能时,APP中DSADC采样得到的旋变sin和cos两者值不一样,用示波器采的输入到MCU端的差分电压是一样的,难道是SOTA使能后影响了MCU芯片内部的等效阻抗吗,有专家
    发表于 05-17 08:13

    BEV和Occupancy自动驾驶的作用

    BEV是Bird's Eye View 的缩写,意为鸟瞰视图。在自动驾驶领域,BEV 是指从车辆上方俯瞰的场景视图。BEV 图像可以提供车辆周围环境的完整视图,包括车辆前方、后方、两侧和顶部。
    发表于 01-17 12:33 715次阅读
    <b class='flag-5'>BEV</b>和Occupancy自动驾驶的作用

    顶刊TPAMI最全综述!深入自动驾驶BEV感知的魔力!

    BEV感知的主要工作。在输入模态下," L "为LiDAR," SC "为单相机," MC "为多相机," T "为时
    的头像 发表于 01-14 09:53 1387次阅读
    顶刊TPAMI最全综述!深入自动驾驶<b class='flag-5'>BEV</b>感知的魔力!

    自动驾驶领域中,什么是BEV?什么是Occupancy?

    BEV是Bird's Eye View 的缩写,意为鸟瞰视图。在自动驾驶领域,BEV 是指从车辆上方俯瞰的场景视图。
    的头像 发表于 01-13 09:41 3365次阅读
    自动驾驶领域中,什么是<b class='flag-5'>BEV</b>?什么是Occupancy?

    基于LSS范式的BEV感知算法优化部署详解

    BEV即Bird's Eye View(鸟瞰视图)是一种从空中俯视场景的视角。由多张不同视角采集的图像通过不同的空间转换方式形成,如下图所示,左侧为6张不同位置的相机采集的图像,右侧为转换的BEV图像。
    的头像 发表于 01-02 14:13 4250次阅读
    基于LSS范式的<b class='flag-5'>BEV</b>感知算法优化部署详解