BEV感知中的Transformer算法介绍-电子发烧友网

1、Camera only

主要思想：固定900个query个数，随机初始化query。每个query对应一个3D reference point，然后反投影到图片上sample对应像素的特征。

缺点：需要预训练模型，且因为是随机初始化，训练收敛较慢

BEV Former

https://arxiv.org/abs/2203.17270

主要思想：将BEV下的每个grid作为query，在高度上采样N个点，投影到图像中sample到对应像素的特征，且利用了空间和时间的信息。并且最终得到的是BEV featrue，在此featrue上做Det和Seg。

Spatial Cross-Attention：将BEV下的每个grid作为query，在高度上采样N个点，投影到图像中获取特征。

Temporal Self-Attention: 通过self-attention代替运动补偿，align上一帧的feature到当前帧的Q

旷视，PETR

https://arxiv.org/pdf/2203.05625.pdf

2、多模态

清华，FUTR3D

https://arxiv.org/pdf/2203.10642.pdf

在DETR的基础上，将3D reference point投影到Lidar voxel特征和radar point 特征上。

香港科技大学，Transfusion

https://arxiv.org/pdf/2203.11496.pdf

利用CenterPoint在heatmap上获取Top K个点作为Query（这K个点可以看做是通过lidar网络初始化了每个目标的位置，这比DETR用随机点作为Qurey收敛要快），先经过Lidar Transformer得到proposal，把这个proposal作为Query，再和image feature做cross attention。

Google，DeepFusion

https://arxiv.org/abs/2203.08195

直接将Lidar feature和Camera feature做cross attention，这个思路牛逼，我不看到这篇论文是绝对想不到还能这么搞的。

编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4615

浏览量
93000
感知

感知

+关注

关注
1

文章
66

浏览量
12139
Transformer

Transformer

+关注

关注
0

文章
143

浏览量
6017

原文标题：BEV感知中的Transformer算法

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

基于LSS范式的BEV感知算法优化部署详解

BEV即Bird's Eye View(鸟瞰视图）是一种从空中俯视场景的视角。由多张不同视角采集的图像通过不同的空间转换方式形成，如下图所示，左侧为6张不同位置的相机采集的图像，右侧为转换的BEV图像。

发表于 01-02 14:13 •4341次阅读

基于LSS范式的<b class='flag-5'>BEV</b><b class='flag-5'>感知</b><b class='flag-5'>算法</b>优化部署详解

BEV感知算法：下一代自动驾驶的核心技术

首先，BEV视图存在遮挡小的优点，由于视觉的透视效应，现实世界的物体在2D图像中很容易受到其他物体的遮挡，因此，传统的基于2D的感知方式只能感知可见的目标，对于被遮挡的部分

发表于 01-25 15:38 •4196次阅读

<b class='flag-5'>BEV</b><b class='flag-5'>感知</b><b class='flag-5'>算法</b>：下一代自动驾驶的核心技术

未来已来，多传感器融合感知是自动驾驶破局的关键

了目标的3D空间位置信息、目标的速度信息和材质信息，可以直接高效实时支持占用网格中的体素算法。Tesla目前在主推“BEV +Transformer+占用网络”，国内华为GOD2.0和

发表于 04-11 10:26

感知时间等比缩减的机会频谱接入算法研究

的机会频谱接入算法(SGPR)。该算法与其他固定感知时间长度算法比较,相对缩减了频谱感知时间,增加了系统传输时间,从而提高了认知网络系统的吞

发表于 04-23 11:17

BEV+Transformer对智能驾驶硬件系统有着什么样的影响？

BEV+Transformer是目前智能驾驶领域最火热的话题，没有之一，这也是无人驾驶低迷期唯一的亮点，BEV+Transformer彻底终结了2D直视图+CNN时代

发表于 02-16 17:14 •2571次阅读

黑芝麻智能在BEV感知方面的研发进展

日前，在由黑芝麻智能主办的“2023智能汽车高峰论坛”上，黑芝麻智能深度学习研发高级总监王祚官发表了主题为“BEV感知，给自动驾驶开启‘上帝视角’”的主旨演讲，分享黑芝麻智能在BEV感知

发表于 05-15 16:39 •1554次阅读

基于几何变换器的2D-to-BEV视图转换学习

BEV感知是自动驾驶的重要趋势。常规的自动驾驶算法方法基于在前视图或透视图中执行检测、分割、跟踪，而在BEV中可表示周围场景，相对而言更加直

发表于 06-06 17:47 •1729次阅读

基于Transformer的目标检测算法

掌握基于Transformer的目标检测算法的思路和创新点，一些Transformer论文涉及的新概念比较多，话术没有那么通俗易懂，读完论文仍然不理解算法的细节部分。

发表于 08-16 10:51 •660次阅读

BEV人工智能transformer

BEV人工智能transformer 人工智能Transformer技术是一种自然语言处理领域的重要技术，广泛应用于自然语言理解、机器翻译、文本分类等任务中。它通过深度学习

发表于 08-22 15:59 •862次阅读

CVPR上的新顶流：BEV自动驾驶感知新范式

BEV自动驾驶感知好比一个从高处统观全局的“上帝视角”，将三维环境信息投影到二维平面，以俯视视角展示环境中的物体和地形。在路径规划、障碍物检测、自动驾驶决策等方面，BEV

发表于 08-23 14:51 •1081次阅读

利用Transformer BEV解决自动驾驶Corner Case的技术原理

BEV是一种将三维环境信息投影到二维平面的方法，以俯视视角展示环境中的物体和地形。在自动驾驶领域，BEV 可以帮助系统更好地理解周围环境，提高感知和决策的准确性。在环境

发表于 10-11 16:16 •783次阅读

智能驾驶感知算法梳理高阶自动驾驶落地关键分析

　　感知算法升级是L2级向L 3级智能驾驶系统跨越的关键。与传统2D+CNN算法相比，BEV+ Transformer

发表于 10-19 09:53 •411次阅读

BEV感知的二维特征点

BEV感知的二维特征点首先来简单介绍一下什么是BEV感知。 BEV

发表于 11-14 11:37 •685次阅读

黑芝麻智能开发多重亮点的BEV算法技术助力车企高阶自动驾驶落地

随着视觉算法的演进，BEV（Bird's-Eye-View Perception）感知算法成为主机厂和自动驾驶公司发力城市场景的核心技术之一，

发表于 03-29 18:18 •1933次阅读

自动驾驶中一直说的BEV+Transformer到底是个啥？

在很多车企的自动驾驶介绍中，都会听到一个关键技术，那就是BEV+Transformer，那BEV+Transformer到底是个啥？为什么很多车企在自动驾驶技术中都十分追捧这项技术？其

发表于 11-07 11:19 •416次阅读