0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于激光雷达的全稀疏3D物体检测器

CVer 来源:CVer 作者:明月不谙离苦 2022-11-15 14:59 次阅读

介绍一下我们组前段时间的一个微小工作

3d56525e-64a4-11ed-8abf-dac502259ad0.png

Fully Sparse 3D Object Detection (NeurIPS 2022)

Authors:Lue Fan,王峰, 王乃岩,Zhaoxiang Zhang

论文:https://arxiv.org/abs/2207.10035

代码已经开源在:

https://github.com/tusen-ai/SST

长话短说,我们提出了一种基于激光雷达的全稀疏3D物体检测器,在Waymo数据集和Argoverse 2数据集上都达到了不错的精度和速度。下面是一个简要的介绍。

一、导言

目前以SECOND,PointPillars以及CenterPoint为代表的主流一阶段点云物体检测器都或多或少依赖致密特征图(dense feature map)。这些方法基本都会把稀疏体素特征“拍成“dense BEV feature map。这样做可以沿用2D检测器的很多套路,取得了非常不错的性能。但是由于dense feature map的计算量和检测范围的平方成正比,使得这些检测器很难scale up到大范围long-range检测场景中。比如新出的Argoverse 2数据集具有[-200, 200] x [-200, 200]的理论检测范围,比常用的不超过[-75. 75] x [-75, 75]的范围大了许多。于是便引出了本文想解决的一个痛点问题:

如何去掉这些dense feature map,把检测器做成fully sparse的,以此高效地实现 long-range LiDAR detection?

这里补一句:全稀疏其实并不是一个新概念,在点云物体检测发展的早期,以PointRCNN为代表的众多纯point-based 方法天生就是全稀疏的。但由于Neighborhood query和FPS的存在,纯point-based方法在大规模点云数据上的效率不是很理想。这就导致纯point-based方法在点云规模较大的benchmark上性能表现不佳(没办法用较大的模型和分辨率。)

而去掉dense feature map的一个直接问题就是会导致物体中心特征的缺失(center feature missing)。这是由于点云常常分布在物体的侧表面,对于大物体尤其如此。在dense detector中,多层的卷积会把物体边缘的有效特征扩散到物体中心,因此这些检测器不存在直接的中心特征缺失问题,可以使用已被证明非常有效的center assignment。下图展示了特征扩散的过程:

3d8a4cd0-64a4-11ed-8abf-dac502259ad0.jpg

为了解决在全稀疏结构下中心特征缺失的问题,我们有一个基本想法:

既然中心特征缺失了,那么就不依靠中心特征做预测,而是依靠物体整体的有效特征做预测。

二、方法

顺着上面的基本想法,一个具体的思路就是先把物体分割出来,再将物体当作一个整体,并用稀疏的方式提取特征。第一步的分割在全稀疏的结构下很好实现,接下来物体特征的提取也可以通过众多成熟的point-based方法实现。那么我们的方法就呼之欲出了:

sparse voxel encoder作为backbone和segmentor来分割物体并预测每个点所对应的物体中心

对预测出来的众多中心点进行聚类,得到一个一个的instance。这一步类似VoteNet,但我们采用了connected component labeling的方式来聚类,这一点其实对大物体性能挺重要的。

对于每一个instance用稀疏的方式提取整体特征,并进行该instance外接框的reasoning。

前两步都很简单直接,但第三步稍有麻烦。对instance提取特征最常用的选择就是在instance内部做point-based operation, 但是之前提到这类方法效率较低。因此我们试图规避其中诸如neighborhood query和FPS这种比较耗时的操作。我们的想法是,既然已经得到了一个个instance,何不直接将instance作为一个一个独立neighborhood group,扔掉进一步的ball query或者KNN操作。

这样做实质上是把instance当成了“voxel”来处理,因为instance和voxel本质上都属于对整个点云的一种non-overlapping划分。那么我们就可以直接套用提取单个体素特征那一套方案来提取instance特征,比如Dynamic VFE。具体而言,就是对instance内的每个点做MLP,再做instance-wise的pooling得到instance feature。instance feature又可以重新assign到instance内部的每个point上,这一过程可以不断重复。这本质上是多个简单的PointNet叠加,也可以换成其他更强力的操作。值得强调的是,由于3D空间里instance之间天然不会重叠(正如同voxel),以上的pooling操作可以通过torch中scatter operation来高效地动态实现(无需对每个组进行padding或者设置点数上限)。

得到最终的instance feature之后,直接预测对应instance的外接框和类别即可,我们将整个对instance进行处理的模块称之为 Sparse Instance Recognition (SIR)。

方法总体框架如下图所示:

3d9d7c60-64a4-11ed-8abf-dac502259ad0.png

Overall Pipeline

这其中还包含着一些后续操作,比如对重新分割出比聚类得到的更准确的instance,感兴趣的读者可以查看原文。

三、结果

提出的方法在Waymo的单帧单模型标准赛道上达到了SOTA的性能

3de4ad74-64a4-11ed-8abf-dac502259ad0.jpg

Waymo validation 上的性能,截图不全,感兴趣的读者可查看原论文

同时也在新出的Argoverse 2数据集上超越了主流的CenterPoint(虽然还没几个人刷。。)。

值得多提一嘴的是我们的方法在长距离检测上有巨大的效率优势,如下图所示

3dfb29f0-64a4-11ed-8abf-dac502259ad0.jpg

这是用SST backbone测的,用SparseConv的backbone效果更佳

四、一些特性

我们的方法不受sparse backbone的类型限制,比如文中我们就使用了sparse transformer和sparse conv两种结构。这一点使得FSD可以作为sparse backbone方面研究的一个strong baseline。

该方法虽然暂时聚焦在检测任务,但已经有了multi task的影子,可以把segmentation和detection一体化。

前向速度很快,再加上收敛也极快,Waymo上训练6个epoch就可以达到准sota水平。这在8 x 3090上只需要不到半天时间,其他方法达到相同性能可能需要至少2天的训练时间。这应该会给大家的快速实验迭代提供很大便利。

我们相信稀疏化是将来的一个趋势。在很多场景下,sparse feature都比相比笨重的dense feature map具有更高的可操作性和灵活性,欢迎大家试用我们的模型。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    825

    浏览量

    47424
  • 激光雷达
    +关注

    关注

    966

    文章

    3781

    浏览量

    187806

原文标题:NeurIPS 2022 | 中科院&图森未来提出FSD:全稀疏的3D目标检测器

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Hokuyo Automatic发布新款3D激光雷达(LiDAR)传感YLM-10LX

    据麦姆斯咨询报道,光学半导体技术先驱Lumotive近日携手传感和自动化领域的全球领先企业Hokuyo Automatic发布新款3D激光雷达(LiDAR)传感YLM-10LX。
    的头像 发表于 05-29 09:14 441次阅读

    LG Innotek发布高性能激光雷达,可检测250米外物体

    组成部分。LG Innotek的高性能激光雷达可以检测250米外的物体。随着检测距离的增加,车辆可以确保更长的制动距离,从而实现更快的自动驾驶。该设备可确保所有角度的高分辨率成像,传感
    的头像 发表于 04-12 08:45 34次阅读

    大陆集团的3D Flash激光雷达有何优势?

    在这一技术革命的前沿,激光雷达成为了不可或缺的一环。而在这其中,大陆集团的3D Flash激光雷达引人瞩目。
    发表于 04-11 10:28 193次阅读
    大陆集团的<b class='flag-5'>3D</b> Flash<b class='flag-5'>激光雷达</b>有何优势?

    激光雷达LIDAR基本工作原理

    一、激光雷达LiDAR工作原理激光雷达LiDAR的全称为LightDetectionandRanging激光探测和测距,又称光学雷达激光雷达
    的头像 发表于 03-05 08:11 2165次阅读
    <b class='flag-5'>激光雷达</b>LIDAR基本工作原理

    华为激光雷达参数怎么设置

    的基本原理。激光雷达通过发射激光束并测量返回的光的时间延迟来测量物体到传感的距离。传感还可以根据返回光的强度和角度来获取有关
    的头像 发表于 01-19 14:17 952次阅读

    单线激光雷达和多线激光雷达区别

    单线激光雷达和多线激光雷达区别  单线激光雷达和多线激光雷达是两种常用的激光雷达技术。它们在激光
    的头像 发表于 12-07 15:48 3219次阅读

    自动驾驶环境感知——激光雷达物体检测(chapter4)

    激光雷达不仅可以做到多视图融合,还能进行多传感融合(此时是一个状态估计问题,将不同传感的感知结果看成是观测)。
    的头像 发表于 11-17 17:06 698次阅读
    自动驾驶环境感知——<b class='flag-5'>激光雷达</b><b class='flag-5'>物体检测</b>(chapter4)

    激光雷达与视觉感知的优劣对比

    3D激光雷达在无人驾驶车辆的定位、路径规划、决策、感知等方面有着重要的作用。2022-2025年之间预计绝大部分的主机厂会量产上激光雷达,从国际上看,沃尔沃和Luminar宣布量产,国内蔚来选择图达通的
    发表于 10-30 18:14 306次阅读
    <b class='flag-5'>激光雷达</b>与视觉感知的优劣对比

    小米2D激光雷达拆解图讲解

    本文档的主要内容详细介绍的是小米的2D激光雷达拆解图和讲解。
    发表于 09-22 08:07

    CCV 2023 | SparseBEV:高性能、稀疏的纯视觉3D目标检测器

    ],PETR[2] 等)和稠密 3D 检测模型(如 BEVFormer[3],BEVDet[8])在性能上尚有差距。针对这一现象,我们认为应该增强检测器在 BEV 空间和 2
    的头像 发表于 09-19 10:00 602次阅读
    CCV 2023 | SparseBEV:高性能、<b class='flag-5'>全</b><b class='flag-5'>稀疏</b>的纯视觉<b class='flag-5'>3D</b>目标<b class='flag-5'>检测器</b>

    汽车传感芯片之激光雷达概述

    激光雷达的物理原理本质上就是“距离=速度*时间”,通过测量激光信号的信号差和相位差来确定距离。相较于发射电磁波的毫米波雷达和发射机械波的超声波雷达
    发表于 09-18 11:01 1977次阅读
    汽车传感<b class='flag-5'>器</b>芯片之<b class='flag-5'>激光雷达</b>概述

    机械激光雷达的组成包括哪些?

    机械激光雷达的组成包括哪些? 机械激光雷达是一种用于测量物体距离和位置的器件,它利用雷达技术和激光束进行测量,是一个非常重要的无人驾驶行业的
    的头像 发表于 08-23 16:14 1764次阅读

    案例分享|欧镭激光雷达应用于智慧矿山领域

    的实时统计,提升矿山作业的智能化水平及安全生产的效益。 矿用本安型3D激光雷达: LR-16FIS: 欧镭激光LR-16FIS,矿用本安型3D激光雷
    的头像 发表于 07-12 08:28 791次阅读

    一文读懂汽车芯片—激光雷达

    激光雷达的物理原理本质上就是“距离=速度*时间”,通过测量激光信号的信号差和相位差来确定距离。相较于发射电磁波的毫米波雷达和发射机械波的超声波雷达
    的头像 发表于 07-11 16:21 2274次阅读
    一文读懂汽车芯片—<b class='flag-5'>激光雷达</b>

    基于Transformer的相机-毫米波雷达融合3D目标检测方法

    雷达以用于高级驾驶辅助系统(ADAS)多年。然而,尽管雷达在汽车行业中很流行,考虑到3D目标检测时,大多数工作集中在激光雷达[14,23,2
    的头像 发表于 07-10 14:55 1599次阅读
    基于Transformer的相机-毫米波<b class='flag-5'>雷达</b>融合<b class='flag-5'>3D</b>目标<b class='flag-5'>检测</b>方法