LinK：用线性核实现3D激光雷达感知任务中的large kernel-电子发烧友网

【CVPR 2023】LinK：用线性核实现3D激光雷达感知任务中的large kernel

本文介绍我们媒体计算研究组（MCG）在3D激光雷达感知领域提出的新型网络设计。针对点云数据的稀疏性，使用线性核（LinK）来扩大模型的有效感受野，提升3D检测、分割等任务的性能。

LinK: Linear Kernel for LiDAR-based 3D Perception

论文链接：https://arxiv.org/abs/2303.16094

代码链接：https://github.com/MCG-NJU/LinK

研究动机

在2D计算机视觉任务中，更大的感受野使得模型在语义分割、目标检测等下游任务上的性能获得显著的提升。此前，一些方法（RepLKNet[1]等）探究了2D图像处理领域中使用更大的卷积核来获得更大范围的感知能力。

由于3D数据模态的稀疏性，将大卷积核的设计引入3D存在两方面的障碍。一是效率问题：3D任务中，开销随尺寸立方增长，若将卷积核大小从3×3×3简单地扩张到7×7×7，模型大小会是原来的10倍，扩展到21×21×21则会变为343倍。另一方面是优化问题：由于点云在空间中分布较为稀疏，如果卷积核的每个位置都被赋予一定的权重，那么3D数据的稀疏性会导致大量空闲位置的权重在网络迭代中并没有参与更新，导致参数更新缓慢。此前有人尝试使用局部块内元素共享参数的方式来缓解这两个问题，提出了大小为7×7×7的空间共享权重卷积核（LargeKernel3D[2]）。该设计成功地在3D语义分割和目标检测任务上提升了小卷积核的性能，但感受野的扩张幅度仍然有限。

为了解决这些问题，我们提出线性核LinK，以类卷积的方式实现更大的感知范围。该方法有两处核心设计：一是用线性核生成器替换静态的卷积权重，仅为非空区域的点云提供权重。同时，该模块是逐层共享的，避免了稀疏分布的权重在某次迭代中没有被优化的情况，改善了优化问题。二是在不同滑动窗口的重叠区域复用预先计算的聚合结果，使整体计算复杂度进一步降低，甚至最终计算量为常量，与实际感受范围无关。换句话说，我们可以基于LinK以一致的开销实现任意大小的线性核。

我们的方法

核生成器

前文中讨论了大卷积核下稀疏卷积的两大缺陷：开销大以及优化困难。我们首先采用神经网络模块来在线生成权重，取代静态卷积核，使得网络参数量与不随卷积核尺寸增长而增长，与之前方法对比如下：

线性核生成器解决了参数量增长的问题，然后，并没有解决计算量的问题。于是我们考虑，能否将不同卷积窗口的重叠区域的特征聚合结果进行复用，这样有可能降低计算量。

为此，我们以一个toy case为例。假设两个相邻窗口中的元素集合分别为

其中每个元素表示一个体素。这两个窗口的重叠区域为

我们分别将中的元素特征聚合到和，聚合过程为

可以发现，每个重叠区域中的元素对和采用不同的local offset来获得权重。因此，基于local offset的方式难以复用重叠区域的聚合结果，如下图所示：

基于global coordinate的预聚合

为了解决这个问题，考虑到每个位置的global coordinate是唯一的，我们提出，将local offset拆分为global coordinate的组合。对于区域，我们使用如下公式计算这三个元素的预聚合结果：

也是kernel generator。然后，若要得到在区域上的聚合特征，我们用如下方式生成基于local offset的结果：

这样，不管有多少个元素要来复用区域上的聚合特征，都不需要再重新计算。

那么问题来了，上式成立的前提是

为了使其成立，我们参考APP-Net[3]，使用线性映射来实现和。我们将这过程称为线性核生成器，也即LinK方法名字的由来（Linear Kernel Generator）。这两个函数可以用三角函数、指数函数等不同的形式进行激活，正文中主要采用了余弦函数的方式。此时两个窗口A、B的聚合过程如下图所示：

基于LinK的类卷积核设计

基于上述设计，我们将整体点云划分为不重叠的块，每个块的大小为，对每个块进行特征预聚合。为每个块查询其周围个近邻块，生成一个感受范围为的大块的预聚合特征。对使用上述合成local offset的操作，即可为每个聚合中心算得最终的特征。这部分的具体公式可见论文原文。在实验中，设，即可得到 21×21×21 的感知范围。整体过程如下图所示：

网络结构

LinK模块结构

LinK模块由两个分支组成：一个分支为使用线性投影+三角核函数实现的大核分支，另一分支为 3×3×3 的稀疏卷积小核旁路，结构图如下所示。

下游任务应用

应用到下游任务（检测和分割）中时，我们分别选取CenterPoint和MinkUnet作为基础架构，并使用基于LinK的backbone替代了原本基于稀疏卷积实现的backbone，保留了原始的检测头和分割头不变，具体结构如下图所示。

实验

我们在nuScenes上评估了目标检测的结果，在SemanticKITTI上评估了语义分割的结果。结果分别如下所示：

nuScenes

截止论文发表，我们的方法在nuScenes数据集上取得了SOTA（73.4 NDS）。得益于超大的感受野，与baseline CenterPoint相比，我们的方法在大尺寸的物体（例如bus、con-veh等）上提升显著。

SemanticKITTI

在SemanticKITTI上，我们的方法相较baseline MinkUNet获得了2.7 mIoU的提升。更多可视化分析见原始论文。

总结

在本文中，我们提出了一个线性核生成器LinK，能够以不变的计算量任意扩大模型感受野，大幅提升现有模型在下游任务（检测、分割）上的性能。我们通过实验证明了LinK对下游任务性能提升的有效性与通用性。LinK在nuScenes（LiDAR only）上达到了SOTA性能，希望可以让大家对大感受野的新方法以及其在3D感知任务上的应用有更多关注。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Link

Link

+关注

关注
0

文章
101

浏览量
26951
生成器

生成器

+关注

关注
7

文章
315

浏览量
20999
激光雷达

激光雷达

+关注

关注
968

文章
3964

浏览量
189804

原文标题：LinK: Linear Kernel for LiDAR-based 3D Perception

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

常见激光雷达种类

。单线激光主要用于规避障碍物，由于单线激光雷达比多线和3D激光雷达在角频率和灵敏度反映更加快捷，所以，在测试周围障碍物的距离和精度上都更加精确。但是，单线

发表于 09-25 11:30

激光雷达究竟为什么这么牛，这么贵

、激光雷达为什么这么牛？因为激光雷达能够帮助车辆识别周围的环境信息，更好的运行车辆。激光雷达在无人驾驶的两个核心作用：1．3D建模进行环境感知

发表于 10-16 16:31

固态设计激光雷达

围绕LR30进行感知环境，精确建图和定位导航的功能研发，以实现低速自动驾驶辅助和封闭园区自动驾驶。二、已量产的固态激光雷达CE30-D当其他公司展位摆放着《样品预约测试表》的时候，北醒

发表于 01-25 09:41

激光雷达除了可以激光测距外，还可以怎么应用？

运用红外激光设备把红外线投影到屏幕上。当屏幕被阻挡时，红外线便会反射，而屏幕下的摄影机则会捕捉反射去向，再经系统分析，便可作出反应。 激光雷达应用之 3D建模与环境扫描RPLIDAR 3D

发表于 05-11 15:33

5 款激光雷达：iDAR、高清3D LiDARInnovizPro、S3、SLAM on Chip、VLS-128

，我们的任务就是要推动自动驾驶汽车大规模商用，现在我们离实现这一目标越来越近了。”Innoviz 公司发言人在一份声明中说道。S3（Quanergy）Quanergy S

发表于 07-26 20:45

让机器人在陌生环境里穿梭自如的激光雷达

`这辆汽车对于科技爱好者绝不陌生，这就是谷歌研发的无人驾驶汽车。在行驶过程中，无人车需要感知周围环境，但无法像人一样用眼睛完成，这一切就要依靠车顶安装的激光雷达。该装置可检测周围障碍物

发表于 09-10 16:32

除了机器人行业，激光雷达还能应用于哪些领域？

器人在房间里实现智能清扫，清扫的过程中绘制地图，实时传输到手机APP，就算用户不在家，也可以通过手机APP查看清扫情况，以及安排其他地方清扫。无人车领域——自主感知道路环境及规划路线在无人车领域，

发表于 12-10 14:55

自制低成本3d激光扫描测距仪激光雷达

自制低成本3d激光扫描测距仪激光雷达

发表于 05-27 16:23

激光雷达知多少：从技术上讲讲未来前景

，其云底高度的测量范围可达7500m。按线数分类：单线激光雷达 单线激光雷达主要用于规避障碍物，其扫描速度快、分辨率强、可靠性高。由于单线激光雷达比多线和3D

发表于 07-14 07:56

自制低成本3D激光扫描测距仪(3D激光雷达)

自制低成本3D激光扫描测距仪(3D激光雷达)

发表于 03-04 10:51

由iphone12说说激光雷达 FMCW激光雷达精选资料分享

。另一个就是比较火的AR（增强现实），通过LIDAR能够测出这个现实中物体的大小尺寸，进而能够很好的3D建模，当然待开发的应用还有很多很多，毕竟相当于赋予了手机一双人的眼睛。主要说一下这个激光雷达

发表于 07-22 09:12

3D激光雷达的现在和未来

近年来，激光雷达市场非常活跃，一些参与者在推出汽车级3D激光雷达传感器模块产品方面取得了出色的进展。

发表于 03-23 16:19 •8752次阅读

3D激光雷达和相机校准是如何考虑传感器之间误差的？

作者：Raphael Voges and Bernardo Wagner 来源：IROS 2020 大家好，今天为大家带来的文章是—— 集员法对3D激光雷达和相机的外部校准

发表于 05-26 09:15 •5089次阅读

3D Flash 激光雷达测绘和手势识别

3D Flash 激光雷达测绘和手势识别

发表于 01-05 09:43 •1430次阅读

激光雷达与视觉感知的优劣对比

3D激光雷达在无人驾驶车辆的定位、路径规划、决策、感知等方面有着重要的作用。2022-2025年之间预计绝大部分的主机厂会量产上激光雷达，从国际上看，沃尔沃和Luminar宣布量产，国

发表于 10-30 18:14 •550次阅读

搜索历史

LinK：用线性核实现3D激光雷达感知任务中的large kernel

评论

常见激光雷达种类

激光雷达究竟为什么这么牛，这么贵

固态设计激光雷达

激光雷达除了可以激光测距外，还可以怎么应用？

5 款激光雷达：iDAR、高清3D LiDARInnovizPro、S3、SLAM on Chip、VLS-128

让机器人在陌生环境里穿梭自如的激光雷达

除了机器人行业，激光雷达还能应用于哪些领域？

自制低成本3d激光扫描测距仪激光雷达

激光雷达知多少：从技术上讲讲未来前景

自制低成本3D激光扫描测距仪(3D激光雷达)

由iphone12说说激光雷达 FMCW激光雷达精选资料分享

3D激光雷达的现在和未来

3D激光雷达和相机校准是如何考虑传感器之间误差的？

3D Flash 激光雷达测绘和手势识别

激光雷达与视觉感知的优劣对比