0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个用于周视语义占用网格感知的基准测试

3D视觉工坊 来源:点云PCL 2023-08-14 09:37 次阅读

摘要

语义占用网格感知对于自动驾驶至关重要,因为自动驾驶车辆需要对3D城市场景进行细粒度感知。然而,现有的相关基准测试在城市场景的多样性方面存在不足,并且仅评估前视预测感知。为了全面评估周视感知算法,我们提出了OpenOccupancy,这是第一个用于周视语义占用网格感知的基准测试方法。在OpenOccupancy基准测试中,我们通过添加稠密的语义占用网格标注来扩展大规模的nuScenes数据集。以前的标注依赖于LiDAR点云的叠加,由于LiDAR数据的稀疏,导致一些占用标签被遗漏。为了缓解这个问题,我们引入了增强与净化(AAP)流程,将标注密度提高了约2倍,其中涉及约4000个人工小时的标注过程。此外为OpenOccupancy基准测试建立了基于摄像头、LiDAR和多模态的基线模型。此外考虑到周视占用感知的复杂性在于高分辨率3D预测的计算负担,我们提出了级联占用网络(CONet)来改进粗糙预测,相对于基线模型提高了约30%的性能。我们希望OpenOccupancy基准测试能促进周视占用感知算法的发展。

主要贡献

尽管目前对于语义占用网格感知越来越受到关注,但大多数相关基准都是针对室内场景设计的,SemanticKITTI 将占用感知扩展到驾驶场景,但其数据集规模相对较小且多样性有限,这影响了开发占用感知算法的泛化和评估。此外,SemanticKITTI只评估前视图的占用网格结果,而对于安全驾驶而言,周视感知更为关键。为解决这些问题,我们提出了OpenOccupancy,这是第一个用于周视语义占用感知的基准。在OpenOccupancy基准中引入了nuScenes-Occupancy,它将大规模的nuScenes数据集与密集的语义占用标注相结合。

6498e2c2-3a2e-11ee-9e74-dac502259ad0.png

如表1所示,nuScenes-Occupancy标注的场景和帧数比多约40倍和20倍。值得注意的是,通过人工直接标注大规模的占用标签几乎是不现实的。因此引入了Augmenting And Purifying (AAP)流程,以高效地标注和稠密的占用标签。

64b7a02c-3a2e-11ee-9e74-dac502259ad0.png

图1:nuScenes-Occupancy为nuScenes数据集中的所有关键帧提供了稠密的语义占用网格标签,在这里展示了标注的地面真值,体积大小为(40 × 512 × 512),网格大小为0.2米。

图1展示了稠密标注的可视化效果。为了促进未来研究,我们在OpenOccupancy基准中建立了基于相机、基于LiDAR和多模式的基线。实验结果显示,基于相机的方法在小物体(如自行车、行人、摩托车)方面表现更好,而基于LiDAR的方法在大型结构区域(如行驶表面、人行道)方面表现更优。值得注意的是,多模式基线通过自适应融合两种模态的中间特征,相对提高了基于相机和基于LiDAR方法的整体性能,分别提升了47%和29%。考虑到周围占用感知的计算负担,所提出的基线只能生成低分辨率的预测。为了实现高效的占用感知,我们提出了级联占用网络(CONet),在所提出的基线之上构建了一个从粗糙到精细的流程,相对提高了性能约30%。主要贡献总结如下:

提出了OpenOccupancy,这是第一个针对驾驶场景中周围占用感知的基准。

通过nuScenes数据集引入了AAP流程,它高效地标注和稠密化了周围语义占用标签,结果形成了第一个用于周围语义占用分割的数据集nuScenes-Occupancy。

我们在OpenOccupancy基准上建立了基于相机、基于LiDAR和多模式的基线。此外,我们引入了CONet来减轻高分辨率占用预测的计算负担,相对提高了基线性能约30%。

主要内容

周视语义占用网格感知

周视语义占用感知是指生成场景的完整3D表示,包括体积占用和语义标签,与前视图感知的单目范例不同,周视占用感知算法旨在在周围视图的驾驶场景中生成语义占用,具体而言,给定360度的输入Xi(例如LiDAR扫描或周围视图图像),感知算法需要预测周围的占用标签F(Xi) ∈ R D×H×W,其中D、H、W是整个场景的体积大小。值得注意的是,周视图的输入范围比前视觉传感器覆盖的范围大约多了5倍,因此,周视占用网格感知的核心挑战在于高效构建高分辨率的占用表示。

nuScenes-Occupancy

SemanticKITTI 是首个用于室外占据感知的数据集,但在驾驶场景方面缺乏多样性,并且仅评估前视感知,为了创建一个大规模的环境占据感知数据集,我们引入了nuScenes-Occupancy,它在nuScenes数据集的基础上添加了稠密的语义占用标注。作者引入了AAP(Augmenting And Purifying)流程来高效地标注和密集化占据标签。

整个AAP流程如算法1所示。

64e757e0-3a2e-11ee-9e74-dac502259ad0.png

如图2所示,伪标签对初始标注是补充的,而增强和纯化标签更密集和精确,值得注意的是增强和纯化标注中每个帧中约有40万个占据体素,比初始标注密集了约2倍。总之,nuScenes-Occupancy包含28130个训练帧和6019个验证帧,在每个帧中对占据的体素分配了17个语义标签。

65176872-3a2e-11ee-9e74-dac502259ad0.png

图2:初始标注、伪标注和增强纯化标注之间的对比,红圈和蓝圈突出显示增强标注更加密集和准确的区域。

OpenOccupancy基线

大多数现有的占据感知方法都是为前视感知而设计的,为了将这些方法扩展到周围的占据感知,需要对每个相机视角的输入进行单独处理,这是低效的。此外,两个相邻输出的重叠区域可能存在不一致性,为了缓解这些问题,我们建立了一致地从360度输入(例如LiDAR扫描或环视图像)中学习周围语义占据的基线,具体而言,为OpenOccupancy基准提出了基于相机的、基于LiDAR的和多模态的基线,如图3所示。

6535c9b6-3a2e-11ee-9e74-dac502259ad0.png

图3:三种提出的基线的整体架构,LiDAR分支利用3D编码器提取体素化的LiDAR特征,相机分支使用2D编码器学习环视图特征,然后将其转换为生成3D相机体素特征,在多模态分支中,自适应融合模块动态地集成两种模态的特征。所有三个分支都利用3D解码器和占据头来产生语义占据,在占据结果图中,红色和紫色圈圈标示出多模态分支可以生成更完整和准确的预测。

实验

在OpenOccupancy基准测试中,基于nuScenes-Occupancy评估周围语义占据感知性能,对提出的基线、CONet和现代占据感知算法进行全面实验。所有模型在8个A100 GPU上以8个批次大小进行训练,共训练24个时期。利用OpenOccupancy基准测试,我们分析了六种现代方法(MonoScene ,TPVFormer,3DSketch ,AICNet ,LMSCNet,JS3C-Net )以及提出的基线和CONet的周围占据感知性能,从表2的结果可以看出:

与单视图方法相比,周围占据感知范式表现出更好的性能。

提出的基线对周围占据感知具有适应性和可扩展性。

相机和LiDAR的信息相互补充,多模态基线显著提高了性能。

周视占据感知的复杂性在于高分辨率3D预测的计算负担,这可以通过提出的CONet来减轻。

657dcea0-3a2e-11ee-9e74-dac502259ad0.png

这里提供可视化结果(见图5)来验证CONet可以基于粗糙预测生成精细的占据网格结果。

65a2f45a-3a2e-11ee-9e74-dac502259ad0.png

图5:语义占据预测的可视化,第1行是周视图像。第2行和第3行显示了由多模态基线和多模态CONet生成的相机视图的粗糙和精细占据,第4行比较了它们的全局视图预测。

总结

本文提出了OpenOccupancy,这是首个用于驾驶场景中周视语义占据感知的基准测试,具体而言引入了nuScenes-Occupancy,它基于提出的AAP流水线扩展了nuScenes数据集,带有稠密的语义占据标注,在OpenOccupancy基准测试中建立了基于相机、基于LiDAR和多模态的基线。此外还提出了CONet来减轻高分辨率占据预测的计算负担。在OpenOccupancy基准测试中进行了全面的实验,结果显示基于相机和基于LiDAR的基线相互补充,而多模态基线进一步提高了性能,分别提高了47%和29%。此外所提出的CONet相对于基线提高了约30%,并且延迟开销最小。我们希望OpenOccupancy基准测试对于周视语义占据感知的发展有所帮助。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2548

    文章

    50646

    浏览量

    751780
  • 编码器
    +关注

    关注

    45

    文章

    3585

    浏览量

    134114
  • 视觉传感器
    +关注

    关注

    3

    文章

    247

    浏览量

    22855
  • 自动驾驶
    +关注

    关注

    783

    文章

    13674

    浏览量

    166104
  • LiDAR芯片
    +关注

    关注

    1

    文章

    17

    浏览量

    3206

原文标题:OpenOccupancy:一个用于周视语义占用网格感知的基准测试

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    未来已来,多传感器融合感知是自动驾驶破局的关键

    识别率,为车厂增加智能驾驶的核心竞争力。 此外, 多维像素还可以直接高效支持“占用网络” (Occupancy Network)算法。 占用网格是指将感知空间划分为
    发表于 04-11 10:26

    集成语义和多Agent 的网格资源发现模型

    将P2P技术应用到网格环境中,可为网格的可扩展性提供更好的解决方案。该文提出种基于P2P模式的网格资源发现模型,将资源的发现分为2 阶段
    发表于 04-22 09:37 9次下载

    基于感知网格的无线传感器网络动态采样策略_赵意

    基于感知网格的无线传感器网络动态采样策略_赵意
    发表于 03-19 19:25 0次下载

    基于语义与事务属性的QoS感知的服务优化选择

    服务级别协议(SLA)等级感知的服务选择是NP难题。针对服务选择中维度与粒度方面的问题,提出结合语义与事务属性的服务质量( QoS)感知的服务优化选择模型。该模型从语义链接匹配度、Qo
    发表于 12-14 10:16 0次下载
    基于<b class='flag-5'>语义</b>与事务属性的QoS<b class='flag-5'>感知</b>的服务优化选择

    基于语义的文本语义分析

    ,利用HowNet提供的情感词词典来进行文本的语义分析,对文本短语或词逐赋予情感值,然后用语义和义元相似度计算的方法,计算文本中词语的
    发表于 12-15 16:35 6次下载

    文看懂单电压基准与双电压基准区别

    本文主要详解单电压基准与双电压基准区别,分别从三拓扑结构,性能方面的不同以及占用的空间和成本方面来详细的解说。
    发表于 04-16 10:57 2w次阅读
    <b class='flag-5'>一</b>文看懂单电压<b class='flag-5'>基准</b>与双电压<b class='flag-5'>基准</b>区别

    套全新的手机系统测试基准

    同心协力的议题,却往往最具争议性,这实在是很讽刺的状况;在那些议题中,争议性最大的又莫过于性能基准测试(performance benchmarking)。幸好,我们正缓慢地朝正确的方向前进,但还需要
    发表于 09-16 15:47 400次阅读

    如何使用语义感知来进行图像美学质量评估的方法

    当前图像美学质量评估的研究主要基于图像的视觉内容来给出评价结果,忽视了美感是人的认知活动的事实,在评价时没有考虑用户对图像语义信息的理解。为了解决这问题,提出了种基于语义
    发表于 11-16 15:37 11次下载
    如何使用<b class='flag-5'>语义</b><b class='flag-5'>感知</b>来进行图像美学质量评估的方法

    MySQL基准测试和sysbench工具

    基准测试简介 1、什么是基准测试 数据库的基准测试
    的头像 发表于 01-06 16:01 1647次阅读
    MySQL<b class='flag-5'>基准</b><b class='flag-5'>测试</b>和sysbench工具

    结合监督学习的多层感知机模型

    现有的网格简化算法通常要求人为给定模型整体简化率或者设置几何、颜色、纹理等属性的约束,如何合理地设置这些阈值对没有经验的用户来说比较困难。文中结合监督学习的方法,构建多层感知机模型
    发表于 05-11 15:06 3次下载

    地平线推出业内首个感知NOA方案Pilot 3

    为了更好地提升智能驾驶体验,地平线推出了业内首个可对客户大规模交付的感知NOA方案——Horizon Matrix® Pilot 3 (以下简称Pilot 3),方案基于3颗高性能的征程3芯片
    的头像 发表于 05-06 14:23 2350次阅读

    介绍JavaScript数据网格组件

    FusionGrid是高度直观且可自定义的JavaScript数据网格组件,适用于网络和移动应用程序。它允许您在仪表板中构建数据网格,与
    的头像 发表于 08-20 16:37 1011次阅读

    语义分割数据集:从理论到实践

    语义分割是计算机视觉领域中的重要问题,它的目标是将图像或视频中的语义信息(如人、物、场景等)从背景中分离出来,以便于进行目标检测、识别和分类等任务。
    的头像 发表于 04-23 16:45 900次阅读

    自动驾驶中基于网格的交通场景感知介绍

    本文介绍了自动驾驶中基于网格的交通场景感知:研究综述。基于网格感知是移动机器人感知和导航的关键领域。
    发表于 08-03 11:51 524次阅读
    自动驾驶中基于<b class='flag-5'>网格</b>的交通场景<b class='flag-5'>感知</b>介绍

    深度学习图像语义分割指标介绍

    深度学习在图像语义分割上已经取得了重大进展与明显的效果,产生了很多专注于图像语义分割的模型与基准数据集,这些基准数据集提供了套统
    发表于 10-09 15:26 368次阅读
    深度学习图像<b class='flag-5'>语义</b>分割指标介绍