0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA拿下CVPR 2023 3D Occupancy预测第一名!

CVer 来源:机器之心 2023-06-21 14:04 次阅读

自动驾驶中的三维占用预测难题,一场比赛给出了解决方案。

道路错综复杂、交通工具形态各异、行人密集,这是当前城市道路交通的现状,也是自动驾驶领域面临的现实挑战。为了应对这一挑战,感知和理解三维环境至关重要。

在传统的三维物体检测任务中,前景物体通常由三维边界框表示。然而,这种方法存在一些弊端,一方面,现实世界的物体几何形状非常复杂,无法用简单的三维框表示;另一方面,这种方法容易忽略背景元素的感知。对于实现全面的 L4/L5 自动驾驶,传统的三维感知方法是远远不够的。

最近,端到端自动驾驶研讨会 (End-to-End Autonomous Driving Workshop) 联合视觉中心自动驾驶研讨会 (Vision-Centric Autonomous Driving Workshop) 在 CVPR 2023 上举办了自动驾驶挑战赛,其中就包括三维占用预测(3D occupancy prediction)赛道。

dab614dc-0ff1-11ee-962d-dac502259ad0.png

图 1 CVPR2023 自动驾驶挑战赛

三维占用预测是自动驾驶领域的新兴任务,要求对车辆行驶场景进行细粒度建模,对于实现自动驾驶的通用感知能力有着重要意义。比赛提供基于 nuScenes 数据集的大规模占用预测评估基准,对三维空间进行体素化表示,并在三维占用任务的基础上结合两项新任务:估计三维空间中体素的占据状态和语义信息。整个任务旨在在给定多视角图像的情况下对三维空间进行密集预测。

本次比赛是三维占用感知领域的首个国际顶尖权威赛事,吸引了业界和学界的广泛关注。比赛共有 149 个团队参与角逐,其中包括来自小米汽车,华为,42dot,海康威视的业界团队,也有来自北京大学,浙江大学,中国科学院等科研院所的学术界团队。

最终,来自英伟达 (NVIDIA) 和南京大学的团队在激烈的竞争中脱颖而出,同时赢得了三维占用预测任务的冠军和最佳创新奖两个重磅奖项。下面我们来看一下冠军团队的获奖方案。

冠军方案

不同于以往比赛对于数据利用方面的限制,本次自动驾驶比赛允许参赛者使用额外的开源数据或者模型进行数据驱动算法的探索。因此在本次比赛中,英伟达和南大的研究人员在设计高效的模型结构的基础上,也在大模型的训练方面进行了探索,将模型参数扩展到 10 亿量级,达到过去常用 3D 感知模型的 10 倍以上。

凭借先进的模型结构设计和大模型强大的表征能力,该团队提出的方案 FB-OCC 实现了单模型 50+% mIoU 的出色性能,并最终取得了 54.19% mIoU 的最佳成绩。

网络架构

FB-OCC 的主要创新在于使用了前向和后向投影相结合的三维空间建模方式。

如图 2 所示,在前向投影过程中,参考 LSS 投影范式,FB-OCC 会根据每个像素的深度分布生成场景对应的三维体素 (3D voxel) 表征。同时,由于 LSS 范式生产的特征倾向于稀疏且不均匀,FB-OCC 引入反向投影机制来优化稀疏的场景特征。

db056b86-0ff1-11ee-962d-dac502259ad0.png

图 2 网络架构图

此外,考虑到计算负担,FB-OCC 在方向投影的过程中会将场景特征压缩为鸟瞰图 (BEV) 表征,最后将三维体素表征和鸟瞰图表征相结合。结合后得到的三维体素特征在后续还会经过额外的体素编码器 (Voxel encoder) 来增强特征感受野。

大规模模型探索

增加模型参数量是提升模型精度的最便捷的方式,但在三维视觉感知领域,研究人员发现更大规模的模型更容易产生过拟合现象,而现有主流感知模型的参数仍在 100M 量级。

在本次比赛中,FB-OCC 模型尝试使用 10 亿参数量级的 InternImage 主干网络,模型总体参数量是现有常用模型的十倍以上。大模型训练通常需要大数据与之匹配,但受限于自动驾驶数据采集标注的高昂成本,开源的三维感知数据集并不足以支撑 10 亿参数规模的模型。

针对这个痛点,FB-OCC 使用了多轮预训练机制。由于可获取的二维感知数据集远远丰富于三维感知数据,FB-OCC 首先在大规模开源数据集 Objects365 上进行通用目标检测预训练。然后,如图 3 所示,FB-OCC 引入深度和语义联合预训练来建立二维感知和三维感知的桥梁。

db11d3c6-0ff1-11ee-962d-dac502259ad0.png

图 3 深度和语义联合预训练

为了生成语义分割标签,FB-OCC 还使用 Meta 的 SAM 模型来进行自动标注,分别使用框提示和点提示来生成不同类别的语义。经过多轮预训练后,大规模模型在占用感知任务上可以避免严重的过拟合问题。

实验结果

研究团队在实验中证明了 FB-OCC 的出色性能。如表 1 所示,FB-OCC 在 ResNet-50 主干网络以及 256x704 分辨率的输入图像下,借助时序融合、深度监督等技术,模型性能从最初的 23.12% mIoU 增长至 42.06% mIoU。

db467086-0ff1-11ee-962d-dac502259ad0.png

表 1 小规模模型的消融实验结果

为了获得更好的精度,FB-OCC 使用了更大参数量的模型。如表 2 所示,在 400M 的模型规模下,FB-OCC 获得了单模型 50+% mIoU 的效果。借助 InternImage 主干网络,10 亿参数量级的模型进一步取得了 52.79% 的极佳效果。

db921b30-0ff1-11ee-962d-dac502259ad0.png

表 2 不同模型规模下的效果

最终,FB-OCC 多个模型的集成结果取得了目前测试集上最高的准确率 ——54.19%,赢得了比赛的冠军并被授予最佳创新奖。FB-OCC 为自动驾驶中复杂的三维占用预测问题贡献了新的思路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4930

    浏览量

    102794
  • 三维
    +关注

    关注

    1

    文章

    495

    浏览量

    28941
  • 自动驾驶
    +关注

    关注

    783

    文章

    13679

    浏览量

    166113

原文标题:NVIDIA拿下CVPR 2023 3D Occupancy预测第一名!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    祝贺 | 鹏城实验室开源 EDA 团队勇夺 ICCAD 竞赛第一名

    的 iEDA 3Dplacer 团队获得了该项赛事三大赛道之第一名。本届 CAD Contest@ICCAD 算法竞赛共有来自国内外知名高校与研究机构的166 支队伍参与,如东京大学、台湾大学
    发表于 12-13 18:29

    口碑最好的国产手机,华为mate9排第五!第一名你认可吗!

    近日,安兔兔发布了2017年1月安卓手机好评TOP10,从发布的榜单来看,基本都是近期比较热门的手机,这里就为大家盘点下。第一名:小米MIX第二/三3/
    发表于 02-13 11:57 7162次阅读

    三星认为自家手机才是手机拍照的第一名

    昨晚华为发布的P30 Pro手机登上DxOMark(以下简称DxO)后置拍照排行榜第一名的位置。三星对此表示不服,今天三星官方微博将Galaxy S10+ DxO前置拍照得分和后置得分加在起,总分超过华为了P30 Pro,他们认为自己才是手机拍照
    发表于 03-28 09:42 617次阅读

    小米10Pro AI相机详解 如何铸就DxOMark排行榜第一名

    近段时间发布的小米10系列影像能力得到了颇多关注,其中小米10 Pro参与了DxOMark测试,得分为124分,是目前DxOMark排行榜第一名,表现优秀。
    的头像 发表于 02-19 16:21 1.1w次阅读

    iPhone 11依旧占据手机销量的第一名

    最近看到双11战况,好像最卖力的品牌就是苹果了,因为iPhone 11直牢牢占据了手机销量的第一名,4999元不占优势就4799元,大有舍我其谁的架势。而在其之后,都是1000多元的性价比手机。
    的头像 发表于 11-10 10:17 2050次阅读

    五菱宏光mini EV以2万辆的销量夺回国内新能源汽车市场销量第一名

    10月份公布的新能源汽车销量数据显示,五菱宏光mini EV销量高达20631辆,高居国内新能源汽车销量第一名,其销量比第二的特斯拉model3高近七成。 特斯拉model3自从去年
    的头像 发表于 11-16 15:24 3074次阅读

    小米电视2020年出货量位列国内第一名

    昨天上午,小米电视通过官方微博宣布,小米电视2020年出货量位列国内第一名,并连续2年稳居中国出货第一名
    的头像 发表于 02-23 09:30 5285次阅读

    Python能否成为编程语言榜单的第一名

    Python 在不久的将来或将超越C语言成为榜单的第一名
    的头像 发表于 06-15 09:31 1777次阅读
    Python能否成为编程语言榜单的<b class='flag-5'>第一名</b>?

    中国芯片第一名是谁

    在中国比较厉害的芯片公司有华为海思、汇顶科技、比特大陆、清华紫光、中兴微电子等,那么中国芯片第一名是谁?
    的头像 发表于 12-16 17:08 6w次阅读

    京东618会议平板榜,新锐品牌会参谋(leaderhub)第一名

    京东618会议平板榜,新锐互联网爆款品牌会参谋细分品类多项第一名 京东618巅峰决战已经结束!各大厂商也拿出看家本领,毫不吝啬地发放各种福利、优惠,只为在被誉为“消费风向标”的京东排行榜爆发,拿下
    的头像 发表于 06-21 18:52 2721次阅读

    NVIDIA 3D MoMa:基于2D图像创建3D物体

    可逆渲染流程 NVIDIA 3D MoMa 将于本周在新奥尔良举行的计算机视觉和模式识别会议 CVPR 上亮相。
    的头像 发表于 06-23 11:00 1254次阅读

    NVIDIA Research 在 CVPR 上赢得自动驾驶挑战赛并获得创新奖

    新研究成果带来实现安全自动驾驶系统所需的先进 3D Occupancy 预测NVIDIA 以自动驾驶开发大赛 3D
    的头像 发表于 08-24 17:10 462次阅读
    <b class='flag-5'>NVIDIA</b> Research 在 <b class='flag-5'>CVPR</b> 上赢得自动驾驶挑战赛并获得创新奖

    华润微电子以第一名的成绩荣获新吴区区长质量奖

    近日,无锡高新区(新吴区)召开2023年度高质量发展总结暨2024年工作推进会,会议隆重表彰了新吴区区长质量奖单位,华润微电子以第一名的成绩荣获新吴区区长质量奖。
    的头像 发表于 04-07 09:19 605次阅读
    华润微电子以<b class='flag-5'>第一名</b>的成绩荣获新吴区区长质量奖

    润和软件连续四年蝉联数字业务类解决方案市场第一名

    ,连续四年蝉联数字业务类解决方案市场第一名。在细分领域:数字信贷系统解决方案子市场持续保持第一名,数字银行解决方案子市场稳居第二,开放银行解决方案子市场上升至第三。   数字业务类
    的头像 发表于 07-31 10:10 502次阅读

    软通动力荣获2023年中国IT服务市场第一名

    近日,赛迪顾问最新发布《2023-2024年中国IT服务市场研究年度报告》。报告中,软通动力凭借在数字化转型浪潮中卓越的数字化能力和表现,持续领跑IT服务市场,位列2023年中国IT服务市场第一名
    的头像 发表于 07-31 10:18 391次阅读