0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用自监督学习重建动态驾驶场景

NVIDIA英伟达企业解决方案 来源:未知 2023-12-16 16:05 次阅读

wKgaomV9W2eACTqvAI2RUKtEaQ8569.gif

无论是单调的高速行车,还是平日的短途出行,驾驶过程往往平淡无奇。因此,在现实世界中采集的用于开发自动驾驶汽车(AV)的大部分训练数据都明显偏向于简单场景。

这给部署鲁棒的感知模型带来了挑战。自动驾驶汽车必须接受全面的训练、测试和验证,以便能够应对复杂的场景,而这需要大量涵盖此类场景的数据。

在现实世界中,收集此类场景数据要耗费大量时间和成本。而现在,仿真提供了另一个可选方案。但要大规模生成复杂动态场景仍然困难重重。

在近期发布的一篇论文中,NVIDIA Research 展示了一种基于神经辐射场(NeRF)的新方法——EmerNeRF 及其如何使用自监督学习准确生成动态场景。通过自监督方法训练,EmerNeRF 在动静态场景重建上的表现超越了之前其他 NeRF 方法。详细情况请参见 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

wKgaomV9W2iAWIQRAIG3gjsjUmk047.gif

wKgaomV9W2qAEBhsAHW-H-Nc2wI223.gif

wKgaomV9W2uADx4ZAGFS9lTdEQ0746.gif

图 1. EmerNeRF 重建动态驾驶场景的示例

相比其他 NeRF 重建方法,EmerNeRF 的动态场景重建准确率高出 15%,静态场景高出 11%。新视角合成的准确率也高出 12%。

打破 NeRF 方法的局限性

NeRF 将一组静态图像重建成逼真的 3D 场景。这使得依据驾驶日志重建用于 DNN 训练、测试验证的高保真仿真环境成为可能。

然而,目前基于 NeRF 的重建方法在处理动态物体时十分困难,而且实践证明难以扩展。例如有些方法可以生成静态和动态场景,但它们依赖真值(GT)标签。这就意味着必须使用自动标注或人工标注员先来准确标注出驾驶日志中的每个物体。

其他 NeRF 方法则依赖于额外的模型来获得完整的场景信息,例如光流。

为了打破这些局限性,EmerNeRF 使用自监督学习将场景分解为静态、动态和流场(flow fields)。该模型从原始数据中学习前景、背景之间的关联和结构,而不依赖人工标注的 GT 标签。然后,对场景做时空渲染,并不依赖外部模型来弥补时空中的不完整区域,而且准确性更高。

wKgaomV9W22ANZJBAIreJrPM29Q814.gif

图 2. EmerNeRF 将图 1 第一段视频中的场景分解为动态场、静态场和流场

因此,其他模型往往会产生过于平滑的背景和精度较低的动态物体(前景),而 EmerNeRF 则能重建高保真的背景及动态物体(前景),同时保留场景的细节。

wKgaomV9W22AEIs2AAHQ9VA5HZs560.png

表 1. 将 EmerNeRF 与其他基于 NeRF 的动态场景重建方法进行比较后的评估结果,分为场景重建性能和新视角合成性能两个类别

wKgaomV9W22AfcY9AAA2G6E-KP4237.png

表 2. 将 EmerNeRF 与其他基于 NeRF 的静态场景重建方法进行比较后的评估结果

EmerNeRF 方法

EmerNeRF 使用的是自监督学习,而非人工注释或外部模型,这使得它能够避开之前方法所遇到的难题。

wKgaomV9W26AEUZHAAIDIitNPLA183.png

图 3.EmerNeRF 分解和重建管线

EmerNeRF 将场景分解成动态和静态元素。在场景分解的同时,EmerNeRF 还能估算出动态物体(如汽车和行人)的流场,并通过聚合流场在不同时间的特征以进一步提高重建质量。其他方法会使用外部模型提供此类光流数据,但通常会引入偏差。

通过将静态场、动态场和流场结合在一起,EmerNeRF 能够充分表达高密度动态场景,这不仅提高了重建精度,也方便扩展到其他数据源。

使用基础模型加强语义理解

EmerNeRF 对场景的语义理解,可通过(视觉)基础大模型监督进一步增强。基础大模型具有更通用的知识(例如特定类型的车辆或动物)。EmerNeRF 使用视觉 Transformer(ViT)模型,例如 DINO, DINOv2,将语义特征整合到场景重建中。

这使 EmerNeRF 能够更好地预测场景中的物体,并执行自动标注等下游任务。

wKgaomV9W2-AXLGcAEMAJKXvMk4609.gif

图 4. EmerNeRF 使用 DINO 和 DINOv2 等基础模型加强对场景的语义理解

不过,基于 Transformer 的基础模型也带来了新的挑战:语义特征可能会表现出与位置相关的噪声,从而大大限制下游任务的性能。

wKgaomV9W3CAHehyAD0gOpmySM4007.gif

图 5. EmerNeRF 使用位置嵌入消除基于 Transformer 的基础模型所产生的噪声

为了解决噪声问题,EmerNeRF 通过位置编码分解来恢复无噪声的特征图。如图 5 所示,这样就解锁了基础大模型在语义特征上全面、准确的表征能力。

评估 EmerNeRF

正如 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision 中所述,研究人员整理出了一个包含 120 个独特场景的数据集来评估 EmerNeRF 的性能,这些场景分为 32 个静态场景、32 个动态场景和 56 个多样化场景,覆盖了高速、低光照等具有挑战性的场景。

然后根据数据集的不同子集,评估每个 NeRF 模型重建场景和合成新视角的能力。

如表 1 所示,据此,EmerNeRF 在场景重建和新视角合成方面的表现始终明显优于其他方法。

EmerNeRF 的表现还优于专门用于静态场景的方法,这表明将场景分解为静态和动态元素的自监督分解既能够改善静态重建,还能够改善动态重建。

总结

自动驾驶仿真只有在能够准确重建现实世界的情况下才会有效。随着场景的日益动态化和复杂化,对保真度的要求也越来越高,而且更难实现。

与以前的方法相比,EmerNeRF 能够更准确地表现和重建动态场景,而且无需人工监督或外部模型。这样就能大规模地重建和编辑复杂的驾驶数据,解决目前自动驾驶汽车训练数据集的不平衡问题。

NVIDIA 正迫切希望研究 EmerNeRF 带来的新功能,如端到端驾驶、自动标注和仿真等。

如要了解更多信息,请访问 EmerNeRF 项目页面并阅读 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

了解更多

  • 适用于自动驾驶汽车的解决方案

    https://www.nvidia.cn/self-driving-cars/

  • EmerNeRF 项目页面

    https://emernerf.github.io/

  • 阅读 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision.

    https://arxiv.org/abs/2311.02077

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”扫描下方海报二维码,立即注册 GTC 大会


原文标题:使用自监督学习重建动态驾驶场景

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3743

    浏览量

    90825

原文标题:使用自监督学习重建动态驾驶场景

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    时空引导下的时间序列监督学习框架

    【导读】最近,香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章,相比原来的TS2Vec等时间序列表示学习工作,核心在于提出了将空间信息融入到预训练阶段,即在预训练阶段
    的头像 发表于 11-15 11:41 121次阅读
    时空引导下的时间序列<b class='flag-5'>自</b><b class='flag-5'>监督学习</b>框架

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习,还包括对语言的深层次理解,如文化背景、语境含义和情感色彩等。 监督学习:模型采用
    发表于 08-02 11:03

    基于大模型的仿真系统研究一——三维重建大模型

    问题,赛目推出了基于大模型的仿真系统,利用机器学习、深度学习等人工智能技术,不仅推出自动标注大模型、多模态检测大模型和场景生成大模型等模块,并且引入三维重建大模型加强渲染画面真实性。
    的头像 发表于 07-30 14:51 1403次阅读
    基于大模型的仿真系统研究一——三维<b class='flag-5'>重建</b>大模型

    【《大语言模型应用指南》阅读体验】+ 基础篇

    章节最后总结了机器学习的分类:有监督学习、无监督学习、半监督学习监督学习和强化
    发表于 07-25 14:33

    神经网络如何用无监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模式或规律,从而提取有用的特征表示。这种训练方式对于大规模未
    的头像 发表于 07-09 18:06 696次阅读

    深度学习中的无监督学习方法综述

    应用中往往难以实现。因此,无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学习方法,包括自编码器、生成对抗网络、聚类算法等,并分析它们的原理、应用
    的头像 发表于 07-09 10:50 501次阅读

    标贝数据采集标注在自动驾驶场景中落地应用实例

    AI数据服务作为人工智能和机器学习的基础,在自动驾驶领域中有着重要地位。与其他人工智能应用场景相比,自动驾驶的落地场景相对复杂,想要让汽车本
    的头像 发表于 05-28 14:22 470次阅读
    标贝数据采集标注在自动<b class='flag-5'>驾驶</b><b class='flag-5'>场景</b>中落地应用实例

    康谋分享 | aiSim5仿真场景重建感知置信度评估(三)

    aiSim5能重建高精度的赛道、车库、高速公路等真实交通场景,用于测试和训练ADAS/AD系统。通过全局行动日志,能将驾驶数据转化为场景重建
    的头像 发表于 05-08 16:59 2394次阅读
    康谋分享 | aiSim5仿真<b class='flag-5'>场景</b><b class='flag-5'>重建</b>感知置信度评估(三)

    机器学习基础知识全攻略

    监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。Y = f (X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。
    发表于 02-25 13:53 211次阅读
    机器<b class='flag-5'>学习</b>基础知识全攻略

    OpenAI推出Sora:AI领域的革命性突破

    大模型的核心技术是自然语言处理(NLP)和深度学习。具体而言,它基于Transformer架构,使用了大规模无监督学习方法,例如回归语言建模和掩码语言建模,来训练一个庞大的神经网络模型。
    发表于 02-21 16:36 988次阅读
    OpenAI推出Sora:AI领域的革命性突破

    2024年AI领域将会有哪些新突破呢?

    传统的机器学习需要大量的标记数据进行训练,但监督学习可以通过无监督的方式从大规模未标记的数据中学习到更有用的表示形式,从而提高模型的性能。
    的头像 发表于 01-24 09:58 1950次阅读

    基于神经辐射场的监督多相机占用预测

    本研究提出了一种监督的多摄相机3D占据预测方法,名为OccNeRF。该方法旨在解决无界场景的建模问题。
    的头像 发表于 01-02 14:53 422次阅读
    基于神经辐射场的<b class='flag-5'>自</b><b class='flag-5'>监督</b>多相机占用预测

    基于transformer和监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 1457次阅读
    基于transformer和<b class='flag-5'>自</b><b class='flag-5'>监督学习</b>的路面异常检测方法分享

    监督域自适应场景:基于检索增强的情境学习实现知识迁移

    本文对比了多种基线方法,包括无监督域自适应的传统方法(如Pseudo-labeling和对抗训练)、基于检索的LM方法(如REALM和RAG)和情境学习方法(如In-context learning)。
    发表于 12-05 14:14 564次阅读
    无<b class='flag-5'>监督</b>域自适应<b class='flag-5'>场景</b>:基于检索增强的情境<b class='flag-5'>学习</b>实现知识迁移

    动态场景下的监督单目深度估计方案

    监督单目深度估计的训练可以在大量无标签视频序列来进行,训练集获取很方便。但问题是,实际采集的视频序列往往会有很多动态物体,而监督训练本身
    发表于 11-28 09:21 676次阅读
    <b class='flag-5'>动态</b><b class='flag-5'>场景</b>下的<b class='flag-5'>自</b><b class='flag-5'>监督</b>单目深度估计方案