0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种通过视图合成增强预训练的2D扩散模型的可扩展技术

3D视觉工坊 来源:3DCV 2023-12-14 10:00 次阅读

1、导读

现有的3D物体检测方法通常需要使用完全注释的数据进行训练,而使用预训练的语义特征可以带来一些优势。然而,目前还没有利用扩散特征进行3D感知任务的研究。因此,我们提出了一种新的框架,通过视图合成任务来增强预训练的2D扩散模型的3D感知能力。该方法利用已知相对姿态的图像对进行训练,并通过扩散过程生成目标输出。此外,文章还介绍了如何将这些增强的特征用于3D物体检测,并通过引入辅助网络来保持特征质量。最后,文章通过实验证明了该方法在点对应和3D检测性能上的优越性。

2、研究内容

一种名为3DiffTection的新框架,该框架利用预训练的2D扩散模型来进行3D物体检测任务。该方法通过视图合成任务,将2D扩散特征增强为具有3D感知能力的特征。作者利用已知相对姿态的图像对进行特征提取和特征扩散过程,从而生成目标输出。文章还介绍了如何将这些增强的特征用于3D物体检测,并通过引入辅助控制网络来进一步适应目标任务和数据集。最后,作者通过多个合成视图生成检测提议,并通过非极大值抑制(NMS)来整合这些提议,从而提高检测性能。

3、贡献

介绍了一种通过视图合成增强预训练的2D扩散模型的可扩展技术,使其具有3D感知能力;

将这些特征适应于3D检测任务和目标领域;

利用视图合成能力通过集成预测进一步提高检测性能。

4、方法

e774878a-9a0c-11ee-8b88-92fbcf53809c.png

3DiffTection:它可以在3D物体检测任务中利用预训练的2D扩散模型。该方法的关键在于设计了一个视图合成任务,通过使用极线几何将源图像中的残差特征进行变形,从而增强了2D扩散特征的3D感知能力。通过去噪扩散过程,这些变形的特征有助于生成目标输出。我们的方法利用了具有已知相对姿态的图像对,这些图像对通常可以从视频数据中轻松获取。鉴于视频数据的不断增加,这使得我们的表示精炼解决方案具有高度的可扩展性。

4.1、2D扩散模型特征提取

在3DiffTection中,我们使用预训练的2D扩散模型作为特征提取器。扩散模型已经在图像分割等密集感知任务中展现出了强大的性能。我们利用这些模型学习到的语义特征,并通过视图合成任务增强这些特征的3D感知能力。通过提取源图像的残差特征,并利用极线几何将其映射到目标视图,我们能够生成目标输出。这样,我们就能够将预训练的2D扩散模型的特征转化为具有3D感知能力的特征。这种方法使得我们的模型能够更好地理解图像中的3D结构,并在3D目标检测任务中取得更好的性能。

4.2、3D感知融入扩散特征

e785a718-9a0c-11ee-8b88-92fbcf53809c.png

如何将3D感知融入扩散特征。具体而言,作者通过训练一个视图合成任务来增强预训练的2D扩散模型的3D感知能力。这个任务的关键是从源图像中提取残差特征,并使用极线几何将它们映射到目标视图上。通过这种映射,可以通过去噪扩散过程生成目标输出。这些经过映射的特征有助于增强模型对目标的生成能力。这种方法利用了具有已知相对姿态的图像对,这些图像对通常可以从视频数据中轻松获取。我们接下来利用这些增强的3D特征进行3D检测,通过在3D框注释下训练一个标准的检测头。虽然我们的模型的基线性能已经显示出对现有方法的改进,但我们的目标是进一步将训练好的特征适应目标任务和数据集,这可能与用于视图合成预训练的数据不同。

由于训练数据有限,直接微调模型来弥合任务和领域差距可能会导致性能下降。为了解决这个问题,作者引入了一个辅助的ControlNet,它有助于保持特征的质量。这个过程还保留了模型的视图合成能力。在测试时,我们通过从多个合成视图生成检测提议,并通过非极大值抑制(NMS)来合并这些提议,从而充分利用几何和语义能力。

5、实验结果

本研究采用了两种实验方法来评估提出的3DiffTection框架的性能。

第一种实验方法是在Omni3D-ARKitscene数据集上进行的。首先,使用预训练的2D扩散模型进行视图合成,以增强2D特征的3D感知能力。然后,使用训练好的3D检测头在3D边界框监督下对特征进行3D检测。为了进一步适应目标任务和数据集,引入了一个辅助的控制网络来维持特征质量。最后,通过生成多个合成视图的检测提议,并通过非最大抑制(NMS)进行整合,来进行3D检测。实验结果表明,与现有方法相比,3DiffTection在Omni3D-ARKitscene数据集上取得了显著的改进。

第二种实验方法是在跨数据集上进行的。首先,在Omni3D-ARKitscene数据集上训练了具有几何控制网络的3DiffTection模型,并仅在跨域数据集上训练了3D检测头。然后,将3DiffTection与CubeRCNN进行比较。实验结果显示,即使在目标域中没有对几何控制网络进行训练,3DiffTection仍然能够超越完全微调的CubeRCNN。

e79138d0-9a0c-11ee-8b88-92fbcf53809c.pnge79c73ee-9a0c-11ee-8b88-92fbcf53809c.pnge7a87068-9a0c-11ee-8b88-92fbcf53809c.pnge7b444ec-9a0c-11ee-8b88-92fbcf53809c.pnge7c220da-9a0c-11ee-8b88-92fbcf53809c.png

6、创新性

主要体现在以下几个方面:

引入了几何感知的稳定扩散特征:本研究通过在稳定扩散特征中引入几何感知,提高了3D目标检测的性能。通过训练几何控制网络,将相机姿态信息与扩散特征结合起来,实现了对3D空间的感知。这种几何感知的稳定扩散特征在目标检测任务中表现出更好的性能。

提出了基于视图合成的训练方法:本研究利用视图合成技术,通过生成新的视图来增强模型的泛化能力。通过训练模型生成与输入图像不同视角的合成图像,使得模型能够学习到更多的视角信息,从而提高了模型在不同数据集上的性能。

结合语义控制网络进行联合训练:本研究还引入了语义控制网络,通过与3D检测头部联合训练,进一步提高了2D和3D检测的性能。语义控制网络能够适应感知任务,并优化特征的使用,从而提高检测的准确性。

7、总结

我们提出了一种名为3DiffTection的新框架,该框架利用预训练的2D扩散模型增强了3D物体检测任务的性能。作者通过视图合成任务,将源图像中的残差特征提取出来,并利用极线几何将其变形到目标视图中,从而增强了2D扩散特征的3D感知能力。作者还通过训练一个标准的检测头来利用这些增强的特征进行3D检测。实验证明,这种方法在点对应和物体检测性能上都优于基准模型。此外,作者还介绍了一个辅助的控制网络,用于保持特征质量,并通过生成多个合成视图的检测提案来进一步提高检测性能。总体而言,作者的方法在3D物体检测任务中取得了显著的改进,并展示了其在不同数据集上的泛化能力。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NMS
    NMS
    +关注

    关注

    0

    文章

    9

    浏览量

    6049
  • 控制网络
    +关注

    关注

    0

    文章

    27

    浏览量

    9566

原文标题:英伟达最新发布!超越其它所有SOTA的3D目标检测

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    文详解知识增强的语言训练模型

    ,在实际应用场景中效果不好。为了解决这个问题,将知识注入到PLMs中已经成为个非常活跃的研究领域。本次分享将介绍三篇知识增强训练语言模型
    的头像 发表于 04-02 17:21 9670次阅读

    【大语言模型:原理与工程实践】大语言模型训练

    数据格式的转换、数据字段的匹配和整合等。通过数据级净化,可以进步提高数据的质量和可用性,为后续的数据分析和建模提供更有价值的数据支持。 在得到了大语言模型的数据之后,就是对其进行
    发表于 05-07 17:10

    探索一种降低ViT模型训练成本的方法

    其上的实验来评估性能,当每次实验的训练成本过高时,这不是一种扩展的方法。通过降低训练成本,缩短
    发表于 11-24 14:56

    为什么要使用训练模型?8优秀训练模型大盘点

    正如我们在本文中所述,ULMFiT使用新颖的NLP技术取得了令人瞩目的成果。该方法对训练语言模型进行微调,将其在WikiText-103数据集(维基百科的长期依赖语言建模数据集Wik
    的头像 发表于 04-04 11:26 2.4w次阅读
    为什么要使用<b class='flag-5'>预</b><b class='flag-5'>训练</b><b class='flag-5'>模型</b>?8<b class='flag-5'>种</b>优秀<b class='flag-5'>预</b><b class='flag-5'>训练</b><b class='flag-5'>模型</b>大盘点

    一种脱离训练的多尺度目标检测网络模型

    为提高卷积神经网络目标检测模型精度并增强检测器对小目标的检测能力,提出一种脱离训练的多尺度目标检测网络
    发表于 04-02 11:35 26次下载
    <b class='flag-5'>一种</b>脱离<b class='flag-5'>预</b><b class='flag-5'>训练</b>的多尺度目标检测网络<b class='flag-5'>模型</b>

    一种侧重于学习情感特征的训练方法

    transformers编码表示)的基础上,提岀了一种侧重学习情感特征的训练方法。在目标领域的练阶段,利用情感词典改进了BERT的
    发表于 04-13 11:40 4次下载
    <b class='flag-5'>一种</b>侧重于学习情感特征的<b class='flag-5'>预</b><b class='flag-5'>训练</b>方法

    HarmonyOS测试技术与实战-2D负载模型

    HDC 2021华为开发者大会 HarmonyOS测试技术与实战-2D负载模型
    的头像 发表于 10-23 15:19 1219次阅读
    HarmonyOS测试<b class='flag-5'>技术</b>与实战-<b class='flag-5'>2D</b>负载<b class='flag-5'>模型</b>

    如何实现更绿色、经济的NLP训练模型迁移

    NLP中,训练模型Finetune是一种非常常见的解决问题的范式。利用在海量文本上训练得到
    的头像 发表于 03-21 15:33 2231次阅读

    一种基于乱序语言模型训练模型-PERT

    由于乱序语言模型不使用[MASK]标记,减轻了训练任务与微调任务之间的gap,并由于预测空间大小为输入序列长度,使得计算效率高于掩码语言模型。PERT
    的头像 发表于 05-10 15:01 1568次阅读

    利用视觉语言模型对检测器进行训练

    ,到使用合成数据直接训练检测器再在真实数据上Finetune,再到通过定义
    的头像 发表于 08-08 15:33 1424次阅读

    什么是训练 AI 模型

    该向孩子展示这种生物的图像并描述其独有特征。 那么,如果要教台人工智能(AI)机器什么是独角兽,该从什么地方做起呢? 训练 AI 模型提供了解决方案。
    的头像 发表于 04-04 01:45 1483次阅读

    2D Transformer 可以帮助3D表示学习吗?

    训练2D图像或语言Transformer:作为基础Transformer模型,具有丰富的特征表示能力。作者选择了先进的2D Transf
    的头像 发表于 07-03 10:59 841次阅读
    <b class='flag-5'>2D</b> Transformer 可以帮助3<b class='flag-5'>D</b>表示学习吗?

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法。
    的头像 发表于 01-13 11:37 1097次阅读

    训练模型的基本原理和应用

    训练模型(Pre-trained Model)是深度学习和机器学习领域中的个重要概念,尤其是在自然语言处理(NLP)和计算机视觉(CV)等领域中得到了广泛应用。
    的头像 发表于 07-03 18:20 2981次阅读

    大语言模型训练

    能力,逐渐成为NLP领域的研究热点。大语言模型训练是这一技术发展的关键步骤,它通过在海量无标签数据上进行
    的头像 发表于 07-11 10:11 466次阅读