0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

读者理解:LEAP泛化到新的物体类别和场景

3D视觉工坊 来源:3D视觉工坊 2023-10-17 15:46 次阅读

摄像机姿态对于多视角三维建模是否必要?现有的方法主要假设可以获得准确的摄像机姿态。虽然这个假设对于密集视图可能成立,但对于稀疏视图,准确估计摄像机姿态常常是困难的。作者的分析显示,噪声估计的姿态会导致现有稀疏视图三维建模方法的性能下降。为了解决这个问题,作者提出了LEAP,一种新颖的无姿态方法,挑战了摄像机姿态不可或缺的普遍观念。LEAP舍弃了基于姿态的操作,从数据中学习几何知识。LEAP配备了一个神经体积,该体积在场景之间共享,并且通过参数化编码几何和纹理先验。对于每个输入的场景,作者通过按特征相似性驱动的方式聚合2D图像特征来更新神经体积。更新后的神经体积被解码为辐射场,从而可以从任意视点合成新的视图。通过对物体为中心和场景级别的数据集进行实验,作者展示了LEAP在使用最先进的姿态估计器预测的姿态时显著优于先前的方法。值得注意的是,LEAP的性能与使用真实姿态的先前方法相当,同时比PixelNeRF运行速度快400倍。作者还展示了LEAP泛化到新的物体类别和场景,并且学习的知识与极线几何密切相关。

读者理解:

LEAP方法:一种新的三维建模方法,可以从稀疏的视图中重建高质量的三维模型,而不需要知道相机的姿态(位置和方向)。这种方法利用了深度神经网络和几何约束,可以处理任意数量和分布的视图,甚至是单张图片。

与现有的三维建模方法相比,LEAP有以下优势:

不需要相机姿态信息,可以处理任意视角的图片。

可以从极少量的视图中重建出高质量的三维模型,甚至是单张图片。

可以处理不同尺度、不同光照、不同背景的图片,具有很强的泛化能力。

可以实现实时的三维建模,只需要几秒钟就可以生成三维模型。

LEAP实验:作者在多个数据集上进行了实验,包括ShapeNet、PASCAL3D+、Pix3D和自采集数据集。实验结果表明,LEAP在三维重建质量、运行速度和泛化能力方面都优于现有的方法。作者还展示了一些LEAP生成的三维模型的可视化效果。

1 引言

本文介绍了一种基于神经辐射场的3D建模方法LEAP,其与传统方法不同的是摒弃了使用摄像机姿态的操作,并通过学习数据中与姿态相关的几何知识和表示来进行建模。LEAP使用神经音量来初始化辐射场,并通过聚合方式更新神经音量。而在聚合2D图像特征时,LEAP采用注意力机制而非摄像机姿态来确定待聚合的像素。此外,LEAP还通过多视角编码器来提高非规范视角图像特征的一致性。训练中,LEAP使用真实的摄像机姿态生成2D渲染图像,并通过2D重建损失进行优化。实验结果表明LEAP在多种数据集上表现出了优越的性能、快速的推理速度、强大的泛化能力以及易解释的先验知识。这里也推荐「3D视觉工坊」新课程彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。

03cbe4ce-6cc1-11ee-939d-92fbcf53809c.png

2 相关工作

本文主要介绍了两个与NeRF(Neural Radiance Fields)相关的工作,分别是针对稀疏视角输入的NeRF变体和稀疏视角相机姿态估计。针对NeRF的稀疏视角输入,有两种不同的方法:一种是针对特定场景的NeRF,通过从头开始优化辐射场来实现;另一种是通用的NeRF变体,通过预测2D图像特征条件下的辐射场来实现。然而,这些方法在推理3D点之间关联性和假设获取地面真实相机姿态方面存在一些局限性。而LEAP方法具有3D推理能力,在没有姿态的情况下可以处理图像。稀疏视角相机姿态估计是一个具有挑战性的问题,相比于密集视角,由于图像之间的最小或缺失重叠,对于准确的相机姿态估计来说,跨视角对应线索的形成十分困难。除了传统的基于密集视角的相机姿态估计技术的局限性外,还有一些方法通过引入能量模型、多视图信息和预训练模型等方法来提高姿态估计的准确性。然而,LEAP方法不需要专门的相机姿态估计模块,不受相机姿态估计的影响,可以更接近使用地面真实姿态的结果。对于没有准确或没有相机姿态的NeRF建模,有一些方法通过将相机姿态作为可调参数,并与辐射场一起进行优化来解决该问题。而LEAP方法通过3D感知的设计和基于特征相似性的2D-3D信息映射来消除对相机姿态的依赖,从而得到与使用地面真实姿态更接近的结果。

03e193f0-6cc1-11ee-939d-92fbcf53809c.png

3 方法

本文介绍了LEAP方法的任务形式化和概述。给定一组k个场景的2D图像观测值,表示为{ |i = 1,..., k},LEAP预测了一个神经辐射场,可以从任意目标视点合成一张2D图像。需要注意的是,在我们的稀疏源视图设置中,由于宽基线相机拍摄的视图数量通常小于5,并且这些视图在推理过程中没有任何相关的相机姿态信息。

03f8a6d0-6cc1-11ee-939d-92fbcf53809c.png

3.1 模型架构

LEAP首先从所有视角提取2D图像特征,使用一个DINOv2初始化的ViT作为特征提取器,以建模跨视角相关性。然后,LEAP引入了一个可学习的神经体积,对几何和纹理先验进行编码,并在所有场景中充当初始的3D表示。对于每个场景,LEAP通过查询多视图特征,将2D信息映射到3D领域,更新了神经体积,并预测了辐射场。具体来说,LEAP通过多视图图像编码器实现了对规范视图选择的感知,并通过捕捉交叉视角相关性来改善特征的一致性。接下来,LEAP引入了一个2D-3D信息映射模块,使用Transformer层对特征进行更新和整合,并进行了多次的2D-3D信息映射,以粗到细的方式重建对象的潜在体积。最后,LEAP使用更新后的神经体积预测了基于体素的神经辐射场,然后利用体积渲染技术生成渲染图像和对象掩码。总体来说,LEAP的模型架构可以在没有姿态信息的情况下,通过特征一致性和2D-3D信息映射来实现对场景的建模和图像合成。

3.2 LEAP的训练与推理

LEAP通过光度损失函数在没有任何3D监督的情况下对渲染结果和输入之间进行训练。首先定义了应用于RGB图像的损失函数LI,其中 = (ˆ, ) + (ˆ, )。其中L_{mse}I_{i}(ˆ分别表示原始图像和渲染后的图像,λp是用于平衡损失函数的超参数,Lp是感知损失函数(Johnson等,2016)。然后定义了应用于密度掩模的损失函数LM,即 = (ˆ, ),其中ˆ和分别表示原始和渲染后的密度掩模。最终损失函数定义为L = + ˆ,其中是用于平衡权重的超参数。如果掩模不可用,则只使用 。推断和评估。在推断过程中,LEAP在不依赖于任何姿态的情况下预测辐射场。为了评估新视角合成的质量,作者使用测试相机姿态在特定视点下渲染辐射场。

4 实验

本文介绍了LEAP方法在不同类型的数据集上进行的评估实验,并给出了实现细节和数据集说明。在实验中,LEAP表现出相对于其他基线模型的更好性能,包括更高的PSNR和更低的LPIPS值。此外,LEAP还展示了强大的泛化能力,能够适应不同几何和纹理特性的对象。LEAP还在场景级别数据集上取得了较好的结果,在性能上超过了PixelNeRF和与SPARF相媲美。该研究还进行了消融实验,探索了LEAP模型中各个组成部分的影响,并对LEAP的解释进行了可视化展示。结果表明,LEAP方法有效地利用多视角信息进行3D建模。这里也推荐「3D视觉工坊」新课程彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》

03ff0dc2-6cc1-11ee-939d-92fbcf53809c.png

040dd1fe-6cc1-11ee-939d-92fbcf53809c.png

0420ca8e-6cc1-11ee-939d-92fbcf53809c.png

04257e62-6cc1-11ee-939d-92fbcf53809c.png

5 总结

本文提出了一种名为LEAP的无姿势方法,用于从一组非定姿稀疏视图图像进行三维建模。通过适当设置三维坐标并聚合二维图像特征,LEAP展示了令人满意的新视角合成质量。在我们的实验中,LEAP在从物体居中到场景级别,从合成图像到真实图像,以及从小规模到大规模数据的范围内,与使用估计姿势或噪声姿势的先前基于姿势的方法相比,始终表现出更好的性能。LEAP还与使用基准真实姿势的先前方法的版本取得了可比较的结果。此外,LEAP展示了强大的泛化能力,快速推理速度和可解释的学习知识。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • LEAP
    +关注

    关注

    0

    文章

    9

    浏览量

    8194
  • 模型
    +关注

    关注

    1

    文章

    3267

    浏览量

    48923
  • 二维图像
    +关注

    关注

    0

    文章

    9

    浏览量

    7460

原文标题:读者理解:

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    模块仪器的技术原理和应用场景

    。 二、应用场景 自动测试系统:模块仪器在自动测试系统中发挥着重要作用,可以适应多种测试需求,提高测试效率和准确性。它们通常由软件驱动,便于集成
    发表于 11-28 15:09

    cogo商城对轻量化LEAP的研究

    cogo商城对轻量化LEAP的研究LEAP(Lightweight Extensible Agent Platform)是JADE运行在J2ME/CLDC下的版本,专门在手持设备等资源受限的环境中
    发表于 03-22 17:56

    号外号外 Magic Leap造假了!

    《The Information》爆出了一则重磅消息:Magic Leap造假了!  Magic Leap之前可以说是AR界的技术担当。今年VR领域非常火爆,但AR领域的产品除了Meta、Magic
    发表于 12-13 15:58

    在网是什么?

    的普遍共识。ITU-T 、3GPP、ETSI 等相关标准组织都已经启动了在网相关的研究,在网在全球正在从设想变成现实,从局部应用变为规模推广。
    发表于 10-10 09:12

    不同类别的电池是如何回收的?

    不同类别的电池是如何回收的? 电池为我们的汽车、可移动电子设备及每天使用的物体提供电力。我们甚至可以用植物来制造电池。在这个越来越机动的世界上,电
    发表于 11-04 16:22 819次阅读

    LEAP,LEAP是什么意思

    LEAP,LEAP是什么意思 不及物动词 vi. 1.
    发表于 03-10 11:34 3786次阅读

    基于多类别语义词簇的新闻读者情绪分类

    分析和研究文本读者情绪有助于发现互联网的负面信息,是舆情监控的重要组成部分。考虑引起读者不同情绪主要因素在于文本的语义内容,如何抽取文本语义特征因此成为一个重要问题。针对这一问题,提出
    发表于 12-13 16:40 4次下载
    基于多<b class='flag-5'>类别</b>语义词簇的新闻<b class='flag-5'>读者</b>情绪分类

    Leap Motion开发教程之Leap Motion官方中文开发文档资料免费下载

    实时获取它们的位置、手势和动作。Leap Motion 的可视范围是一个倒金字塔,塔尖在设备中心。[这个很好理解,传感器一般都这样]Leap Motion 的可工作范围大约在设备前方的从 25
    发表于 10-18 08:00 14次下载
    <b class='flag-5'>Leap</b> Motion开发教程之<b class='flag-5'>Leap</b> Motion官方中文开发文档资料免费下载

    如何理解是深度学习领域尚未解决的基础问题

    如何理解是深度学习领域尚未解决的基础问题之一。为什么使用有限训练数据集优化模型能使模型在预留测试集上取得良好表现?这一问题距今已有 50 多年的丰富历史,并在机器学习中得到广泛研究。
    的头像 发表于 04-08 17:56 2667次阅读
    如何<b class='flag-5'>理解</b><b class='flag-5'>泛</b><b class='flag-5'>化</b>是深度学习领域尚未解决的基础问题

    智能零售场景中的图像分类技术综述

    智能零售场景中往往会使用到图像分类技术来识别商品,然而实际场景中并不是所有岀现的物体都是已知的,未知的物体会干扰场景中的模型正常运行。针对智
    发表于 06-07 11:42 15次下载

    iNeRF对RGB图像进行类别级别的物体姿态估计

    我们提出了iNeRF,一个通过 “反转 ”神经辐射场(NeRF)来进行无网格姿势估计的框架。NeRFs已经被证明对合成真实世界场景物体的逼真的新视图非常有效。在这项工作中,我们研究了是否可以通过
    的头像 发表于 08-10 11:37 1484次阅读

    三维场景点云理解与重建技术

    三维场景理解与重建技术主要包含场景点云特征提取、扫描点云配准与融合、场景理解与语义分割、扫描物体
    的头像 发表于 08-08 16:58 1350次阅读
    三维<b class='flag-5'>场景</b>点云<b class='flag-5'>理解</b>与重建技术

    自动驾驶场景理解模块

    场景理解 场景理解功能模块图场景理解功能模块体现了负责“理解
    的头像 发表于 10-04 17:57 995次阅读
    自动驾驶<b class='flag-5'>场景</b><b class='flag-5'>理解</b>模块

    基于Transformer的可人体表征设计方案

    本文在ZJU-MoCap和H36M上进行了化性实验,结果如下图所示。主要分为四个setting: Pose的,Identity的
    的头像 发表于 11-23 11:25 446次阅读
    基于Transformer的可<b class='flag-5'>泛</b><b class='flag-5'>化</b>人体表征设计方案

    3d场景建模可视场景1:1还原

    3D场景建模可视的技术原理、方法和应用,旨在帮助读者深入了解这一领域的专业知识。 1.技术原理 数学建模: 三维场景建模基于数学几何原理,通过点、线、面等基本元素构建
    的头像 发表于 07-12 14:49 318次阅读