NeuralLift-360：将野外的2D照片提升为3D物体-电子发烧友网

摘要

虚拟现实和增强现实（XR）带来了对3D内容生成的不断增长需求。然而，创建高质量的3D内容需要人类专家进行繁琐的工作。在本文中，我们研究了将单个图像提升为3D对象的具有挑战性的任务，并首次展示了能够生成与给定参考图像相对应的具有360°视图的可信3D对象。通过条件化参考图像，我们的模型可以满足从图像合成物体新视角的永恒好奇心。我们提出了NeuralLift-360，一种新颖框架，利用深度感知神经辐射场生成可信3D对象，并通过CLIP引导扩散先验学习概率驱动3D提升，并通过比例不变深度排名损失减轻深度误差。我们在真实和合成图像上进行了全面实验，在这些实验中，NeuralLift-360优于当前最先进方法。

主要贡献

• 针对野外的单张图片，我们展示了将其提升到3D的有前景的结果。我们使用NeRF作为有效的场景表示，并整合来自扩散模型的先验知识。

• 我们提出了一种以CLIP为引导的采样策略，有效地将扩散模型的先验知识与参考图像结合起来。

• 当参考图像难以精确描述时，我们在保持其生成多样内容以指导NeRF训练的能力的同时，对单张图像进行扩散模型的微调。

• 我们引入了一种使用排名信息的尺度不变深度监督。这种设计减轻了对准确多视角一致深度估计的需求，并扩大了我们算法的应用范围。

主要方法

1.从单个2D图像中生成3D点云：首先，使用一个预训练的2D图像到3D点云模型来生成初始点云。然后，使用一个深度感知神经辐射场来对点云进行细化和修正。具体地，该神经辐射场将每个点的深度值作为输入，并输出一个向量场，该向量场将每个点移动到其正确的位置。

2.从3D点云中生成可渲染的3D网格：使用一个基于深度学习的方法来将点云转换为可渲染的3D网格。具体地，该方法使用一个编码器网络将3D点云编码为特征向量，并使用一个解码器网络将特征向量解码为可渲染的3D网格。

3.从可渲染的3D网格中生成360°视图：使用一个基于深度学习的方法来生成与给定参考图像相对应的具有360°视图的可信3D对象。具体地，该方法使用一个编码器网络将参考图像编码为特征向量，并使用一个解码器网络将特征向量解码为360°视图。

4.使用CLIP引导扩散先验学习概率驱动3D提升：使用一个基于扩散的方法来生成3D对象，并使用CLIP模型来指导扩散过程。具体地，该方法使用一个初始的3D对象，并通过多次迭代来扩散该对象。在每次迭代中，使用CLIP模型来计算当前3D对象与参考图像之间的相似度，并将相似度作为概率分布来指导扩散过程。

5.使用比例不变深度排名损失减轻深度误差：使用一个比例不变深度排名损失来训练模型，以减轻深度误差。具体地，该损失函数将每个像素的深度值与其在图像中的排名相关联，并使用比例不变的方式来计算损失。这种方法可以减轻深度误差，并提高模型的性能。

主要结果

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3679

浏览量
135396
网格

网格

+关注

关注
0

文章
139

浏览量
16069
深度学习

深度学习

+关注

关注
73

文章
5521

浏览量
121660

原文标题：NeuralLift-360：将野外的2D照片提升为3D物体

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

如何同时获取2d图像序列和相应的3d点云？

如何同时获取2d图像序列和相应的3d点云？以上来自于谷歌翻译以下为原文How to obtain the sequence of 2d image and corresponding 3d

发表于 11-13 11:25

请问怎么才能将AD中的3D封装库转换为2D的封装库？

请问怎么将AD中的3D封装库转换为2D的封装库

发表于 06-05 00:35

为什么3D与2D模型不能相互转换？

AD17.1.5软件，3D与2D模型不能相互转换，按3可以进入3D模型，按2不可以进入2D模型，

发表于 09-20 05:35

如何促使2D和3D视觉检测的性能成倍提升？

本文介绍的三个应用案例展示了业界上先进的机器视觉软件和及其图像预处理技术如何促使2D和3D视觉检测的性能成倍提升。

发表于 02-22 06:56

视觉处理，2d照片转3d模型

首先，太阳高度是恒定的。照片每像素的亮度可求。我们只需要求出太阳与眼睛到物体的夹角就能求出3d模型。最多就是各种物质的反射率。英伟达的oir芯片就是做汽车视觉的，大家去取取经。有时，2

发表于 05-21 17:13

2D到3D视频自动转换系统

研究和实现了一个基于OMAP3530的2D到3D视频自动转换系统，重点研究深度图获取和深度信息渲染等主要核心技术及其实现。该系统利用OMAP3530其特有的双核结构，进行系统优化：由其ARM处理器

发表于 03-06 14:20 •1次下载

适用于显示屏的2D多点触摸与3D手势模块

本视频将展示结合多点触摸与3D手势模块的Microchip显示解决方案。支持2D/3D功能的显示屏是Microchip基于GestIC®技术的最新解决方案。显示屏上结合了

发表于 06-06 02:45 •5222次阅读

如何把OpenGL中3D坐标转换成2D坐标

在OpenGL中，一切事物都在3D空间中，但我们的屏幕坐标确实2D像素数组，OpenGL大部分工作就是把3D坐标转换成适应屏幕的2D像素。3D

发表于 07-09 10:40 •8658次阅读

3D 机器视觉为什么将逐步取代 2D 识别技术？

不难判断，在此趋势下，3D 机器视觉将面临较快的增长趋势，3D 视觉未来将逐步取代 2D 识别技术，在许多“痛点型应用场景”中大显身手，发展

发表于 08-21 10:33 •5174次阅读

阿里研发全新3D AI算法，2D图片搜出3D模型

AI技术的研究正在从2D走向更高难度的3D。12月3日，记者获悉，阿里技术团队研发了全新3D AI算法，可基于2D图片精准搜索出相应的

发表于 12-04 15:49 •3641次阅读

3d人脸识别和2d人脸识别的区别

首先是3d人脸识别和2d人脸识别图像数据获取不同。3D人脸识别是以3D摄像头立体成像，而2D是以2D

发表于 02-05 16:00 •4.9w次阅读

探讨一下2D和3D拓扑绝缘体

这样的物理规范，具有很高的普适性，applicable 到所有维度空间。对二维 2D 拓扑绝缘体 (2D - TI) 和三维 3D 拓扑绝缘体 (3D - TI)，其体 - 边对应性由

发表于 11-23 10:23 •2723次阅读

将2D/3D图表和图形添加到WindowsForms应用程序中

将2D/3D图表和图形添加到WindowsForms应用程序中包括您可能需要的所有功能，并以100%托管代码编写。很好地集成到仪表板和商业智能软件中。由响应迅速的支持团队提供支持。 14种主要

发表于 06-15 11:45 •2737次阅读

2D与3D视觉技术的比较

作为一个多年经验的机器视觉工程师，我将详细介绍2D和3D视觉技术的不同特点、应用场景以及它们能够解决的问题。在这个领域内，2D和3D视觉技术

发表于 12-21 09:19 •1324次阅读

一文了解3D视觉和2D视觉的区别

一文了解3D视觉和2D视觉的区别 3D视觉和2D视觉是两种不同的视觉模式，其区别主要体现在立体感、深度感和逼真度上。本文将详细阐述这些区别，

发表于 12-25 11:15 •3634次阅读

搜索历史

NeuralLift-360：将野外的2D照片提升为3D物体

评论

如何同时获取2d图像序列和相应的3d点云？

请问怎么才能将AD中的3D封装库转换为2D的封装库？

为什么3D与2D模型不能相互转换？

如何促使2D和3D视觉检测的性能成倍提升？

视觉处理，2d照片转3d模型

2D到3D视频自动转换系统

适用于显示屏的2D多点触摸与3D手势模块

如何把OpenGL中3D坐标转换成2D坐标

3D 机器视觉为什么将逐步取代 2D 识别技术？

阿里研发全新3D AI算法，2D图片搜出3D模型

3d人脸识别和2d人脸识别的区别

探讨一下2D和3D拓扑绝缘体

将2D/3D图表和图形添加到WindowsForms应用程序中

2D与3D视觉技术的比较

一文了解3D视觉和2D视觉的区别