0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

上线一周就2.1k star!单张图像直接转为3D模型!

3D视觉工坊 来源:3D视觉工坊 2023-11-06 16:13 次阅读

0. 笔者个人体会

提问:给你一张2D图像,要求获得完整的三维模型,你会怎么做?

我第一反应是拿SolidWorks自己画一个~

最近就看到了这样的一项开源工作Wonder3D,可以直接从2D图像生成3D模型,感觉很神奇。读了读文章,发现这项工作是基于扩散模型实现的,这里也不得不感叹扩散模型确实在AI绘画和图像生成领域有无限前景。今天笔者也将带领读者阅读一下这项工作,当然笔者水平有限,如果有理解不当的地方欢迎大家一起探讨,共同学习。

1. 效果展示

Wonder3D仅需2~3分钟即可从单视图图像重建高细节纹理网格。Wonder3D首先通过跨域扩散模型生成一致的多视法线图与相应的彩色图像,然后利用一种法线融合方法来实现快速和高质量的重建。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。

9a83467a-7c55-11ee-939d-92fbcf53809c.png

对不同风格的图像也都适用。

9ab04418-7c55-11ee-939d-92fbcf53809c.png

甚至对各种小动物也适用:

9ad1c6c4-7c55-11ee-939d-92fbcf53809c.png

代码已经开源了,而且他们的官方主页还放上了Live Demo的链接,感兴趣的读者可以上传自己的图像来尝试,下面展示一下笔者自己的测试结果。

原始图像:

9aff0fda-7c55-11ee-939d-92fbcf53809c.png

生成的多视角图像:

9b1ee09e-7c55-11ee-939d-92fbcf53809c.png

2. 摘要

在这篇文章中,我们介绍了Wonder3D,一种从单视图图像中高效生成高保真纹理网格的新方法。基于分数蒸馏采样(SDS)的最近方法已经显示出从2D扩散先验恢复3D几何形状的潜力,但是它们通常遭受每个形状优化的耗时和不一致的几何形状。相比之下,某些作品通过快速网络推理直接产生3D信息,但其结果通常质量较低且缺乏几何细节。为了从整体上提高图像到3D任务的质量、一致性和效率,我们提出了一种跨域扩散模型来生成多视图法线贴图和相应的彩色图像。为了确保一致性,我们采用了一种多视图跨域关注机制,该机制有助于跨视图和模态的信息交换。最后,我们介绍了一种几何感知法向融合算法,从多视图2D表示中提取高质量的表面。我们的大量评估表明,与先前的工作相比,我们的方法实现了高质量的重建结果、鲁棒的泛化以及相当好的效率。

3. 算法解析

先让我们重新审视一下这个问题:

给定单张图像,绘制其三维模型。

传统方法会怎么做呢?

使用SLAM或SfM?单张图像做初始化都不够。

使用MVS方法?没有多视角图像就没有视差图。

用NeRF?最吃数据了,视角大一点都不行。

直接训模型学习?思路上可以,实操起来效果非常差。

这个任务本身就非常反人类,因为只有一个视角,没有先验信息谁也不知道完整的三维模型长什么样。

那怎么做呢?

这篇文章的思路很巧妙,没有像NeRF那样直接从2D图像生成3D模型,而是先用扩散模型生成多个视角的2D图像和法线图,再融合生成3D模型。

这么做有啥好处呢?

最大的好处就是可以直接利用Stable Diffusion这种经过数十亿张图像训练过的2D扩散模型,实际上相当于引入了非常强的先验信息。而且法线图可以表征物体的起伏和表面几何信息,进而计算3D模型的高保真几何元素。

这样,整个任务就变为了建立一个马尔科夫链,然后从中采样颜色和法线信息的过程。

9b3eb0ea-7c55-11ee-939d-92fbcf53809c.png

其中p代表高斯噪声,n代表法线图,x代表RGB图,K代表图像数量。

不太对,扩散模型只能处理一个域,怎么出来RGB和法线两个域了?

的确是这样,最直观的改动思路就是给扩散模型添加一个头,重新训练模型,直接输出RGB和法线信息,这也是前两年多任务网络的常用做法。但是实际操作过程中会发现收敛很慢,而且泛化性差。

另一个思路是直接训练两个扩散模型,但这样不光增加了计算量,还会导致性能下降。

Wonder3D的做法是设计了一个域转换器(Domain Switcher),实际上是一个标注域信息的一维向量。域转换器先做位置编码,聚合时间embedding信息,再把它也输送给扩散模型,就可以让扩散模型同时处理两个域的信息。

这一点可以先放一个定性对比图来观察:

9b6268be-7c55-11ee-939d-92fbcf53809c.png

还有问题,RGB和法线是独立生成的,多视角的RGB图也未必就几何一致。

在这里,Wonder3D引入了一个注意力机制,分别处理多个时间RGB几何不一致的问题,以及RGB和法线图的关联问题。

9b89c260-7c55-11ee-939d-92fbcf53809c.png

到这里,Wonder3D具体的Pipeline就出来了:

输入一幅图像,Wonder3D取原始图像、CLIP产生的文本embedding、多视角相机参数,以及一个域转换器作为条件,生成一致的多视点法线图和彩色图。随后,Wonder3D借助法线融合算法,将2D表征重建为高质量的3D几何图形,产生高保真的纹理网格。

9bacc684-7c55-11ee-939d-92fbcf53809c.png

最后再看看这个几何融合是怎么做的:

Wonder3D是优化神经隐式SDF场,来从匹配的RGB和法线图中提取完整的三维信息。

刚才不是说NeRF需要稠密的图像序列吗?

如果直接做NeRF-SDF重建的话,误差非常大,并且会一直累计下去。Wonder3D的做法是引入了一系列损失函数来约束优化:

9bd8ef98-7c55-11ee-939d-92fbcf53809c.png

4. 实验

训练数据集是LVIS子集,batch size是512,在8块A800上训练了3天(果然普通人还是玩不起)。从2D图像生成3D模型的方法还是用的Instant NGP(论NeRF在各个领域的入侵haaaaa)。评估使用Google Scanned Object数据集。评估指标方面,3D重建用Chamfer Distances (CD)和Volume IoU,生成图像质量用PSNR、SSIM、LPIPS这几个常见指标。对比的方案也都是目前的SOTA,包括Zero123、RealFusion、Magic123、One-2-3-45、Point-E、Shap-E、SyncDreamer这些。

新视点合成对比,Zero 123缺乏多视图一致性,SyncDreamer对输入图像的仰角比较敏感,但是Wonder3D生成具有语义一致性和几何一致性的图像。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。

9bef031e-7c55-11ee-939d-92fbcf53809c.png

新视点合成的定量对比。

9c122376-7c55-11ee-939d-92fbcf53809c.png

3D重建质量的对比,Shape-E的重建结果不完整且扭曲。SyncDreamer的重建结生成图像大致对齐,但纹理质量不好。相比之下Wonder3D实现几何和纹理上最高的重建质量。

9c29a032-7c55-11ee-939d-92fbcf53809c.png

3D重建的定量对比。

9c650bf4-7c55-11ee-939d-92fbcf53809c.png

最后3D生成模型中各项损失函数的消融实验,验证损失函数的必要性:

9c88a91a-7c55-11ee-939d-92fbcf53809c.png

还是一个消融实验,验证多视图几何一致性和RGB-法线对其的注意力机制的作用:

9caa1fbe-7c55-11ee-939d-92fbcf53809c.png

5. 总结

本文为各位读者介绍了Wonder3D,可以从单张图像直接生成完整的三维模型,整个模型的设计思路很巧妙,而且也开源。渲染速度也达到了2~3分钟,这项工作的应用也很广泛,建图、VR、AR、动画、影视等等都可以用。感觉Wonder3D还是很神奇的,有点长见识了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2892

    浏览量

    107640
  • 图像
    +关注

    关注

    2

    文章

    1086

    浏览量

    40496
  • 模型
    +关注

    关注

    1

    文章

    3259

    浏览量

    48907

原文标题:上线一周就2.1k star!单张图像直接转为3D模型!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    uvled光固化3d打印技术

    说到UVLED光固化3D打印技术,那可是当下3D打印领域的股清流啊!这项技术利用紫外线和光固化树脂来制造3D打印模型,原理简单又高效。UV
    的头像 发表于 12-24 13:13 143次阅读
    uvled光固化<b class='flag-5'>3d</b>打印技术

    淘宝携手Rokid上线3D购物新体验

    ,消费者现在可以在Rokid的AR设备上轻松登录淘宝网。在这里,他们不仅可以浏览到精美的3D商品模型,还能观看生动的空间视频,全方位了解商品的细节和特色。更重要的是,消费者可以直接在AR设备上下单购买,享受便捷、快速的购物流程。
    的头像 发表于 11-19 11:29 540次阅读

    安宝特产品 安宝特3D Analyzer:智能的3D CAD高级分析工具

    安宝特3D Analyzer包含多种实用的3D CAD高级分析工具,包括自动比对模型、碰撞检测、间隙检查、壁厚检查,以及拔模和底切分析,能够有效提升3D CAD
    的头像 发表于 08-07 10:13 394次阅读
    安宝特产品  安宝特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高级分析工具

    安宝特产品 3D Evolution : 基于特征实现无损CAD格式转换

    安宝特3D Evolution具有强大的3D CAD模型转换功能,可在保留模型特征参数、注释、约束的前提下,完成不同格式3D CAD
    的头像 发表于 08-06 17:26 345次阅读
    安宝特产品   <b class='flag-5'>3D</b> Evolution : 基于特征实现无损CAD格式转换

    欢创播报 腾讯元宝首发3D生成应用

    1 腾讯元宝首发3D生成应用 只需张照片,便能迅速打造独无二的3D角色。7月16日,腾讯旗下大模型应用“腾讯元宝”
    的头像 发表于 07-18 11:39 765次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b>生成应用

    裸眼3D笔记本电脑——先进的光场裸眼3D技术

    效果的用户,这款笔记本电脑都能满足你的需求。 、卓越的3D模型设计能力 英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D技术,使用户无需佩
    的头像 发表于 07-16 10:04 570次阅读

    烘焙vs渲染:3D模型制作中的效率与质量之争

    3D建模和渲染领域,模型烘焙(Baking)和模型渲染(Rendering)是两个经常被提及的概念。尽管它们都与最终图像的生成有关,但它们在技术实现、目的、优势和劣势等方面存在显著差
    的头像 发表于 05-12 08:27 470次阅读
    烘焙vs渲染:<b class='flag-5'>3D</b><b class='flag-5'>模型</b>制作中的效率与质量之争

    ad19中3d模型不显示?

    封装库导入3d模型不显示,但导入3d模型后的封装库生成pcb文件时显示3d模型,这是什么原因导致
    发表于 04-24 13:41

    包含具有多种类型信息的3D模型

    动画处理方式,与仿真模型对象进行交互,能直接从项目模型创建和管理进度表,以及外部项目管理软件中导入成本项目和进度表。 SketchUp : 是款用于设计和施工的
    发表于 03-28 17:18

    Meta发布SceneScript视觉模型,高效构建室内3D模型

    Meta 表示,此模型具备创建室内 3D 模型的高效与轻便,仅需几KB内存便能生成完整清晰的几何图形,同时,这些形状数据具备可解释性,便于用户理解和编辑。
    的头像 发表于 03-26 11:16 587次阅读

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,该模型以其独特的功能吸引了众多关注。此模型具备从单张
    的头像 发表于 03-22 10:30 873次阅读

    Stability AI推出Stable Video 3D模型,可制作多视角3D视频

    SV3D_u是Stable Video 3D个版本,仅需单幅图片即可生成运动轨迹视频,无须进行相机调整。扩充版本的SV3D_p加入了轨道视图的特性,使其可以根据预设的相机路径创建
    的头像 发表于 03-21 14:57 1045次阅读

    Adobe提出DMV3D3D生成只需30秒!让文本、图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D种全新的单阶段的全类别扩散模型,能
    的头像 发表于 01-30 16:20 882次阅读
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成只需30秒!让文本、<b class='flag-5'>图像</b>都动起来的新方法!

    高分工作!Uni3D3D基础大模型,刷新多个SOTA!

    我们主要探索了3D视觉中scale up模型参数量和统模型架构的可能性。在NLP / 2D vision领域,scale up大
    的头像 发表于 01-30 15:56 912次阅读
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基础大<b class='flag-5'>模型</b>,刷新多个SOTA!

    友思特C系列3D相机:实时3D点云图像

    3D相机
    虹科光电
    发布于 :2024年01月10日 17:39:25