电子发烧友网报道(文/吴子鹏)近日,一款名为DUSt3R的AI新工具在GitHub上爆火。DUSt3R能够在短短2秒钟内通过仅有2张图片完成3D 重建,让许多网友大呼惊奇,甚至认为这比之前热门的Sora更加实用。
有考古从业者称,在考古现场,构建3D模型是非常必要且难度很大的工作,通过DUSt3R快速重建出土文物的3D形状,是一个非常高效的方式。同时,DUSt3R在游戏和建筑等领域也有非常多的应用场景。
目前,DUSt3R在GitHub上的热度非常高,已经排名在GitHub热榜的第二名。根据网友实测,只需要拍摄两张照片,DUSt3R就可以完成家庭厨房或者摩托车的3D建模,并且除了3D图,还有深度图、置信度图和点云图。
图源:naverlabs.com
图源:naverlabs.com
DUSt3R突破3D建模技术屏障
实际上,早在一两年前GPT刚刚兴起的时候,就有人讨论过通过AI模型工具来完成3D建模,不过当时的试验结果表明,这是一项非常难的工作。
根据当时的讨论,AIGC用于3D内容生成,主要有三个方面的挑战。其一是原始训练素材库需要比较高质量的2D图片,且需要的数量比较大,并辅助大量的计算资源来配合。不过,受限于当时的算法模型,最终出来的效果都不太好。
其二是算法模型本身,在GPT热潮初期,文生文,以及文生图,都是2D层面的探索,生成复杂的3D模型需要更加复杂的算法。有算法工程师指出,这是完全不一样的算法模型,需要从底层重新梳理。
其三是质量缺陷。基于当时的算法和算力设施,生成3D模型并非不能完成的任务,不过完成的质量是非常糟糕的,需要进行大量的后期处理和优化,往往这个修复的工作量是超出传统建模的工作量的。
随后产业界也有很多尝试,比如GET3D和3D-GAN等工具可以生成网格(Mesh)的3D模型,这些工具大部分在 ShapeNet等3D数据集上进行训练,具有一定的质量,不过基本是单体建模,且复杂度不高。目前,有很多3D工具是基于differentiable rasterizer基础算法的。
在OpenAI的工具体系中,OpenAI Point·E其实也是一款3D生成工具,不过并不是原生的3D,而是从2D升维到3D,也就是先通过文字提示借助2D diffusion 模型生成2D图像,然后用3D点云的diffusion模型对图片进行升维。谷歌的DreamFusion和英伟达的Magic3D也是属于这个类型。
当然,上述工具都有一个通病,那就是几乎都需要半小时以上的时间才能够完成复杂3D模型的建立,和DUSt3R之间有很大的差距。
据悉,DUSt3R带来了一个3D模型生成的新范式,不需要任何相机校准或视点姿势的先验信息,就可完成任意图像的密集或无约束3D重建。传统的3D AI工具,通常需要MVS估计相机参数,并在3D空间中对相应的像素进行三角测量。不过,DUSt3R并不需要这些。如下图所示,DUSt3R能够基于一组具有未知相机姿态和内在特征的照片,生成对应的一组点图,并给出相机参数、像素对应关系、深度图等重要参数。因此这款工具不仅降低了输入数据的门槛,同时让输出数据质量大幅提升,输出数据需要的时间大幅缩短。
图源:naverlabs.com
DUSt3R论文作者表示,DUSt3R统一了单图3D生成和双图3D生成的技术路径,在提供两个以上图像的情况下,DUSt3R带来了更加有效的全局对齐策略,该策略在一个共同的参考框架中展现出所有成对的点云图。
综合而言,DUSt3R具备以下几个特点:支持多视图立体重建,无需相机校准信息,支持更加有效的全局对齐策略,提供3D模型和深度信息,并可以恢复像素匹配和相机信息,无疑这是一款强大的3D AI工具。
更重要的是,DUSt3R基于标准的变压器编码器和解码器就可以工作,让用户能够更加容易地利用这个强大的3D AI工具。如果DUSt3R能够顺利落地,那么医疗、游戏、影视、建筑、产品设计和虚拟现实等领域将大大受益。
国产公司在3D AI中的机会
DUSt3R强大的性能让很多网友直呼:忘掉Sora吧,DUSt3R才是未来。实际上,这确实也是AI大模型一个迭代的方向。从ChatGPT代表的文生文,到DALL•E代表的文生图,再到Sora代表的文生视频,多模态大模型的发展方向就是不断挖掘多模态大模型的潜力,生成更加复杂的信息。中泰证券在相关文章中直言,继文本、代码、图片、视频之后,下一个有可能实现突破的模态大概率是3D,“SORA之后的下一步:文生3D”。
那么,面对市场大趋势,国内公司该如何捕捉商机呢?汇总多份3D AI研报可以发现,国内目前在文生3D方面具有一定的技术储备,也有一些代表公司。
比如掌趣科技,该公司是一家提供3D引擎的公司。2023年11月,掌趣科技与LAYABOX达成战略合作协议。双方将共同致力于打造一款具有创新意义的AI游戏引擎,为广大游戏开发者提供更加智能、自动化的解决方案,推动游戏产业技术革新,共建高质量的AIGC开发生态体系。而游戏是3D模型重要的应用领域。
还有凡拓数创、丝路视觉、风语筑等3D内容提供商,也有一定的技术储备。以凡拓数创为例,该公司以“AI+3D”为方向,致力于展馆数字化革新,结合数字技术与文化创意, 以总体设计、3D数字内容制作、软件开发、系统集成等数字展馆一体化服务,未来AIGC、AI算法、BI大数据、WEB3D等前沿技术是凡拓数创的技术方向,数字孪生、虚拟人、知识图谱等产品则是产品方向。
另外,像恒信东方已经开始尝试将GPT、扩散模型应用与2D概念设计和分镜工作流、3D引擎和其他制作工具API融入3D内容创作,也有文生3D方面的技术储备。
除了上述有望直接参与文生3D落地的,国内在CAX领域、BIM领域的相关公司也有望从潮流中受益,比如中望软件、索辰科技、浩辰软件等CAX工具服务商,可以给相关产品带来专业的技术支持。
结语
DUSt3R惊艳的面世,让我们进一步见识了多模态大模型的实力,继文本、代码、图片、视频之后,文生3D是重要的产业发展方向,赋能医疗、游戏、影视、建筑、产品设计和虚拟现实等领域发展。对于国内公司而言,目前基本处于市场外围,还需要进一步实现核心技术攻关。
-
3D
+关注
关注
9文章
2861浏览量
107312
发布评论请先 登录
相关推荐
评论