2张图2秒钟完成3D建模！3D内容生成工具DUSt3R爆火，国产厂商有哪些机会？-电子发烧友网

电子发烧友网报道（文/吴子鹏）近日，一款名为DUSt3R的AI新工具在GitHub上爆火。DUSt3R能够在短短2秒钟内通过仅有2张图片完成3D 重建，让许多网友大呼惊奇，甚至认为这比之前热门的Sora更加实用。

有考古从业者称，在考古现场，构建3D模型是非常必要且难度很大的工作，通过DUSt3R快速重建出土文物的3D形状，是一个非常高效的方式。同时，DUSt3R在游戏和建筑等领域也有非常多的应用场景。

目前，DUSt3R在GitHub上的热度非常高，已经排名在GitHub热榜的第二名。根据网友实测，只需要拍摄两张照片，DUSt3R就可以完成家庭厨房或者摩托车的3D建模，并且除了3D图，还有深度图、置信度图和点云图。

图源：naverlabs.com

DUSt3R突破3D建模技术屏障

实际上，早在一两年前GPT刚刚兴起的时候，就有人讨论过通过AI模型工具来完成3D建模，不过当时的试验结果表明，这是一项非常难的工作。

根据当时的讨论，AIGC用于3D内容生成，主要有三个方面的挑战。其一是原始训练素材库需要比较高质量的2D图片，且需要的数量比较大，并辅助大量的计算资源来配合。不过，受限于当时的算法模型，最终出来的效果都不太好。

其二是算法模型本身，在GPT热潮初期，文生文，以及文生图，都是2D层面的探索，生成复杂的3D模型需要更加复杂的算法。有算法工程师指出，这是完全不一样的算法模型，需要从底层重新梳理。

其三是质量缺陷。基于当时的算法和算力设施，生成3D模型并非不能完成的任务，不过完成的质量是非常糟糕的，需要进行大量的后期处理和优化，往往这个修复的工作量是超出传统建模的工作量的。

随后产业界也有很多尝试，比如GET3D和3D-GAN等工具可以生成网格（Mesh）的3D模型，这些工具大部分在 ShapeNet等3D数据集上进行训练，具有一定的质量，不过基本是单体建模，且复杂度不高。目前，有很多3D工具是基于differentiable rasterizer基础算法的。

在OpenAI的工具体系中，OpenAI Point·E其实也是一款3D生成工具，不过并不是原生的3D，而是从2D升维到3D，也就是先通过文字提示借助2D diffusion 模型生成2D图像，然后用3D点云的diffusion模型对图片进行升维。谷歌的DreamFusion和英伟达的Magic3D也是属于这个类型。

当然，上述工具都有一个通病，那就是几乎都需要半小时以上的时间才能够完成复杂3D模型的建立，和DUSt3R之间有很大的差距。

据悉，DUSt3R带来了一个3D模型生成的新范式，不需要任何相机校准或视点姿势的先验信息，就可完成任意图像的密集或无约束3D重建。传统的3D AI工具，通常需要MVS估计相机参数，并在3D空间中对相应的像素进行三角测量。不过，DUSt3R并不需要这些。如下图所示，DUSt3R能够基于一组具有未知相机姿态和内在特征的照片，生成对应的一组点图，并给出相机参数、像素对应关系、深度图等重要参数。因此这款工具不仅降低了输入数据的门槛，同时让输出数据质量大幅提升，输出数据需要的时间大幅缩短。

图源：naverlabs.com

DUSt3R论文作者表示，DUSt3R统一了单图3D生成和双图3D生成的技术路径，在提供两个以上图像的情况下，DUSt3R带来了更加有效的全局对齐策略，该策略在一个共同的参考框架中展现出所有成对的点云图。

综合而言，DUSt3R具备以下几个特点：支持多视图立体重建，无需相机校准信息，支持更加有效的全局对齐策略，提供3D模型和深度信息，并可以恢复像素匹配和相机信息，无疑这是一款强大的3D AI工具。

更重要的是，DUSt3R基于标准的变压器编码器和解码器就可以工作，让用户能够更加容易地利用这个强大的3D AI工具。如果DUSt3R能够顺利落地，那么医疗、游戏、影视、建筑、产品设计和虚拟现实等领域将大大受益。

国产公司在3D AI中的机会

DUSt3R强大的性能让很多网友直呼：忘掉Sora吧，DUSt3R才是未来。实际上，这确实也是AI大模型一个迭代的方向。从ChatGPT代表的文生文，到DALL•E代表的文生图，再到Sora代表的文生视频，多模态大模型的发展方向就是不断挖掘多模态大模型的潜力，生成更加复杂的信息。中泰证券在相关文章中直言，继文本、代码、图片、视频之后，下一个有可能实现突破的模态大概率是3D，“SORA之后的下一步：文生3D”。

那么，面对市场大趋势，国内公司该如何捕捉商机呢？汇总多份3D AI研报可以发现，国内目前在文生3D方面具有一定的技术储备，也有一些代表公司。

比如掌趣科技，该公司是一家提供3D引擎的公司。2023年11月，掌趣科技与LAYABOX达成战略合作协议。双方将共同致力于打造一款具有创新意义的AI游戏引擎，为广大游戏开发者提供更加智能、自动化的解决方案，推动游戏产业技术革新，共建高质量的AIGC开发生态体系。而游戏是3D模型重要的应用领域。

还有凡拓数创、丝路视觉、风语筑等3D内容提供商，也有一定的技术储备。以凡拓数创为例，该公司以“AI+3D”为方向，致力于展馆数字化革新，结合数字技术与文化创意，以总体设计、3D数字内容制作、软件开发、系统集成等数字展馆一体化服务，未来AIGC、AI算法、BI大数据、WEB3D等前沿技术是凡拓数创的技术方向，数字孪生、虚拟人、知识图谱等产品则是产品方向。

另外，像恒信东方已经开始尝试将GPT、扩散模型应用与2D概念设计和分镜工作流、3D引擎和其他制作工具API融入3D内容创作，也有文生3D方面的技术储备。

除了上述有望直接参与文生3D落地的，国内在CAX领域、BIM领域的相关公司也有望从潮流中受益，比如中望软件、索辰科技、浩辰软件等CAX工具服务商，可以给相关产品带来专业的技术支持。