0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

2张图2秒钟完成3D建模!3D内容生成工具DUSt3R爆火,国产厂商有哪些机会?

Felix分析 来源:电子发烧友 作者:吴子鹏 2024-03-06 00:10 次阅读

电子发烧友网报道(文/吴子鹏)近日,一款名为DUSt3R的AI新工具在GitHub上爆火。DUSt3R能够在短短2秒钟内通过仅有2张图片完成3D 重建,让许多网友大呼惊奇,甚至认为这比之前热门的Sora更加实用。


有考古从业者称,在考古现场,构建3D模型是非常必要且难度很大的工作,通过DUSt3R快速重建出土文物的3D形状,是一个非常高效的方式。同时,DUSt3R在游戏和建筑等领域也有非常多的应用场景。

目前,DUSt3R在GitHub上的热度非常高,已经排名在GitHub热榜的第二名。根据网友实测,只需要拍摄两张照片,DUSt3R就可以完成家庭厨房或者摩托车的3D建模,并且除了3D图,还有深度图、置信度图和点云图。

wKgZomXm79aAetP8AAfqVxwPFNo039.png

图源:naverlabs.com

wKgZomXm7-WAbDDhAAizHJFCnOE951.png
图源:naverlabs.com

DUSt3R突破3D建模技术屏障

实际上,早在一两年前GPT刚刚兴起的时候,就有人讨论过通过AI模型工具来完成3D建模,不过当时的试验结果表明,这是一项非常难的工作。

根据当时的讨论,AIGC用于3D内容生成,主要有三个方面的挑战。其一是原始训练素材库需要比较高质量的2D图片,且需要的数量比较大,并辅助大量的计算资源来配合。不过,受限于当时的算法模型,最终出来的效果都不太好。

其二是算法模型本身,在GPT热潮初期,文生文,以及文生图,都是2D层面的探索,生成复杂的3D模型需要更加复杂的算法。有算法工程师指出,这是完全不一样的算法模型,需要从底层重新梳理。

其三是质量缺陷。基于当时的算法和算力设施,生成3D模型并非不能完成的任务,不过完成的质量是非常糟糕的,需要进行大量的后期处理和优化,往往这个修复的工作量是超出传统建模的工作量的。

随后产业界也有很多尝试,比如GET3D和3D-GAN等工具可以生成网格(Mesh)的3D模型,这些工具大部分在 ShapeNet等3D数据集上进行训练,具有一定的质量,不过基本是单体建模,且复杂度不高。目前,有很多3D工具是基于differentiable rasterizer基础算法的。

在OpenAI的工具体系中,OpenAI Point·E其实也是一款3D生成工具,不过并不是原生的3D,而是从2D升维到3D,也就是先通过文字提示借助2D diffusion 模型生成2D图像,然后用3D点云的diffusion模型对图片进行升维。谷歌的DreamFusion和英伟达的Magic3D也是属于这个类型。

当然,上述工具都有一个通病,那就是几乎都需要半小时以上的时间才能够完成复杂3D模型的建立,和DUSt3R之间有很大的差距。

据悉,DUSt3R带来了一个3D模型生成的新范式,不需要任何相机校准或视点姿势的先验信息,就可完成任意图像的密集或无约束3D重建。传统的3D AI工具,通常需要MVS估计相机参数,并在3D空间中对相应的像素进行三角测量。不过,DUSt3R并不需要这些。如下图所示,DUSt3R能够基于一组具有未知相机姿态和内在特征的照片,生成对应的一组点图,并给出相机参数、像素对应关系、深度图等重要参数。因此这款工具不仅降低了输入数据的门槛,同时让输出数据质量大幅提升,输出数据需要的时间大幅缩短。

wKgZomXm8CSAa8PEAAH2D2uixMs083.png
图源:naverlabs.com

DUSt3R论文作者表示,DUSt3R统一了单图3D生成和双图3D生成的技术路径,在提供两个以上图像的情况下,DUSt3R带来了更加有效的全局对齐策略,该策略在一个共同的参考框架中展现出所有成对的点云图。

综合而言,DUSt3R具备以下几个特点:支持多视图立体重建,无需相机校准信息,支持更加有效的全局对齐策略,提供3D模型和深度信息,并可以恢复像素匹配和相机信息,无疑这是一款强大的3D AI工具。

更重要的是,DUSt3R基于标准的变压器编码器和解码器就可以工作,让用户能够更加容易地利用这个强大的3D AI工具。如果DUSt3R能够顺利落地,那么医疗、游戏、影视、建筑、产品设计和虚拟现实等领域将大大受益。

国产公司在3D AI中的机会

DUSt3R强大的性能让很多网友直呼:忘掉Sora吧,DUSt3R才是未来。实际上,这确实也是AI大模型一个迭代的方向。从ChatGPT代表的文生文,到DALL•E代表的文生图,再到Sora代表的文生视频,多模态大模型的发展方向就是不断挖掘多模态大模型的潜力,生成更加复杂的信息。中泰证券在相关文章中直言,继文本、代码、图片、视频之后,下一个有可能实现突破的模态大概率是3D,“SORA之后的下一步:文生3D”。

那么,面对市场大趋势,国内公司该如何捕捉商机呢?汇总多份3D AI研报可以发现,国内目前在文生3D方面具有一定的技术储备,也有一些代表公司。

比如掌趣科技,该公司是一家提供3D引擎的公司。2023年11月,掌趣科技与LAYABOX达成战略合作协议。双方将共同致力于打造一款具有创新意义的AI游戏引擎,为广大游戏开发者提供更加智能、自动化的解决方案,推动游戏产业技术革新,共建高质量的AIGC开发生态体系。而游戏是3D模型重要的应用领域。

还有凡拓数创、丝路视觉、风语筑等3D内容提供商,也有一定的技术储备。以凡拓数创为例,该公司以“AI+3D”为方向,致力于展馆数字化革新,结合数字技术与文化创意, 以总体设计、3D数字内容制作、软件开发、系统集成等数字展馆一体化服务,未来AIGC、AI算法、BI大数据、WEB3D等前沿技术是凡拓数创的技术方向,数字孪生、虚拟人、知识图谱等产品则是产品方向。

另外,像恒信东方已经开始尝试将GPT、扩散模型应用与2D概念设计和分镜工作流、3D引擎和其他制作工具API融入3D内容创作,也有文生3D方面的技术储备。

除了上述有望直接参与文生3D落地的,国内在CAX领域、BIM领域的相关公司也有望从潮流中受益,比如中望软件、索辰科技、浩辰软件等CAX工具服务商,可以给相关产品带来专业的技术支持。

结语

DUSt3R惊艳的面世,让我们进一步见识了多模态大模型的实力,继文本、代码、图片、视频之后,文生3D是重要的产业发展方向,赋能医疗、游戏、影视、建筑、产品设计和虚拟现实等领域发展。对于国内公司而言,目前基本处于市场外围,还需要进一步实现核心技术攻关。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2861

    浏览量

    107312
收藏 人收藏

    评论

    相关推荐

    透明塑料件喷粉3D扫描CAV全尺寸检测逆向3D建模设计服务-CASAIM

    3D建模
    中科院广州电子
    发布于 :2024年08月30日 10:04:53

    安宝特产品 安宝特3D Analyzer:智能的3D CAD高级分析工具

    安宝特3D Analyzer包含多种实用的3D CAD高级分析工具,包括自动比对模型、碰撞检测、间隙检查、壁厚检查,以及拔模和底切分析,能够有效提升3D CAD模型检测分析的效率,让模
    的头像 发表于 08-07 10:13 329次阅读
    安宝特产品  安宝特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高级分析<b class='flag-5'>工具</b>

    欢创播报 腾讯元宝首发3D生成应用

    1 腾讯元宝首发3D生成应用 只需一照片,便能迅速打造独一无二的3D角色。7月16日,腾讯旗下大模型应用“腾讯元宝”上线了“3D角色梦工厂
    的头像 发表于 07-18 11:39 717次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b><b class='flag-5'>生成</b>应用

    奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

    高质量、低成本的3D动作捕捉与3D动画内容生成方案。 Moverse公司总部位于希腊塞萨洛尼基,是三维动画相关媒体和娱乐行业的一家科技创业公司。基于奥比中光
    的头像 发表于 06-25 16:37 1019次阅读

    3D建模的重要内容和应用

    3D建模是一种技术,通过计算机软件创建虚拟三维模型,模拟现实世界中的物体或场景。这项技术广泛应用于建筑设计、电影制作、游戏开发、工程仿真等领域。下面古河云科技将介绍一些与3D建模相关的
    的头像 发表于 06-21 14:48 555次阅读

    3D建模的特点和优势都有哪些?

    3D建模是一种用于创建三维对象的过程,它在许多领域都有着广泛的应用,包括动画、游戏开发、建筑设计、工程以及制造业等。下面古河云科技将介绍一些关于3D建模
    的头像 发表于 05-13 16:41 2250次阅读

    NVIDIA生成式AI研究实现在1生成3D形状

    NVIDIA 研究人员使 LATTE3D (一款最新文本转 3D 生成式 AI 模型)实现双倍加速。
    的头像 发表于 03-27 10:28 464次阅读
    NVIDIA<b class='flag-5'>生成</b>式AI研究实现在1<b class='flag-5'>秒</b>内<b class='flag-5'>生成</b><b class='flag-5'>3D</b>形状

    AI新工具DUSt3R走红GitHub,两完成3D重建惊艳网友

    近日,一款名为DUSt3R的AI新工具在微软旗下的GitHub平台上引发了广泛关注。这款神奇的工具仅需两图片和两秒钟的时间,便能
    的头像 发表于 03-08 14:02 1093次阅读

    Adobe提出DMV3D3D生成只需30!让文本、图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型,能直接根据模型文字或单张图片的输入,
    的头像 发表于 01-30 16:20 804次阅读
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30<b class='flag-5'>秒</b>!让文本、图像都动起来的新方法!

    一文了解3D视觉和2D视觉的区别

    3D视觉与2D视觉最明显的区别在于立体感。2D视觉只有两个维度,即宽度和高度;而3D视觉则具有额外的深度维度。通过模拟真实世界中的第三个维度,3D
    的头像 发表于 12-25 11:15 2867次阅读

    2D3D视觉技术的比较

    作为一个多年经验的机器视觉工程师,我将详细介绍2D3D视觉技术的不同特点、应用场景以及它们能够解决的问题。在这个领域内,2D3D视觉技术是实现自动化和智能制造的关键技术,它们在工业
    的头像 发表于 12-21 09:19 1060次阅读

    3D人体生成模型HumanGaussian实现原理

    3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用深远的意义。传统方法需要经历一系列人工制作的过程,如
    的头像 发表于 12-20 16:37 1511次阅读
    <b class='flag-5'>3D</b>人体<b class='flag-5'>生成</b>模型HumanGaussian实现原理

    提供3D打印材料与解决方案,助力3D打印产业发展

    提供3D打印材料与解决方案,助力3D打印产业发展
    的头像 发表于 12-12 11:12 518次阅读

    3D 封装与 3D 集成何区别?

    3D 封装与 3D 集成何区别?
    的头像 发表于 12-05 15:19 989次阅读
    <b class='flag-5'>3D</b> 封装与 <b class='flag-5'>3D</b> 集成<b class='flag-5'>有</b>何区别?

    当芯片变身 3D系统,3D异构集成面临哪些挑战

    当芯片变身 3D 系统,3D 异构集成面临哪些挑战
    的头像 发表于 11-24 17:51 812次阅读
    当芯片变身 <b class='flag-5'>3D</b>系统,<b class='flag-5'>3D</b>异构集成面临哪些挑战