Meta提出Make-A-Video3D：一行文本，生成3D动态场景！-电子发烧友网

不再需要任何 3D 或 4D 数据，来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。

仅输入一行文本，就能生成 3D 动态场景？

没错，已经有研究者做到了。可以看出来，目前的生成效果还处于初级阶段，只能生成一些简单的对象。不过这种「一步到位」的方法仍然引起了大量研究者的关注：

在最近的一篇论文中，来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。

Text-To-4D Dynamic Scene Generation

论文链接：https://arxiv.org/abs/2301.11280

项目链接：https://make-a-video3d.github.io/

具体而言，该方法运用 4D 动态神经辐射场（NeRF），通过查询基于文本到视频（T2V）扩散的模型，优化场景外观、密度和运动的一致性。任意机位或角度都可以观看到提供的文本生成的动态视频输出，并可以合成到任何 3D 环境中。 MAV3D 不需要任何 3D 或 4D 数据，T2V 模型只对文本图像对和未标记的视频进行训练。

让我们看一下 MAV3D 从文本生成 4D 动态场景的效果：

此外，它也能从图像直接到 4D，效果如下：

研究者通过全面的定量和定性实验证明了该方法的有效性，先前建立的内部 baseline 也得到了改进。据悉，这是第一个根据文本描述生成 3D 动态场景的方法。方法

该研究的目标在于开发一项能从自然语言描述中生成动态 3D 场景表征的方法。这极具挑战性，因为既没有文本或 3D 对，也没有用于训练的动态 3D 场景数据。因此，研究者选择依靠预训练的文本到视频（T2V）的扩散模型作为场景先验，该模型已经学会了通过对大规模图像、文本和视频数据的训练来建模场景的真实外观和运动。

从更高层次来看，在给定一个文本 prompt p 的情况下，研究可以拟合一个 4D 表征，它模拟了在时空任意点上与 prompt 匹配的场景外观。没有配对训练数据，研究无法直接监督的输出；

然而，给定一系列的相机姿势就可以从渲染出图像序列并将它们堆叠成一个视频 V。然后，将文本 prompt p 和视频 V 传递给冻结和预训练的 T2V 扩散模型，由该模型对视频的真实性和 prompt alignment 进行评分，并使用 SDS（得分蒸馏采样）来计算场景参数 θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的扩展，为场景模型添加了一个时间维度，并使用 T2V 模型而不是文本到图像（T2I）模型进行监督。然而，要想实现高质量的文本到 4D 的生成还需要更多的创新：

第一，需要使用新的、允许灵活场景运动建模的 4D 表征；

第二，需要使用多级静态到动态优化方案来提高视频质量和提高模型收敛性，该方案利用几个 motion regularizer 来生成真实的运动；

第三，需要使用超分辨率微调（SRFT）提高模型的分辨率。

具体说明见下图：

实验

在实验中，研究者评估了 MAV3D 从文本描述生成动态场景的能力。首先，研究者评估了该方法在 Text-To-4D 任务上的有效性。据悉，MAV3D 是首个该任务的解决方案，因此研究开发了三种替代方法作为基线。其次，研究者评估了 T2V 和 Text-To-3D 子任务模型的简化版本，并将其与文献中现有的基线进行比较。第三，全面的消融研究证明了方法设计的合理性。第四，实验描述了将动态 NeRF 转换为动态网格的过程，最终将模型扩展到 Image-to-4D 任务。

指标

研究使用 CLIP R-Precision 来评估生成的视频，它可以测量文本和生成场景之间的一致性。报告的指标是从呈现的帧中检索输入 prompt 的准确性。研究者使用 CLIP 的 ViT-B/32 变体，并在不同的视图和时间步长中提取帧，并且还通过询问人工评分人员在两个生成的视频中的偏好来使用四个定性指标，分别是：(i) 视频质量；(ii) 忠实于文本 prompt；(iii) 活动量；(四) 运动的现实性。研究者评估了在文本 prompt 分割中使用的所有基线和消融。

图 1 和图 2 为示例。要想了解更详细的可视化效果，请参见 make-a-video3d.github.io。

结果

表 1 显示了与基线的比较（R - 精度和人类偏好）。人工测评以在特定环境下与该模型相比，赞成基线多数票的百分比形式呈现。

表 2 展示了消融实验的结果：

实时渲染

使用传统图形引擎的虚拟现实和游戏等应用程序需要标准的格式，如纹理网格。HexPlane 模型可以轻易转换为如下的动画网格。首先，使用 marching cube 算法从每个时刻 t 生成的不透明度场中提取一个简单网格，然后进行网格抽取（为了提高效率）并且去除小噪声连接组件。XATLAS 算法用于将网格顶点映射到纹理图集，纹理初始化使用以每个顶点为中心的小球体中平均的 HexPlane 颜色。最后，为了更好地匹配一些由 HexPlane 使用可微网格渲染的示例帧，纹理会被进一步优化。这将产生一个纹理网格集合，可以在任何现成的 3D 引擎中回放。

图像到 4D

图 6 和图 10 展示了该方法能够从给定的输入图像产生深度和运动，从而生成 4D 资产。

更多研究细节，可参考原论文。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2886

浏览量
107622
Meta

Meta

+关注

关注
0

文章
271

浏览量
11398
三维动态管理

三维动态管理

+关注

关注
0

文章
2

浏览量
758

原文标题：Meta提出Make-A-Video3D：一行文本，生成3D动态场景！

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

3D模型文件格式之OBJ详解

文件由一行行文本组成，注释行以符号“#”为开头，空格和空行可以随意加到文件中以增加文件的可读性。有字的行都由一两个标记字母也就是关键字(Keyword)开头，关键字可以说明这一行是什么样的数据。多行

发表于 04-27 17:02

3D软件中如何应用文本特征？3D文本特征应用技巧

精准的标注。浩辰3D软件的文本特征应用，能帮助设计工程师以顺序建模设计方式，快速创建特征，实现精准化标注。下面，小编给大家介绍一下如何使用浩辰3D软件的

发表于 04-22 17:28

VR全景看房3D场景的制作方法

技术构建的VR房地产展示VR全景看房3D场景可视化制作解决方案，创建3D虚拟现实世界体验的展示，运用先进技术生成的一种模拟环境多信息化融合、

发表于 04-23 10:21 •9979次阅读

基于视觉注意力的全卷积网络3D内容生成方法

　由于在某些特殊场景中获取深度线索的难度较高，使得已有3D内容生成方法的应用受到限制。为此，以显著图代替深度图进行2D-3D转换，提出

发表于 05-13 16:13 •11次下载

NVIDIA提出Magic3D：高分辨率文本到3D内容创建

Magic3D 还可以执行基于提示的 3D 网格编辑：给定低分辨率 3D 模型和基本提示，可以更改文本从而修改生成的模型内容。此外，作者还展

发表于 11-25 11:33 •1143次阅读

3D模型场景展示哪个平台做的好？

体验。 3D模型场景建设能够对所需的模型进行材质替换、灯光、虚拟场景、动画生成、3D互动展示等一

发表于 12-30 15:39 •1078次阅读

<b class='flag-5'>3D</b>模型<b class='flag-5'>场景</b>展示哪个平台做的好？

清华朱军团队提出ProlificDreamer：直接文本生成高质量3D内容

将 Imagen 生成的照片（下图静态图）和 ProlificDreamer（基于 Stable-Diffusion）生成的 3D（下图动态图）进行对比。有网友感慨：短短

发表于 05-29 10:02 •930次阅读

清华朱军团队<b class='flag-5'>提出</b>ProlificDreamer：直接<b class='flag-5'>文本生成</b>高质量<b class='flag-5'>3D</b>内容

3D人体生成模型HumanGaussian实现原理

和驱动等。为了自动化 3D 内容生成，此前的一些典型工作（比如 DreamFusion [1] ）提出了分数蒸馏采样 (Score Distillation Sampling)，通过优

发表于 12-20 16:37 •1637次阅读

<b class='flag-5'>3D</b>人体<b class='flag-5'>生成</b>模型HumanGaussian实现原理

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！

因此，本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此，他们提出了 DMV3D。DMV3D 是

发表于 01-30 16:20 •873次阅读

Adobe Substance 3D整合AI功能：基于文本生成纹理、背景

Substance 3D Stager是以Adobe Dimension为基础改造而成，使用者可直观地进行3D场景构建，包括模型、材质和灯光等要素。借助其强大功能，能够生成极具观赏性的

发表于 03-20 10:28 •759次阅读

Stability AI推出Stable Video 3D模型，可制作多视角3D视频

SV3D_u是Stable Video 3D的一个版本，仅需单幅图片即可生成运动轨迹视频，无须进行相机调整。扩充版本的SV

发表于 03-21 14:57 •1040次阅读

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图3D视频的能力，为视频制作领域带

发表于 03-22 10:30 •868次阅读

NVIDIA生成式AI研究实现在1秒内生成3D形状

NVIDIA 研究人员使 LATTE3D （一款最新文本转 3D 生成式 AI 模型）实现双倍加速。

发表于 03-27 10:28 •510次阅读

欢创播报腾讯元宝首发3D生成应用

App。腾讯元宝APP发布时，就围绕工作效率场景、日常生活等场景提供了丰富的应用，并有创建个人智能体等个性化体验，“3D角色梦工厂”则将大模型生成技术和

发表于 07-18 11:39 •760次阅读

如何使用 Llama 3 进行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）进行文本生成，可以通过以下几种方式实现，取决于你是否愿意在本地运行模型或者使用现成的API

发表于 10-27 14:21 •429次阅读

搜索历史

Meta提出Make-A-Video3D：一行文本，生成3D动态场景！

评论

3D模型文件格式之OBJ详解

3D软件中如何应用文本特征？3D文本特征应用技巧

VR全景看房3D场景的制作方法

基于视觉注意力的全卷积网络3D内容生成方法

NVIDIA提出Magic3D：高分辨率文本到3D内容创建

3D模型场景展示哪个平台做的好？

清华朱军团队提出ProlificDreamer：直接文本生成高质量3D内容

3D人体生成模型HumanGaussian实现原理

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！

Adobe Substance 3D整合AI功能：基于文本生成纹理、背景

Stability AI推出Stable Video 3D模型，可制作多视角3D视频

Stability AI推出全新Stable Video 3D模型

NVIDIA生成式AI研究实现在1秒内生成3D形状

欢创播报腾讯元宝首发3D生成应用

如何使用 Llama 3 进行文本生成