0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种用于生成3D对象的替代方法

3D视觉工坊 来源:3D视觉工坊 2023-02-10 10:58 次阅读

摘要

虽然最近关于根据文本提示生成 3D点云的工作已经显示出可喜的结果,但最先进的方法通常需要多个 GPU 小时来生成单个样本。这与最先进的生成图像模型形成鲜明对比,后者在几秒或几分钟内生成样本。在本文中,我们探索了一种用于生成 3D 对象的替代方法,该方法仅需 1-2 分钟即可在单个 GPU 上生成 3D 模型。

我们的方法首先使用文本到图像的扩散模型生成单个合成视图,然后使用以生成的图像为条件的第二个扩散模型生成 3D 点云。虽然我们的方法在样本质量方面仍未达到最先进的水平,但它的采样速度要快一到两个数量级,为某些用例提供了实际的权衡。

316d2028-a8db-11ed-bfe3-dac502259ad0.png

背景介绍

poYBAGPlsyWAZgTOAACVRNGDTM4056.jpg

3185c2a4-a8db-11ed-bfe3-dac502259ad0.png

poYBAGPlszeAF9yaAADRmvRNnE8287.jpg

3194c4e8-a8db-11ed-bfe3-dac502259ad0.png

pYYBAGPls1CAKJM9AANLAptF4S0323.jpg

31a49e0e-a8db-11ed-bfe3-dac502259ad0.png

这种方法实施起来很简单,只需要在训练期间随机丢弃条件信息。我们在整个模型中采用这种技术,使用丢弃概率 为0.1。

简介

我们不是训练单个生成模型直接生成以文本为条件的点云,而是将生成过程分为三个步骤。首先,我们生成一个以文本标题为条件的综合视图。接下来,我们生成一个基于合成视图的粗略点云(1,024 个点)。最后,我们生成了一个以低分辨率点云和合成视图为条件的精细点云(4,096 个点)。在实践中,我们假设图像包含来自文本的相关信息,并且不明确地以文本为条件点云。

1、数据集

我们在数百万个 3D 模型上训练我们的模型。我们发现数据集的数据格式和质量差异很大,促使我们开发各种后处理步骤以确保更高的数据质量。 为了将我们所有的数据转换为一种通用格式,我们使用 Blender(Community,2018)从 20 个随机摄像机角度将每个 3D 模型渲染为 RGBAD 图像,Blender 支持多种 3D 格式并带有优化的渲染引擎。对于每个模型,我们的 Blender 脚本将模型标准化为边界立方体,配置标准照明设置,最后使用 Blender 的内置实时渲染引擎导出 RGBAD 图像。

然后,我们使用渲染将每个对象转换为彩色点云。特别地,我们首先通过计算每个 RGBAD 图像中每个像素的点来为每个对象构建一个稠密点云。这些点云通常包含数十万个不均匀分布的点,因此我们还使用最远点采样来创建均匀的 4K 点云。通过直接从渲染构建点云,我们能够避免尝试直接从 3D 网格采样点时可能出现的各种问题,例如模型中包含的采样点或处理以不寻常文件格式存储的 3D 模型 。

最后,我们采用各种启发式方法来减少数据集中低质量模型的出现频率。首先,我们通过计算每个点云的 SVD 来消除平面对象,只保留那些最小奇异值高于某个阈值的对象。接下来,我们通过 CLIP 特征对数据集进行聚类(对于每个对象,我们对所有渲染的特征进行平均)。我们发现一些集群包含许多低质量的模型类别,而其他集群则显得更加多样化或可解释。

我们将这些集群分到几个不同质量的容器中,并使用所得容器的加权混合作为我们的最终数据集。

2、查看合成 GLIDE 模型

本文的点云模型以文中数据集的渲染视图为条件,这些视图都是使用相同的渲染器和照明设置生成的。因此,为了确保这些模型正确处理生成的合成视图,我们的目标是显式生成与数据集分布相匹配的 3D 渲染。 为此,我们微调了 GLIDE,混合了其原始的数据集和我们的 3D 渲染数据集。由于我们的 3D 数据集与原始 GLIDE 训练集相比较小,因此我们仅在 5% 的时间内从 3D 数据集中采样图像,其余 95% 使用原始数据集。我们对 100K 次迭代进行了微调,这意味着该模型已经在 3D 数据集上进行了多次迭代(但从未两次看到完全相同的渲染视点)。

31b91618-a8db-11ed-bfe3-dac502259ad0.png

为了确保我们始终对分布渲染进行采样(而不是仅在 5% 的时间内对其进行采样),我们在每个 3D 渲染的文本提示中添加了一个特殊标记,表明它是 3D 渲染;然后我们在测试时使用此标记进行采样。

3、点云扩散

poYBAGPls6yAfS7oAAIukYDBAZQ954.jpg

值得注意的是,我们没有为这个模型使用位置编码。因此,模型本身对于输入点云是排列不变的(尽管输出顺序与输入顺序相关)。

4、点云上采样

对于图像扩散模型,最好的质量通常是通过使用某种形式的层级结构来实现的,其中低分辨率基础模型产生输出,然后由另一个模型进行上采样。我们采用这种方法来生成点云,首先使用大型基础模型生成 1K 点,然后使用较小的上采样模型上采样到 4K 点。

值得注意的是,我们模型的计算需求随点数的增加而增加,因此对于固定模型大小,生成 4K 点的成本是生成 1K 点的四倍。 我们的上采样器使用与我们的基本模型相同的架构,为低分辨率点云提供额外的条件标记。为了达到 4K 点,上采样器以 1K 点为条件并生成额外的 3K 点,这些点被添加到低分辨率点云中。我们通过一个单独的线性嵌入层传递条件点,而不是用于 的线性嵌入层,从而允许模型将条件信息与新点区分开来,而无需使用位置嵌入。

5、点云网格

对于基于渲染的评估,我们不直接渲染生成的点云。相反,我们将点云转换为带纹理的网格并使用 Blender 渲染这些网格。从点云生成网格是一个经过充分研究的问题,有时甚至是一个难题。我们的模型生成的点云通常有裂缝、异常值或其他类型的噪声,使问题特别具有挑战性。

为此,我们简要尝试使用预训练的 SAP 模型(Peng 等人,2021 年),但发现生成的网格有时会丢失点云中存在的大部分形状或重要的形状细节。我们没有训练新的 SAP 模型,而是选择了一种更简单的方法。 为了将点云转换为网格,我们使用基于回归的模型来预测给定点云的对象的符号距离场,然后将行进立方体 (Lorensen & Cline, 1987) 应用于生成的 SDF 以提取网格。然后,我们使用距离原始点云最近的点的颜色为网格的每个顶点分配颜色。

实验结果

由于通过文本条件合成3D是一个相当新的研究领域,因此还没有针对此任务的标准基准集。然而,其他几项工作使用 CLIP R-Precision 评估 3D 生成,我们在表 1 中与这些方法进行了比较。除了 CLIP R-Precision 之外,我们还注意到报告的每种方法的采样计算要求。

31cf5090-a8db-11ed-bfe3-dac502259ad0.png

虽然我们的方法比当前最先进的方法表现要差些,但我们注意到此评估的两个微妙之处,它们可以解释部分(但可能不是全部)这种差异:

与 DreamFusion 等基于多视图优化的方法不同,Point E 不会明确优化每个视图以匹配文本提示。这可能会导致 CLIP R-Precision 降低,因为某些物体不容易从所有角度识别。

我们的方法生成的点云必须在渲染前进行预处理。将点云转换为网格是一个难题,我们使用的方法有时会丢失点云本身中存在的信息。

总结与展望

本文介绍了 Point E,一个用于从文本生成点云的方法,它首先生成合成视图,然后生成以这些视图为条件的彩色点云。我们发现 Point E 能够根据文本提示有效地生成多样化和复杂的 3D 形状。希望我们的方法可以作为文本到 3D这一块研究领域进一步工作的起点。








审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4703

    浏览量

    128718
  • RGB
    RGB
    +关注

    关注

    4

    文章

    798

    浏览量

    58392
  • SVD
    SVD
    +关注

    关注

    0

    文章

    21

    浏览量

    12157
  • Clip
    +关注

    关注

    0

    文章

    31

    浏览量

    6652

原文标题:使用扩散模型从文本提示中生成3D点云

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    欢创播报 腾讯元宝首发3D生成应用

    1 腾讯元宝首发3D生成应用 只需张照片,便能迅速打造独无二的3D角色。7月16日,腾讯旗下大模型应用“腾讯元宝”上线了“
    的头像 发表于 07-18 11:39 726次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b><b class='flag-5'>生成</b>应用

    奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

    高质量、低成本的3D动作捕捉与3D动画内容生成方案。 Moverse公司总部位于希腊塞萨洛尼基,是三维动画相关媒体和娱乐行业的家科技创业公司。基于奥比中光
    的头像 发表于 06-25 16:37 1033次阅读

    3D建模的特点和优势都有哪些?

    3D建模是一种用于创建三维对象的过程,它在许多领域都有着广泛的应用,包括动画、游戏开发、建筑设计、工程以及制造业等。下面古河云科技将介绍
    的头像 发表于 05-13 16:41 2276次阅读

    ad19中3d模型不显示?

    封装库导入3d模型不显示,但导入3d模型后的封装库生成pcb文件时显示3d模型,这是什么原因导致的。
    发表于 04-24 13:41

    包含具有多种类型信息的3D模型

    、安全和高效的建筑系统,让居住者能够拥有可持续、弹性舒适且符合人体工程学的建筑。建筑信息模型 (BIM) 是建筑工程师在建筑物和其他结构设计中使用的一种3D建模过程。BIM软件提供了个基于模型
    发表于 03-28 17:18

    NVIDIA生成式AI研究实现在1秒内生成3D形状

    NVIDIA 研究人员使 LATTE3D款最新文本转 3D 生成式 AI 模型)实现双倍加速。
    的头像 发表于 03-27 10:28 470次阅读
    NVIDIA<b class='flag-5'>生成</b>式AI研究实现在1秒内<b class='flag-5'>生成</b><b class='flag-5'>3D</b>形状

    Stability AI推出Stable Video 3D模型,可制作多视角3D视频

    SV3D_u是Stable Video 3D个版本,仅需单幅图片即可生成运动轨迹视频,无须进行相机调整。扩充版本的SV3D_p加入了轨道
    的头像 发表于 03-21 14:57 965次阅读

    Adobe Substance 3D整合AI功能:基于文本生成纹理、背景

    Substance 3D Stager是以Adobe Dimension为基础改造而成,使用者可直观地进行3D场景构建,包括模型、材质和灯光等要素。借助其强大功能,能够生成极具观赏性的虚拟照片。
    的头像 发表于 03-20 10:28 677次阅读

    Adobe提出DMV3D3D生成只需30秒!让文本、图像都动起来的新方法

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D一种全新的单阶段的全类别扩散模型,能
    的头像 发表于 01-30 16:20 814次阅读
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!让文本、图像都动起来的新<b class='flag-5'>方法</b>!

    Exaddon开发了一种低于20μm间距进行细间距探测的3D微打印探针

    总部位于瑞士的微型 3D 打印公司Exaddon 开发了能够以低于 20 μm 间距进行细间距探测的 3D微打印探针。细间距探针测试是用于测试半导体芯片的极其复杂且精确的过程。
    的头像 发表于 01-26 18:23 1752次阅读

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法
    的头像 发表于 01-13 11:37 1033次阅读

    一种用于2D/3D图像处理算法的指令集架构以及对应的算法部署方法

    二维(2D)和三维(3D)双模视觉信息在自动驾驶、工业机器人、人机交互等前沿领域具有广泛的应用前景。
    的头像 发表于 01-05 10:35 432次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>用于</b>2<b class='flag-5'>D</b>/<b class='flag-5'>3D</b>图像处理算法的指令集架构以及对应的算法部署<b class='flag-5'>方法</b>

    4DGen:基于动态3D高斯的可控4D生成新工作

    尽管3D和视频生成取得了飞速的发展,由于缺少高质量的4D数据集,4D生成始终面临着巨大的挑战。
    的头像 发表于 01-04 15:57 848次阅读
    4DGen:基于动态<b class='flag-5'>3D</b>高斯的可控4<b class='flag-5'>D</b><b class='flag-5'>生成</b>新工作

    用于3D对象检测的点云深度学习方法

    随着激光雷达传感器(“光检测和测距”的缩写,有时称为“激光扫描”,现在在些最新的 iPhone 上可用)或 RGB-D 摄像头(一种 RGB-D 摄像头)的兴起,
    的头像 发表于 01-03 10:32 946次阅读
    两<b class='flag-5'>种</b>应<b class='flag-5'>用于</b><b class='flag-5'>3D</b><b class='flag-5'>对象</b>检测的点云深度学习<b class='flag-5'>方法</b>

    3D人体生成模型HumanGaussian实现原理

    3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历系列人
    的头像 发表于 12-20 16:37 1525次阅读
    <b class='flag-5'>3D</b>人体<b class='flag-5'>生成</b>模型HumanGaussian实现原理