一张照片定制自己的3D数字化身？-电子发烧友网

近日，由微软亚洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型，首次实现了利用生成扩散模型在 3D 训练数据上自动生成 3D 数字化身（Avatar）的功能。仅需一张图片甚至一句文字描述，RODIN 扩散模型就能秒级生成 3D 化身，让低成本定制 3D 头像成为可能，为 3D 内容创作领域打开了更多想象空间。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

创建个性化的用户形象在如今的数字世界中非常普遍，很多 3D 游戏都设有这一功能。然而在创建个人形象的过程中，繁琐的细节调整常常让人又爱又恨，有时候大费周章地选了与自己相似的眼睛、鼻子、发型、眼镜等细节之后，却发现拼接起来与自己仍大相径庭。既然现在的 AI 技术已经可以生成惟妙惟肖的 2D 图像，那么在 3D 世界中，我们是否可以拥有一个“AI 雕塑家”，仅通过一张照片就可以帮我们量身定制自己的 3D 数字化身呢？

微软亚洲研究院新提出的 3D 生成扩散模型 Roll-out Diffusion Network (RODIN）可以轻松做到。让我们先来看看 RODIN 的实力吧！

(a) 给定的照片

(b)生成的虚拟形象

图1：给定一张照片，RODIN 模型即可生成虚拟形象

(a）输入文字“留卷发和大胡子穿着黑色皮夹克的男性”

(b) 输入文字“红色衣着非洲发型的女性”

图2：给定文本描述，RODIN 模型可直接生成虚拟形象

与传统 3D 建模需要投入大量人力成本、制作过程繁琐不同的是，RODIN 以底层思路的创新突破与精巧的模型设计，突破了二次元到三次元的结界，实现了只输入一张图片或一句文字就能在几秒之内生成定制的 3D 数字化身的能力。在此之前，AI 生成技术还仅仅围绕 2D 图像进行创作，RODIN 模型的出现也将极大地推动 AI 在 3D 生成领域的进步。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

论文链接：

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

https://arxiv.org/abs/2212.06135

项目页面：

https://3d-avatar-diffusion.microsoft.com

RODIN模型首次将

扩散模型应用于3D训练数据

在 3D 生成领域，尽管此前有不少研究利用 GAN（生成对抗网络）或 VAE（变分自动编码器）技术，从大量 2D 图像训练数据中生成 3D 图像，但结果却不尽如人意，“两面派”、“三头哪吒”等抽象派 3D 图像时有出现。科研人员们认为，造成这种现象的原因在于这些方法存在一个基础的欠定（ill posed）问题，也就是说由于单视角图片存在几何二义性，从仅仅通过大量的 2D 数据很难学到高质量 3D 化身的合理分布，所以才造成了各种不完美的生成结果。

对此，微软亚洲研究院的研究员们转变思路，首次提出 3D Diffusion Model，利用扩散模型的表达能力来建模 3D 内容。这种方法通过多张视角图来训练 3D 模型，消除了歧义性、二义性所带来的“四不象”结果，从而得到一个正确解，创建出更逼真的 3D 形象。

然而，要实现这种方法，还需要克服三个难题：

首先，尽管扩散模型此前在 2D 内容生成上取得巨大成功，将其应用在 3D 数据上并没有可参考的实践方法和可遵循的前例。如何将扩散模型用于生成 3D 模型的多视角图，是研究员们找到的关键切入点；
其次，机器学习模型的训练需要海量的数据，但一个多视图、一致且多样、高质量和大规模的 3D 图像数据很难获取，还存在隐私和版权等方面的风险。网络公开的 3D 图像又无法保证多视图的一致性，且数据量也不足以支撑 3D 模型的训练；
第三，在机器上直接拓展 2D 扩散模型至 3D 生成，所需的内存存储与计算开销几乎无法承受。

多项技术创新让RODIN模型

以低成本生成高质量的3D图像

为了解决上述难题，微软亚洲研究院的研究员们创新地提出了 RODIN 扩散模型，并在实验中取得了优异的效果，超越了现有模型的 SOTA 水平。

RODIN 模型采用神经辐射场（NeRF）方法，并借鉴英伟达的 EG3D 工作，将 3D 空间紧凑地表达为空间三个互相垂直的特征平面（Triplane），并将这些图展开至单个 2D 特征平面中，再执行 3D 感知扩散。具体而言，就是将 3D 空间在横、纵、垂三个正交平面视图上以二维特征展开，这样不仅可以让 RODIN 模型使用高效的 2D 架构进行 3D 感知扩散，将三维图像降维成二维图像也大幅降低了计算复杂度和计算成本。

图3：3D 感知卷积高效处理 3D 特征。（左图) 用三平面（triplane）表达 3D 空间，此时底部特征平面的特征点对应于另外两个特征平面的两条线。（右图）引入 3D 感知卷积处理展开的 2D 特征平面，同时考虑到三个平面的三维固有对应关系。

要实现 3D 图像的生成需要三个关键要素：

3D 感知卷积，确保降维后的三个平面的内在关联。传统 2D 扩散中使用的 2D 卷积神经网络（CNN）并不能很好地处理 Triplane 特征图。而 3D 感知卷积并不是简单生成三个 2D 特征平面，而是在处理这样的 3D 表达时，考虑了其固有的三维特性，即三个视图平面中其中一个视图的 2D 特征本质上是 3D 空间中一条直线的投影，因此与其他两个平面中对应的直线投影特征存在关联性。为了实现跨平面通信，研究员们在卷积中考虑了这样的 3D 相关性，因此高效地用 2D 的方式合成 3D 细节。
隐空间协奏三平面 3D 表达生成。研究员们通过隐向量来协调特征生成，使其在整个三维空间中具有全局一致性，从而获得更高质量的化身并实现语义编辑，同时，还通过使用训练数据集中的图像训练额外的图像编码器，该编码器可提取语义隐向量作为扩散模型的条件输入。这样，整体的生成网络可视为自动编码器，用扩散模型作为解码隐空间向量。对于语义可编辑性，研究员们采用了一个冻结的 CLIP 图像编码器，与文本提示共享隐空间。
层级式合成，生成高保真立体细节。研究员们利用扩散模型先生成了一个低分辨率的三视图平面（64×64），然后再通过扩散上采样生成高分辨率的三平面（256×256）。这样，基础扩散模型集中于整体 3D 结构生成，而后续上采样模型专注于细节生成。

图4：RODIN 模型概述

此外，在训练数据集方面，研究员们借助开源的三维渲染软件 Blender，通过随机组合画师手动创建的虚拟 3D 人物图像，再加上从大量头发、衣服、表情和配饰中随机采样，进而创建了10万个合成个体，同时为每个个体渲染出了300个分辨率为256*256的多视图图像。在文本到 3D 头像的生成上，研究员们采用了 LAION-400M数据集的人像子集训练从输入模态到 3D 扩散模型隐空间的映射，最终让 RODIN 模型可以只使用一张 2D 图像或一句文字描述就能创建出逼真的 3D 头像。

图5：利用文字做 3D 肖像编辑

图6：更多随机生成的虚拟形象（更多结果请点击阅读原文，移步项目网页）

微软亚洲研究院主管研究员张博表示，“此前，3D 领域的研究受限于技术或高成本，生成的 3D 结果主要是点云、体素、网格等形式的粗糙几何体，而 RODIN 模型可创建出前所未有的 3D 细节，为 3D 内容生成研究打开了新的思路。我们希望 RODIN 模型在未来可以成为 3D 内容生成领域的基础模型，为后续的学术研究和产业应用创造更多可能。”

让3D内容生成

更个性、更普适

现如今，虚拟人、数字化身在电影、游戏、元宇宙、线上会议、电商等行业和场景中的需求日益增多，但其制作流程却相当复杂专业，每个高质量的化身都必须由专业的 3D 画师精心创作，尤其是在建模头发和面部毛发时，甚至需要逐根绘制，其中的艰辛历程外人难以想象。微软亚洲研究院 RODIN 模型的快速生成能力，可以协助 3D 画师减轻数字化身创作的工作量，提升效率，促进 3D 内容产业的发展。

目前，3D 真人化身的创建耗时耗力，很多项目背后可能都有一个上百人的团队在做支持，实现方法更多的是借助虚幻引擎、游戏引擎，再加上画师的专业绘画能力，才能设计出高度逼真的真人定制 3D 化身，普通大众很难使用这些服务，通常只能得到一些现成的、与本人毫无关连的化身。而 RODIN 模型低成本和可定制化的 3D 建模技术，兼具普适性和个性化，让 3D 内容生成走向大众成为可能。

刘潏

微软亚洲研究院资深产品经理

尽管当前 RODIN 模型生成结果主要为半身的 3D 头像，但是其技术能力并不仅限于 3D 头像的生成。随着包括花草树木、建筑、汽车家居等更多类别和更大规模训练数据的学习，RODIN 模型将能生成更多样的 3D 图像。下一步，微软亚洲研究院的研究员们将用 RODIN 模型探索更多 3D 场景创建的可能，向一个模型生成 3D 万物的终极目标不断努力。

关注微软科技视频号

了解更多科技前沿资讯

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6636

浏览量
104582

原文标题：一张照片定制自己的3D数字化身？

文章出处：【微信号：mstech2014，微信公众号：微软科技】欢迎添加关注！文章转载请注明出处。

腾讯混元3D AI创作引擎正式上线

或上传一张图片，该引擎便能迅速生成与之对应的3D模型。这一功能极大地降低了3D内容创作的门槛，使得更多用户能够轻松涉足这一领域。除了基础的

发表于 01-22 10:26 •184次阅读

3D打印汽车零部件模型定制服务，多种材料、快速打印-CASAIM

在汽车行业中，3D打印技术正以其独特的优势，推动着从设计到快速制造的革命性变化。3D打印技术不仅加快了原型制作的流程，还为最终零部件的生产提供了新的可能性。以下是CASAIM的3D打印汽车零部件模型

发表于 11-20 16:21 •355次阅读

<b class='flag-5'>3D</b>打印汽车零部件模型<b class='flag-5'>定制</b>服务，多种材料、快速打印-CASAIM

3D扫描与数字拓片：打造文化遗产的数字复本

拓片作为一种记录和传承传统石刻文化的方式，承载了厚重的历史文化信息。然而，传统的拓片手段在文物保存和展示方面存在许多局限。随着科技的进步，通过3D扫描制作数字拓片，不仅能够精准采集石刻的每一

发表于 10-31 17:22 •265次阅读

3D扫描技术医疗领域创新实践，积木易搭3D扫描仪Mole助力定制个性化手臂康复辅具

1、“3D扫描+3D打印”技术为矫形修复、医疗辅助器具定制等领域带来突破性创新近年来，随着AI、大数据、3D扫描、3D打印、云计算、物联网

发表于 10-31 11:25 •302次阅读

3D打印技术应用的未来

3D打印技术作为一种革命性的制造技术，正逐渐改变着传统制造业的面貌。其通过数字化模型的逐层叠加，能够制造出复杂形状的物体，这种增材制造方式在多个领域展现出巨大的潜力和广泛的应用前景。一

发表于 10-25 09:28 •848次阅读

发掘3D文件格式的无限潜力：打造沉浸式虚拟世界

在当今数字化时代，3D技术的应用范围日益广泛，涵盖电影后期制作、产品原型设计、虚拟现实（VR）、增强现实（AR）、游戏等众多领域。而3D文件格式作为3D技术的核心组成部分，对于实现

发表于 09-26 18:14 •1633次阅读

物联网行业中的模具定制方案_3D打印材料选型分享

3D打印材料介绍 3D打印技术是一种快速制造技术，它可以将数字模型转化为实体物体。3D打印材料是3D

发表于 09-25 10:59 •413次阅读

广东三维扫描人物雕塑还原3D建模测绘数字化逆向工程服务-CASAIM

3D数字化

中科院广州电子
发布于 :2024年08月30日 09:47:50

广州三维扫描石雕狮子逆向设计3D数字化建模存档-CASAIM

3D数字化

中科院广州电子
发布于 :2024年08月30日 09:39:39

3D 建模：塑造未来的无限可能

在当今数字化飞速发展的时代，3D 建模正以惊人的力量改变着我们的生活和工作方式。它不仅是一项创新的技术，更是开启未来之门的钥匙。 3D或三维这个术语指的是三个空间维度：宽度、高度和深度

发表于 08-16 18:24 •1660次阅读

扫描“红色文物”，致敬峥嵘岁月 3D数字化助力文物保护与传播

报道了遵义会议纪念馆文物数字化保护工程，思看科技有幸参与该项目的三维数字化采集工作，为大量馆藏文物建立三维数字档案。 3D扫描技术结合3D打

发表于 08-01 20:26 •360次阅读

能源装备数字化 3D扫描助力大型汽轮机铸件余量检测及精准划线！

“数字中国”战略正日益成为产业转型升级的强大引擎。以数字化转型为核心，驱动能源行业向低碳、绿色、高质量发展，既是当务之急，也是大势所趋。将3D数字化技术引入能源行业装备制造各个环节，能

发表于 07-30 11:36 •319次阅读

欢创播报腾讯元宝首发3D生成应用

1 腾讯元宝首发3D生成应用只需一张照片，便能迅速打造独一无二的3D角色。7月16日，腾讯旗下大模型应用“腾讯元宝”上线了“3D角色梦工厂

发表于 07-18 11:39 •854次阅读

裸眼3D相框——不一样的智能相框

在科技的快速发展下，我们的生活正在逐渐变得丰富多彩。传统的2D照片已经无法满足我们对于美好记忆的追求，而裸眼3D技术的出现，让我们有机会将回忆变得更加立体、生动。今天，我要向大家介绍一

发表于 05-31 11:40 •484次阅读

2张图2秒钟完成3D建模！3D内容生成工具DUSt3R爆火，国产厂商有哪些机会？

电子发烧友网报道（文/吴子鹏）近日，一款名为DUSt3R的AI新工具在GitHub上爆火。DUSt3R能够在短短2秒钟内通过仅有2张图片完成3D

发表于 03-06 00:10 •4247次阅读