0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一张照片定制自己的3D数字化身?

微软科技 来源:未知 2023-03-22 00:15 次阅读

近日,由微软亚洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型,首次实现了利用生成扩散模型在 3D 训练数据上自动生成 3D 数字化身(Avatar)的功能。仅需一张图片甚至一句文字描述,RODIN 扩散模型就能秒级生成 3D 化身,让低成本定制 3D 头像成为可能,为 3D 内容创作领域打开了更多想象空间。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

创建个性化的用户形象在如今的数字世界中非常普遍,很多 3D 游戏都设有这一功能。然而在创建个人形象的过程中,繁琐的细节调整常常让人又爱又恨,有时候大费周章地选了与自己相似的眼睛、鼻子、发型、眼镜等细节之后,却发现拼接起来与自己仍大相径庭。既然现在的 AI 技术已经可以生成惟妙惟肖的 2D 图像,那么在 3D 世界中,我们是否可以拥有一个“AI 雕塑家”,仅通过一张照片就可以帮我们量身定制自己的 3D 数字化身呢?

微软亚洲研究院新提出的 3D 生成扩散模型 Roll-out Diffusion Network (RODIN)可以轻松做到。让我们先来看看 RODIN 的实力吧!

46e5c67a-c803-11ed-bfe3-dac502259ad0.png46ff09f0-c803-11ed-bfe3-dac502259ad0.jpg

(a) 给定的照片

47172904-c803-11ed-bfe3-dac502259ad0.gif

(b)生成的虚拟形象

图1:给定一张照片,RODIN 模型即可生成虚拟形象

46e5c67a-c803-11ed-bfe3-dac502259ad0.png4768dab0-c803-11ed-bfe3-dac502259ad0.gif

(a)输入文字“留卷发和大胡子穿着黑色皮夹克的男性”

48ebff20-c803-11ed-bfe3-dac502259ad0.gif

(b) 输入文字“红色衣着非洲发型的女性”

图2:给定文本描述,RODIN 模型可直接生成虚拟形象

与传统 3D 建模需要投入大量人力成本、制作过程繁琐不同的是,RODIN 以底层思路的创新突破与精巧的模型设计,突破了二次元到三次元的结界,实现了只输入一张图片或一句文字就能在几秒之内生成定制的 3D 数字化身的能力。在此之前,AI 生成技术还仅仅围绕 2D 图像进行创作,RODIN 模型的出现也将极大地推动 AI 在 3D 生成领域的进步。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

论文链接:

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

https://arxiv.org/abs/2212.06135

项目页面:

https://3d-avatar-diffusion.microsoft.com

49452a8c-c803-11ed-bfe3-dac502259ad0.png

RODIN模型首次将

扩散模型应用于3D训练数据

在 3D 生成领域,尽管此前有不少研究利用 GAN(生成对抗网络)或 VAE(变分自动编码器)技术,从大量 2D 图像训练数据中生成 3D 图像,但结果却不尽如人意,“两面派”、“三头哪吒”等抽象派 3D 图像时有出现。科研人员们认为,造成这种现象的原因在于这些方法存在一个基础的欠定(ill posed)问题,也就是说由于单视角图片存在几何二义性,从仅仅通过大量的 2D 数据很难学到高质量 3D 化身的合理分布,所以才造成了各种不完美的生成结果。

对此,微软亚洲研究院的研究员们转变思路,首次提出 3D Diffusion Model,利用扩散模型的表达能力来建模 3D 内容。这种方法通过多张视角图来训练 3D 模型,消除了歧义性、二义性所带来的“四不象”结果,从而得到一个正确解,创建出更逼真的 3D 形象。

然而,要实现这种方法,还需要克服三个难题:

  • 首先,尽管扩散模型此前在 2D 内容生成上取得巨大成功,将其应用在 3D 数据上并没有可参考的实践方法和可遵循的前例。如何将扩散模型用于生成 3D 模型的多视角图,是研究员们找到的关键切入点;

  • 其次,机器学习模型的训练需要海量的数据,但一个多视图、一致且多样、高质量和大规模的 3D 图像数据很难获取,还存在隐私和版权等方面的风险。网络公开的 3D 图像又无法保证多视图的一致性,且数据量也不足以支撑 3D 模型的训练;

  • 第三,在机器上直接拓展 2D 扩散模型至 3D 生成,所需的内存存储与计算开销几乎无法承受。

49452a8c-c803-11ed-bfe3-dac502259ad0.png

多项技术创新让RODIN模型

以低成本生成高质量的3D图像

为了解决上述难题,微软亚洲研究院的研究员们创新地提出了 RODIN 扩散模型,并在实验中取得了优异的效果,超越了现有模型的 SOTA 水平。

RODIN 模型采用神经辐射场(NeRF)方法,并借鉴英伟达的 EG3D 工作,将 3D 空间紧凑地表达为空间三个互相垂直的特征平面(Triplane),并将这些图展开至单个 2D 特征平面中,再执行 3D 感知扩散。具体而言,就是将 3D 空间在横、纵、垂三个正交平面视图上以二维特征展开,这样不仅可以让 RODIN 模型使用高效的 2D 架构进行 3D 感知扩散,将三维图像降维成二维图像也大幅降低了计算复杂度和计算成本。

46e5c67a-c803-11ed-bfe3-dac502259ad0.png4980cb00-c803-11ed-bfe3-dac502259ad0.png

图3:3D 感知卷积高效处理 3D 特征。(左图) 用三平面(triplane)表达 3D 空间,此时底部特征平面的特征点对应于另外两个特征平面的两条线。(右图)引入 3D 感知卷积处理展开的 2D 特征平面,同时考虑到三个平面的三维固有对应关系。

要实现 3D 图像的生成需要三个关键要素:

  • 3D 感知卷积,确保降维后的三个平面的内在关联。传统 2D 扩散中使用的 2D 卷积神经网络(CNN)并不能很好地处理 Triplane 特征图。而 3D 感知卷积并不是简单生成三个 2D 特征平面,而是在处理这样的 3D 表达时,考虑了其固有的三维特性,即三个视图平面中其中一个视图的 2D 特征本质上是 3D 空间中一条直线的投影,因此与其他两个平面中对应的直线投影特征存在关联性。为了实现跨平面通信,研究员们在卷积中考虑了这样的 3D 相关性,因此高效地用 2D 的方式合成 3D 细节。

  • 隐空间协奏三平面 3D 表达生成。研究员们通过隐向量来协调特征生成,使其在整个三维空间中具有全局一致性,从而获得更高质量的化身并实现语义编辑,同时,还通过使用训练数据集中的图像训练额外的图像编码器,该编码器可提取语义隐向量作为扩散模型的条件输入。这样,整体的生成网络可视为自动编码器,用扩散模型作为解码隐空间向量。对于语义可编辑性,研究员们采用了一个冻结的 CLIP 图像编码器,与文本提示共享隐空间。

  • 层级式合成,生成高保真立体细节。研究员们利用扩散模型先生成了一个低分辨率的三视图平面(64×64),然后再通过扩散上采样生成高分辨率的三平面(256×256)。这样,基础扩散模型集中于整体 3D 结构生成,而后续上采样模型专注于细节生成。

46e5c67a-c803-11ed-bfe3-dac502259ad0.png49a95782-c803-11ed-bfe3-dac502259ad0.png

图4:RODIN 模型概述

此外,在训练数据集方面,研究员们借助开源的三维渲染软件 Blender,通过随机组合画师手动创建的虚拟 3D 人物图像,再加上从大量头发、衣服、表情和配饰中随机采样,进而创建了10万个合成个体,同时为每个个体渲染出了300个分辨率为256*256的多视图图像。在文本到 3D 头像的生成上,研究员们采用了 LAION-400M数据集的人像子集训练从输入模态到 3D 扩散模型隐空间的映射,最终让 RODIN 模型可以只使用一张 2D 图像或一句文字描述就能创建出逼真的 3D 头像。

46e5c67a-c803-11ed-bfe3-dac502259ad0.png49e4d758-c803-11ed-bfe3-dac502259ad0.gif

图5:利用文字做 3D 肖像编辑

46e5c67a-c803-11ed-bfe3-dac502259ad0.png4b117a1e-c803-11ed-bfe3-dac502259ad0.gif

图6:更多随机生成的虚拟形象 (更多结果请点击阅读原文,移步项目网页)

微软亚洲研究院主管研究员张博表示,“此前,3D 领域的研究受限于技术或高成本,生成的 3D 结果主要是点云、体素、网格等形式的粗糙几何体,而 RODIN 模型可创建出前所未有的 3D 细节,为 3D 内容生成研究打开了新的思路。我们希望 RODIN 模型在未来可以成为 3D 内容生成领域的基础模型,为后续的学术研究和产业应用创造更多可能。”

49452a8c-c803-11ed-bfe3-dac502259ad0.png

让3D内容生成

更个性、更普适

现如今,虚拟人、数字化身在电影、游戏、元宇宙、线上会议、电商等行业和场景中的需求日益增多,但其制作流程却相当复杂专业,每个高质量的化身都必须由专业的 3D 画师精心创作,尤其是在建模头发和面部毛发时,甚至需要逐根绘制,其中的艰辛历程外人难以想象。微软亚洲研究院 RODIN 模型的快速生成能力,可以协助 3D 画师减轻数字化身创作的工作量,提升效率,促进 3D 内容产业的发展。

目前,3D 真人化身的创建耗时耗力,很多项目背后可能都有一个上百人的团队在做支持,实现方法更多的是借助虚幻引擎、游戏引擎,再加上画师的专业绘画能力,才能设计出高度逼真的真人定制 3D 化身,普通大众很难使用这些服务,通常只能得到一些现成的、与本人毫无关连的化身。而 RODIN 模型低成本和可定制化的 3D 建模技术,兼具普适性和个性化,让 3D 内容生成走向大众成为可能。

刘潏

微软亚洲研究院资深产品经理


尽管当前 RODIN 模型生成结果主要为半身的 3D 头像,但是其技术能力并不仅限于 3D 头像的生成。随着包括花草树木、建筑、汽车家居等更多类别和更大规模训练数据的学习,RODIN 模型将能生成更多样的 3D 图像。下一步,微软亚洲研究院的研究员们将用 RODIN 模型探索更多 3D 场景创建的可能,向一个模型生成 3D 万物的终极目标不断努力。

关注微软科技视频

了解更多科技前沿资讯

523f6710-c803-11ed-bfe3-dac502259ad0.png    

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6600

    浏览量

    104129

原文标题:一张照片定制自己的3D数字化身?

文章出处:【微信号:mstech2014,微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    3D打印汽车零部件模型定制服务,多种材料、快速打印-CASAIM

    在汽车行业中,3D打印技术正以其独特的优势,推动着从设计到快速制造的革命性变化。3D打印技术不仅加快了原型制作的流程,还为最终零部件的生产提供了新的可能性。以下是CASAIM的3D打印汽车零部件模型
    的头像 发表于 11-20 16:21 269次阅读
    <b class='flag-5'>3D</b>打印汽车零部件模型<b class='flag-5'>定制</b>服务,多种材料、快速打印-CASAIM

    3D扫描与数字拓片:打造文化遗产的数字复本

    拓片作为种记录和传承传统石刻文化的方式,承载了厚重的历史文化信息。然而,传统的拓片手段在文物保存和展示方面存在许多局限。随着科技的进步,通过3D扫描制作数字拓片,不仅能够精准采集石刻的每
    的头像 发表于 10-31 17:22 210次阅读
    <b class='flag-5'>3D</b>扫描与<b class='flag-5'>数字</b>拓片:打造文化遗产的<b class='flag-5'>数字</b>复本

    3D扫描技术医疗领域创新实践,积木易搭3D扫描仪Mole助力定制个性化手臂康复辅具

    1、“3D扫描+3D打印”技术为矫形修复、医疗辅助器具定制等领域带来突破性创新 近年来,随着AI、大数据、3D扫描、3D打印、云计算、物联网
    的头像 发表于 10-31 11:25 239次阅读
    <b class='flag-5'>3D</b>扫描技术医疗领域创新实践,积木易搭<b class='flag-5'>3D</b>扫描仪Mole助力<b class='flag-5'>定制</b>个性化手臂康复辅具

    3D打印技术应用的未来

    3D打印技术作为种革命性的制造技术,正逐渐改变着传统制造业的面貌。其通过数字化模型的逐层叠加,能够制造出复杂形状的物体,这种增材制造方式在多个领域展现出巨大的潜力和广泛的应用前景。
    的头像 发表于 10-25 09:28 630次阅读

    发掘3D文件格式的无限潜力:打造沉浸式虚拟世界

    在当今数字化时代,3D技术的应用范围日益广泛,涵盖电影后期制作、产品原型设计、虚拟现实(VR)、增强现实(AR)、游戏等众多领域。而3D文件格式作为3D技术的核心组成部分,对于实现
    的头像 发表于 09-26 18:14 1544次阅读
    发掘<b class='flag-5'>3D</b>文件格式的无限潜力:打造沉浸式虚拟世界

    物联网行业中的模具定制方案_3D打印材料选型分享

    3D打印材料介绍 3D打印技术是种快速制造技术,它可以将数字模型转化为实体物体。3D打印材料是3D
    的头像 发表于 09-25 10:59 347次阅读
    物联网行业中的模具<b class='flag-5'>定制</b>方案_<b class='flag-5'>3D</b>打印材料选型分享

    广东三维扫描人物雕塑还原3D建模测绘数字化逆向工程服务-CASAIM

    3D数字化
    中科院广州电子
    发布于 :2024年08月30日 09:47:50

    广州三维扫描石雕狮子逆向设计3D数字化建模存档-CASAIM

    3D数字化
    中科院广州电子
    发布于 :2024年08月30日 09:39:39

    3D 建模:塑造未来的无限可能

    在当今数字化飞速发展的时代,3D 建模正以惊人的力量改变着我们的生活和工作方式。它不仅是项创新的技术,更是开启未来之门的钥匙。 3D或三维这个术语指的是三个空间维度:宽度、高度和深度
    的头像 发表于 08-16 18:24 1581次阅读

    扫描“红色文物”,致敬峥嵘岁月 3D数字化助力文物保护与传播

    报道了遵义会议纪念馆文物数字化保护工程,思看科技有幸参与该项目的三维数字化采集工作,为大量馆藏文物建立三维数字档案。 3D扫描技术结合3D
    的头像 发表于 08-01 20:26 278次阅读
    扫描“红色文物”,致敬峥嵘岁月  <b class='flag-5'>3D</b><b class='flag-5'>数字化</b>助力文物保护与传播

    能源装备数字化 3D扫描助力大型汽轮机铸件余量检测及精准划线!

    数字中国”战略正日益成为产业转型升级的强大引擎。以数字化转型为核心,驱动能源行业向低碳、绿色、高质量发展,既是当务之急,也是大势所趋。将3D数字化技术引入能源行业装备制造各个环节,能
    的头像 发表于 07-30 11:36 272次阅读
    能源装备<b class='flag-5'>数字化</b>  <b class='flag-5'>3D</b>扫描助力大型汽轮机铸件余量检测及精准划线!

    欢创播报 腾讯元宝首发3D生成应用

    1 腾讯元宝首发3D生成应用 只需一张照片,便能迅速打造独无二的3D角色。7月16日,腾讯旗下大模型应用“腾讯元宝”上线了“3D角色梦工厂
    的头像 发表于 07-18 11:39 759次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b>生成应用

    裸眼3D相框——不样的智能相框

    在科技的快速发展下,我们的生活正在逐渐变得丰富多彩。传统的2D照片已经无法满足我们对于美好记忆的追求,而裸眼3D技术的出现,让我们有机会将回忆变得更加立体、生动。今天,我要向大家介绍
    的头像 发表于 05-31 11:40 421次阅读
    裸眼<b class='flag-5'>3D</b>相框——不<b class='flag-5'>一</b>样的智能相框

    2图2秒钟完成3D建模!3D内容生成工具DUSt3R爆火,国产厂商有哪些机会?

    电子发烧友网报道(文/吴子鹏)近日,款名为DUSt3R的AI新工具在GitHub上爆火。DUSt3R能够在短短2秒钟内通过仅有2图片完成3D
    的头像 发表于 03-06 00:10 4090次阅读
    2<b class='flag-5'>张</b>图2秒钟完成<b class='flag-5'>3D</b>建模!<b class='flag-5'>3D</b>内容生成工具DUSt<b class='flag-5'>3</b>R爆火,国产厂商有哪些机会?

    泰来三维| 高精度工业3D扫描助力模具检测和逆向设计“数字化”发展

    相应的,产品所需的模具结构也变得愈发复杂精密,传统检测方式和测绘工具很难满足些最新需求。高精度工业3D扫描技术的出现,通过获取工件完整的三维数据,为模具检测和逆向设计提供“数字化”破局之法。高精度
    的头像 发表于 01-29 16:22 493次阅读
    泰来三维| 高精度工业<b class='flag-5'>3D</b>扫描助力模具检测和逆向设计“<b class='flag-5'>数字化</b>”发展