0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ICLR 2023 Spotlight:2D图像转换3D

3D视觉工坊 来源:机器之心 2023-02-22 14:04 次阅读

背景

利用 NeRF 提供的可微渲染算法,三维生成算法,例如 EG3D、StyleSDF,在静态物体类别的生成上已经有了非常好的效果。但是人体相较于人脸或者 CAD 模型等类别,在外观和几何上有更大的复杂度,并且人体是可形变的,因此从二维图片中学习三维人体生成仍然是非常困难的任务。研究人员在这个任务上已经有了一些尝试,例如 ENARF-GAN、GNARF,但是受限于低效的人体表达,他们无法实现高分辨率的生成,因此生成质量也非常低。

为了解决这个问题,本文提出了高效的组合的三维人体 NeRF 表示,用以实现高分辨率的(512x256)三维人体 GAN 训练与生成。下面将介绍本文提出的人体 NeRF 表示,以及三维人体 GAN 训练框架。

高效的人体 NeRF 表示

本文提出的人体 NeRF 基于参数化人体模型 SMPL,它提供了方便的人体姿势以及形状的控制。进行 NeRF 建模时,如下图所示,本文将人体分为 16 个部分。每一个部分对应于一个小的 NeRF 网络进行局部的建模。在渲染每一个局部的时候,本文只需要推理局部 NeRF。这种稀疏的渲染方式,在较低的计算资源下,也可以实现原生高分辨率的渲染。

例如,渲染体型动作参数分别为的人体时,首先根据相机参数采样光线;光线上的采样点根据与 SMPL 模型的相对关系进行反向蒙皮操作(inverse linear blend skinning),将 posed 空间中的采样点转化到 canonical 空间中。接着计算 Canonical 空间的采样点属于某个或者某几个局部 NeRF 的 bounding box 中,再进行 NeRF 模型的推理,得到每个采样点对应的颜色与密度;当某个采样点落到多个局部 NeRF 的重叠区域,则会对每个 NeRF 模型进行推理,将多个结果用 window function 进行插值;最后这些信息被用于光线的积分,得到最终的渲染图。

6a815c24-b247-11ed-bfe3-dac502259ad0.png

三维人体 GAN 框架

基于提出的高效的人体 NeRF 表达,本文实现了三维人体 GAN 训练框架。在每一次训练迭代中,本文首先从数据集中采样一个 SMPL 的参数以及相机参数,并随机生成一个高斯噪声 z。利用本文提出的人体 NeRF,本文可以将采样出的参数渲染成一张二维人体图片,作为假样本。再利用数据集中的真实样本,本文进行 GAN 的对抗训练。

6a97e642-b247-11ed-bfe3-dac502259ad0.png

极度不平衡的数据集

二维人体数据集,例如 DeepFashion,通常是为二维视觉任务准备的,因此人体的姿态多样性非常受限。为了量化不平衡的程度,本文统计了 DeepFashion 中模特脸部朝向的频率。如下图所示,橙色的线代表了 DeepFashion 中人脸朝向的分布,可见是极度不平衡的,对于学习三维人体表征造成了困难。为了缓解这一问题,我们提出了由人体姿态指导的采样方式,将分布曲线拉平,如下图中其他颜色的线所示。这可以让训练过程中的模型见到更多样以及更大角度的人体图片,从而帮助三维人体几何的学习。我们对采样参数进行了实验分析,从下面的表格中可见,加上人体姿态指导的采样方式后,虽然图像质量(FID)会有些微下降,但是学出的三维几何(Depth)显著变好。

6ab2b4ae-b247-11ed-bfe3-dac502259ad0.png

6af69688-b247-11ed-bfe3-dac502259ad0.png

高质量的生成结果

下图展示了一些 EVA3D 的生成结果,EVA3D 可以随机采样人体样貌,并可控制渲染相机参数,人体姿势以及体型。

6b06bf04-b247-11ed-bfe3-dac502259ad0.png

本文在四个大规模人体数据集上进行了实验,分别是 DeepFashion,SHHQ,UBCFashion,AIST。该研究对比了最先进的静态三维物体生成算法 EG3D 与 StyleSDF。同时研究者也比较了专门针对三维人生成的算法 ENARF-GAN。在指标的选择上,本文兼顾渲染质量的评估(FID/KID)、人体控制的准确程度(PCK)以及几何生成的质量(Depth)。如下图所示,本文在所有数据集,所有指标上均大幅超越之前的方案。

6b3cf0d8-b247-11ed-bfe3-dac502259ad0.png

应用潜力

最后,本文也展示了 EVA3D 的一些应用潜力。首先,该研究测试了在隐空间中进行差值。如下图所示,本文能够在两个三维人之间进行平滑的变化,且中间结果均保持较高的质量。此外,本文也进行了 GAN inversion 的实验,研究者使用二维 GAN inversion 中常用的算法 Pivotal Tuning Inversion。如下面右图所示,该方法可以较好的还原重建目标的外观,但是几何部分丢失了很多细节。可见,三维 GAN 的 inversion 仍然是一个很有挑战性的任务。

6b679afe-b247-11ed-bfe3-dac502259ad0.png

结语

本文提出了首个高清三维人体 NeRF 生成算法 EVA3D,并且仅需使用二维人体图像数据即可训练。EVA3D 在多个大规模人体数据集上性能达到最佳,并且展现出了在下游任务上进行应用的潜力。EVA3D 的训练与测试代码均已经开源,欢迎大家前去试用!

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4608

    浏览量

    92856
  • 图像
    +关注

    关注

    2

    文章

    1084

    浏览量

    40458
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1935

    浏览量

    73340

原文标题:ICLR 2023 Spotlight | 2D图像转换3D

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何同时获取2d图像序列和相应的3d点云?

    如何同时获取2d图像序列和相应的3d点云?以上来自于谷歌翻译以下为原文How to obtain the sequence of 2d image and corresponding
    发表于 11-13 11:25

    请问怎么才能将AD中的3D封装库转换2D的封装库?

    请问怎么将AD中的3D封装库转换2D的封装库
    发表于 06-05 00:35

    为什么3D2D模型不能相互转换

    AD17.1.5软件,3D2D模型不能相互转换,按3可以进入3D模型,按2不可以进入
    发表于 09-20 05:35

    全球首款2D/3D视频转换实时处理芯片:DA8223

      Dialog半导体股份有限公司日前宣布推出全球首款2D/3D影像转换实时处理芯片:DA8223.该芯片为包括智能手机和平板电脑等在内的各种便携式设备提供了2D/
    发表于 12-14 09:17 5188次阅读

    2D3D视频自动转换系统

    完成系统界面的设置及控制、显示等功能,其DSP处理器实现图像分割和渲染等核心算法,实现了1个高效的2D3D视频的视频转换系统。2D
    发表于 03-06 14:20 1次下载
    <b class='flag-5'>2D</b>到<b class='flag-5'>3D</b>视频自动<b class='flag-5'>转换</b>系统

    适用于显示屏的2D多点触摸与3D手势模块

    本视频将展示结合多点触摸与3D手势模块的Microchip显示解决方案。支持2D/3D功能的显示屏是Microchip基于GestIC®技术的最新解决方案。显示屏上结合了3D手势与
    的头像 发表于 06-06 02:45 5138次阅读

    如何把OpenGL中3D坐标转换2D坐标

    在OpenGL中,一切事物都在3D空间中,但我们的屏幕坐标确实2D像素数组,OpenGL大部分工作就是把3D坐标转换成适应屏幕的2D像素。
    的头像 发表于 07-09 10:40 8589次阅读

    微软新AI框架可在2D图像上生成3D图像

    已经有不少机构在将 2D 图像转换3D 形式的方面进行了尝试,包括 Facebook、Nvidia 等公司的 AI 研究实验室,或是类似 Threedy.AI 这样的初创公司。
    的头像 发表于 03-07 14:23 3039次阅读

    阿里研发全新3D AI算法,2D图片搜出3D模型

    AI技术的研究正在从2D走向更高难度的3D。12月3日,记者获悉,阿里技术团队研发了全新3D AI算法,可基于2D图片精准搜索出相应的
    的头像 发表于 12-04 15:49 3533次阅读

    谷歌发明的由2D图像生成3D图像技术解析

    谷歌发明的由2D图像生成3D图像的技术,利用3D估计神经网络图像信息的补全以及预测,融合了拍摄角
    的头像 发表于 12-24 12:55 4764次阅读
    谷歌发明的由<b class='flag-5'>2D</b><b class='flag-5'>图像</b>生成<b class='flag-5'>3D</b><b class='flag-5'>图像</b>技术解析

    3d人脸识别和2d人脸识别的区别

    首先是3d人脸识别和2d人脸识别图像数据获取不同。3D人脸识别是以3D摄像头立体成像,而2D是以
    发表于 02-05 16:00 4.6w次阅读

    如何直接建立2D图像中的像素和3D点云中的点之间的对应关系

    准确描述和检测 2D3D 关键点对于建立跨图像和点云的对应关系至关重要。尽管已经提出了大量基于学习的 2D3D 局部特征描述符和
    的头像 发表于 10-18 09:20 8761次阅读

    使用Python从2D图像进行3D重建过程详解

    有许多不同的方法和算法可用于从2D图像执行3D重建。选择的方法取决于诸如输入图像的质量、摄像机校准信息的可用性以及重建的期望准确性和速度等因素。
    的头像 发表于 12-05 14:07 3097次阅读
    使用Python从<b class='flag-5'>2D</b><b class='flag-5'>图像</b>进行<b class='flag-5'>3D</b>重建过程详解

    2D3D视觉技术的比较

    作为一个多年经验的机器视觉工程师,我将详细介绍2D3D视觉技术的不同特点、应用场景以及它们能够解决的问题。在这个领域内,2D3D视觉技术是实现自动化和智能制造的关键技术,它们在工业
    的头像 发表于 12-21 09:19 1124次阅读

    一文了解3D视觉和2D视觉的区别

    一文了解3D视觉和2D视觉的区别 3D视觉和2D视觉是两种不同的视觉模式,其区别主要体现在立体感、深度感和逼真度上。本文将详细阐述这些区别,并解释为什么
    的头像 发表于 12-25 11:15 3028次阅读