ICLR 2023 Spotlight：2D图像转换3D-电子发烧友网

背景

利用 NeRF 提供的可微渲染算法，三维生成算法，例如 EG3D、StyleSDF，在静态物体类别的生成上已经有了非常好的效果。但是人体相较于人脸或者 CAD 模型等类别，在外观和几何上有更大的复杂度，并且人体是可形变的，因此从二维图片中学习三维人体生成仍然是非常困难的任务。研究人员在这个任务上已经有了一些尝试，例如 ENARF-GAN、GNARF，但是受限于低效的人体表达，他们无法实现高分辨率的生成，因此生成质量也非常低。

为了解决这个问题，本文提出了高效的组合的三维人体 NeRF 表示，用以实现高分辨率的（512x256）三维人体 GAN 训练与生成。下面将介绍本文提出的人体 NeRF 表示，以及三维人体 GAN 训练框架。

高效的人体 NeRF 表示

本文提出的人体 NeRF 基于参数化人体模型 SMPL，它提供了方便的人体姿势以及形状的控制。进行 NeRF 建模时，如下图所示，本文将人体分为 16 个部分。每一个部分对应于一个小的 NeRF 网络进行局部的建模。在渲染每一个局部的时候，本文只需要推理局部 NeRF。这种稀疏的渲染方式，在较低的计算资源下，也可以实现原生高分辨率的渲染。

例如，渲染体型动作参数分别为的人体时，首先根据相机参数采样光线；光线上的采样点根据与 SMPL 模型的相对关系进行反向蒙皮操作（inverse linear blend skinning），将 posed 空间中的采样点转化到 canonical 空间中。接着计算 Canonical 空间的采样点属于某个或者某几个局部 NeRF 的 bounding box 中，再进行 NeRF 模型的推理，得到每个采样点对应的颜色与密度；当某个采样点落到多个局部 NeRF 的重叠区域，则会对每个 NeRF 模型进行推理，将多个结果用 window function 进行插值；最后这些信息被用于光线的积分，得到最终的渲染图。

三维人体 GAN 框架

基于提出的高效的人体 NeRF 表达，本文实现了三维人体 GAN 训练框架。在每一次训练迭代中，本文首先从数据集中采样一个 SMPL 的参数以及相机参数，并随机生成一个高斯噪声 z。利用本文提出的人体 NeRF，本文可以将采样出的参数渲染成一张二维人体图片，作为假样本。再利用数据集中的真实样本，本文进行 GAN 的对抗训练。

极度不平衡的数据集

二维人体数据集，例如 DeepFashion，通常是为二维视觉任务准备的，因此人体的姿态多样性非常受限。为了量化不平衡的程度，本文统计了 DeepFashion 中模特脸部朝向的频率。如下图所示，橙色的线代表了 DeepFashion 中人脸朝向的分布，可见是极度不平衡的，对于学习三维人体表征造成了困难。为了缓解这一问题，我们提出了由人体姿态指导的采样方式，将分布曲线拉平，如下图中其他颜色的线所示。这可以让训练过程中的模型见到更多样以及更大角度的人体图片，从而帮助三维人体几何的学习。我们对采样参数进行了实验分析，从下面的表格中可见，加上人体姿态指导的采样方式后，虽然图像质量（FID）会有些微下降，但是学出的三维几何（Depth）显著变好。

高质量的生成结果

下图展示了一些 EVA3D 的生成结果，EVA3D 可以随机采样人体样貌，并可控制渲染相机参数，人体姿势以及体型。

本文在四个大规模人体数据集上进行了实验，分别是 DeepFashion，SHHQ，UBCFashion，AIST。该研究对比了最先进的静态三维物体生成算法 EG3D 与 StyleSDF。同时研究者也比较了专门针对三维人生成的算法 ENARF-GAN。在指标的选择上，本文兼顾渲染质量的评估（FID/KID）、人体控制的准确程度（PCK）以及几何生成的质量（Depth）。如下图所示，本文在所有数据集，所有指标上均大幅超越之前的方案。

应用潜力

最后，本文也展示了 EVA3D 的一些应用潜力。首先，该研究测试了在隐空间中进行差值。如下图所示，本文能够在两个三维人之间进行平滑的变化，且中间结果均保持较高的质量。此外，本文也进行了 GAN inversion 的实验，研究者使用二维 GAN inversion 中常用的算法 Pivotal Tuning Inversion。如下面右图所示，该方法可以较好的还原重建目标的外观，但是几何部分丢失了很多细节。可见，三维 GAN 的 inversion 仍然是一个很有挑战性的任务。