微软新AI框架可在2D图像上生成3D图像-电子发烧友网

已经有不少机构在将 2D 图像转换为 3D 形式的方面进行了尝试，包括 Facebook、Nvidia 等公司的 AI 研究实验室，或是类似 Threedy.AI 这样的初创公司。近日，来自微软的研究团队也发表了一篇预印论文，展示了其在非结构化 2D 图像的基础上生成 3D 形状图像的能力。

雷锋网注：上图为微软模型生成的 3D沙发，椅子和浴缸图像

通常来说，训练这样的框架需要通过栅格化处理来进行微分步骤渲染，因此，过去研究人员在该领域的努力都专注于开发定制渲染模型。然而，通过此类模型处理的图像会显得不够真实自然，也不适合用于生成游戏以及图形产业的工业效果图。

微软的研究人员这一次做了新的突破——他们在论文中详细介绍了一个框架，该框架采用的“可缩放”训练技术是第一次被用于这一领域。研究人员提到，在使用 2D 图像进行训练时，该框架始终可以比现有的模型生成效果更好的 3D 形状，这对于视频游戏开发人员、电子商务公司，以及缺乏创建 3D 模型经验的动画公司来说，称得上是“福音”。

具体来说，研究人员试图利用功能齐全的工业渲染器，该渲染器可以根据显示数据来生成图像。为此，研究人员训练了 3D 形状的生成模型，以便渲染形状并生成与 2D 数据集分布相匹配的图像。生成器模型采用随机输入向量（代表数据集特征的值）并生成 3D 对象的连续体素表示（3D 空间中网格上的值），然后将体素输入到不可微分的渲染过程中，并在使用现有渲染器进行渲染之前将其阈值降低为离散值。

也就是说，这是一种新颖的代理神经渲染器直接渲染由 3D 形状生成模型生成的连续体素网格的方式。正如研究人员所解释的那样，在给定 3D 网格输入的情况下，需要对其进行训练以匹配现成渲染器的渲染输出。

生成式对抗网络（GANS）在产生 2D 图像数据方面的成果令人印象深刻，许多视觉应用，比如游戏，都需要 3D 模型作为输入，而不仅仅是图像。但是，直接将现有的 GAN 模型扩展到 3D，需要获取 3D 训练数据。

雷锋网注：上图为微软模型生成的 3D 蘑菇图像

在实验过程中，研究团队为上述生成器采用了 3D 卷积 GAN 架构（GAN 是一个由两部分组成的 AI 模型，其中包括生成器，这些生成器使用分布式采样从随机噪声中生成合成示例，并将这些示例与训练数据集中的真实示例一起馈入鉴别器中，以尝试区分两者）。基于 3D 模型生成的数据集和真实的数据集可以合成来自不同对象类别的图像，并在整个训练过程中从不同角度进行渲染。

研究人员还表示，他们的框架还会从图像中提取照明和阴影信息，使其能够从每个训练样本中提取更多有意义的数据，并在此基础上产生更好的结果。在对自然图像的数据集进行训练之后，该框架可以生成逼真的样本。此外，该框架还可以利用表面之间的曝光差异来成功检测出凹形物体的内部结构，从而使准确地捕获凹形程度和中空空间。

将颜色，材料和照明等信息合并到系统中，未来，这些信息就可以与更多“常规”实际数据集一起使用。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6641

浏览量
104645
AI

AI

+关注

关注
87

文章
32007

浏览量
270844

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

微软新AI框架可在2D图像上生成3D图像

评论

腾讯混元3D AI创作引擎正式发布

腾讯混元3D AI创作引擎正式上线

AN-1249：使用ADV8003评估板将3D图像转换成2D图像

3D封装热设计：挑战与机遇并存

欢创播报腾讯元宝首发3D生成应用

紫光展锐助力全球首款AI裸眼3D手机发布

英伦科技的15.6寸2D-3D可切换光场裸眼3D显示屏有哪些特点？

Teledyne e2v公司和Airy3D公司合作，提供更实惠的3D视觉解决方案

NVIDIA Instant NeRF将多组静态图像变为3D数字场景

通过2D/3D异质结构精确控制铁电材料弛豫时间

Teledyne e2v宣布推出一款全高清CMOS图像传感器：Topaz5D™

NVIDIA生成式AI研究实现在1秒内生成3D形状

Stability AI推出全新Stable Video 3D模型

有了2D NAND，为什么要升级到3D呢？

将MLX75027 3D图像传感器与CX3 RDK MIPI开发板连接后报错如何解决？