谷歌发明的由2D图像生成3D图像技术解析-电子发烧友网

谷歌发明的由2D图像生成3D图像的技术，利用3D估计神经网络图像信息的补全以及预测，融合了拍摄角度、光照等信息，让生成的3D图像看起来更加逼真，这种技术对于三维建模以及工业应用都具有极大的指导意义。

谷歌研究人员制作的一个AI工具，可以把涂鸦变成奇怪的怪物。这款工具名为Chimera Painter，使用机器学习来根据用户的粗略草图生成图像。

Chimera Painter背后的团队在一篇博客文章中解释了他们的方法和动机，称他们的想法是创造一种 “画笔，它的行为不像工具，而更像助手”。Chimera Painter只是一个原型，但如果这样的软件变得普遍，它可以减少创造高质量艺术所需的时间。

这种图像生成技术，其实在三维渲染方面有着非常广泛的应用，其中最具有代表性的工作之一，就是由2D图像生成3D图像。我们知道，3D图像相比于2D图像多了深度信息这一个维度，但也就是这一个差别，导致了3D图像相比于2D图像所多出的信息不是一星半点。因此，倘若想要从2D图像生成3D图像，其难度之大可想而知。

为此，谷歌在18年10月18日申请了一项名为“通过渲染许多3D视图来学习重构3D形状”的发明专利（申请号：201880030823.5），申请人为谷歌有限责任公司。

根据该专利目前公开的资料，让我们一起来看看这项从2D图像到3D图像的生成方法吧。

谷歌发明的由2D图像生成3D图像技术解析

该技术中，主要使用了3D估计器神经网络，如上图，为使用3D估计器神经网络来估计图像中描绘的面部的3D形状和纹理，并基于估计的3D形状和纹理生成替身的系统示意图。用户通过上传面部图像105，系统100可以对照片进行处理后生成替身115，这里所说的替身也就是用户的3D画像。

在具体的过程中，照片首先由面部识别引擎110进行处理，从而生成用户的面部图像特征112，该特征在3D估计神经网络中被处理，基于图像特征估计照片中描绘的用户面部的3D形状和纹理，从而生成形状纹理数据122。

最后，数据122被发送到3D渲染引擎130中，基于用户独特的面部形状、纹理特征来生成用户的3D画像，并且为了做到更加真实，渲染引擎可以给出特定的视图，视图中融合了相机角度、光照以及视场的估计信息，可以让生成的图像质量更加逼真。

谷歌发明的由2D图像生成3D图像技术解析

如上图，为用于用户3D渲染图像生成的3D估计器神经网络220的系统框图，整个系统的结构还是相当复杂的，从图中我们可以看到这种神经网络是如何工作的。根据目前的技术来看，训练3D估计器神经网络通常有两个困难：第一，由3D对象的图像和那些3D对象的3D形状和纹理组成的训练对通常是有限的并且难以获得；第二，训练3D估计器神经网络可能经常导致3D估计器神经网络的网络欺骗。

因此，该专利发明的整个网络分为了监督训练回路以及无监督训练回路，通过二者相结合的方式，在完全训练阶段期间，仅利用无监督训练回路，从而允许估计神经网络输出更快地收敛。

因为无监督训练回路可以在预训练阶段和完全训练阶段两者期间使用，所以从无监督训练回路开始，在预训练之后，完全训练可以对大量迭代和大量样本单独利用无监督训练回路，来改进3D估计神经网络估计图像中的对象的3D形状和纹理的能力。

谷歌发明的由2D图像生成3D图像技术解析

最后，是这种无监督训练回路训练的流程图，系统首先需要获取对象图像的第一图像特征，该特征就是上述所说用户面部信息的原始数据，其次，将这种第一图像特征提供给3D估计器神经网络并获取3D形状和纹理。

根据这些形状和纹理进行3D渲染，并从多个3D视图中导出第二图像特征，基于图像特征的损失函数计算损失，以知道神经网络进行反向传播以得到更加良好的效果以及减少图像生成的损失。

以上就是谷歌发明的利用2D图像生成3D图像的专利技术，从2D到3D图像的转换过程中，由于2D图像缺少了很多信息，因此该技术利用3D估计神经网络进行信息的补全以及预测，并融合了拍摄角度、光照等信息，让生成的3D图像看起来更加逼真，这种技术对于三维建模以及工业应用都具有极大的指导意义。

关于嘉德

深圳市嘉德知识产权服务有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成，熟悉中欧美知识产权法律理论和实务，在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。
责任编辑:tzh

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2921

浏览量
108128
谷歌

谷歌

+关注

关注
27

文章
6207

浏览量
106161
神经网络

神经网络

+关注

关注
42

文章
4785

浏览量
101276

AN-1249：使用ADV8003评估板将3D图像转换成2D图像

电子发烧友网站提供《AN-1249：使用ADV8003评估板将3D图像转换成2D图像.pdf》资料免费下载

发表于 01-08 14:28 •0次下载

AN-1249：使用ADV8003评估板将<b class='flag-5'>3D</b><b class='flag-5'>图像</b>转换成<b class='flag-5'>2D</b><b class='flag-5'>图像</b>

技术前沿：半导体先进封装从2D到3D的关键

技术前沿：半导体先进封装从2D到3D的关键半导体分类集成电路封测技术水平及特点 1. 发展概述 ·自20世纪90年代以来，集成电路封装技

发表于 01-07 09:08 •472次阅读

3D封装热设计：挑战与机遇并存

随着半导体技术的不断发展，芯片封装技术也在持续进步。目前，2D封装和3D封装是两种主流的封装技术。这两种封装

发表于 07-25 09:46 •1574次阅读

欢创播报腾讯元宝首发3D生成应用

App。腾讯元宝APP发布时，就围绕工作效率场景、日常生活等场景提供了丰富的应用，并有创建个人智能体等个性化体验，“3D角色梦工厂”则将大模型生成技术和3D应用结合，进一步创新了元宝

发表于 07-18 11:39 •854次阅读

裸眼3D笔记本电脑——先进的光场裸眼3D技术

效果的用户，这款笔记本电脑都能满足你的需求。一、卓越的3D模型设计能力英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D技术，使用户无需佩戴3D

发表于 07-16 10:04 •682次阅读

苏州吴中区多色PCB板元器件3D视觉检测技术

3D视觉检测相较于2D视觉检测，有其独特的优势，不受产品表面对比度影响，精确检出产品形状，可以测出高度（厚度）、体积、平整度等。在实际应用中可以与2D结合做检测。利用3D的特性，可以检

发表于 06-14 15:02 •480次阅读

英伦科技的15.6寸2D-3D可切换光场裸眼3D显示屏有哪些特点？

随着科技的快速发展，人类对于视觉体验的追求也在不断攀升。从平面的2D图像到立体的3D影像，我们一直在探索如何让虚拟世界更加逼真。如今，英伦科技凭借其创新实力，推出了一款革命性的显示设备——15.6寸

发表于 05-28 11:17 •453次阅读

Teledyne e2v公司和Airy3D公司合作，提供更实惠的3D视觉解决方案

。 △Topaz5D™是一款1,920 x 1,080分辨率的低噪声全局快门2D和3D图像传感器。Teledyne e2v Teledyne

发表于 05-11 10:12 •468次阅读

NVIDIA Instant NeRF将多组静态图像变为3D数字场景

想象一幅风光旖旎的画面，比如水畔的悬崖峭壁。即便只是 2D 图像，如此美景依旧令人心驰神往。如果同一画面能以 3D 效果展现，那么无需跋涉就能身临其境。

发表于 05-07 09:15 •477次阅读

通过2D/3D异质结构精确控制铁电材料弛豫时间

受经典德拜弛豫启发的米勒模型提供了通过操纵弛豫时间来控制自发极化的理论框架。作者通过使用层转移技术形成的2D/C-3D/2D异质结构克服了传统异质结存在的铁电性恶化和能量损失的问题。

发表于 04-29 10:27 •823次阅读

Teledyne e2v宣布推出一款全高清CMOS图像传感器：Topaz5D™

据麦姆斯咨询报道，近期，Teledyne科技旗下公司、全球成像解决方案创新者Teledyne e2v宣布推出一款全高清CMOS图像传感器：Topaz5D™，旨在将2D视觉与

发表于 04-11 14:14 •717次阅读

有了2D NAND，为什么要升级到3D呢？

2D NAND和3D NAND都是非易失性存储技术（NVM Non-VolatileMemory），属于Memory（存储器）的一种。

发表于 03-17 15:31 •1153次阅读

将MLX75027 3D图像传感器与CX3 RDK MIPI开发板连接后报错如何解决？

我们打算将MLX75027 3D图像传感器与CX3 RDK MIPI开发板连接，但EZ-USB-suite软件中配置MIPI块参数中针对的是2D图像

发表于 02-28 07:41

Nullmax提出多相机3D目标检测新方法QAF2D

今天上午，计算机视觉领域顶会CVPR公布了最终的论文接收结果，Nullmax感知部门的3D目标检测研究《Enhancing 3D Object Detection with 2D Detection-Guided Query A

发表于 02-27 16:38 •1250次阅读

谷歌DeepMind推新AI模型Genie，能生成2D游戏平台

据报道，谷歌公司的DeepMind团队近期发布了AI模型Genie，此模型拥有多达110亿个参数，能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。

发表于 02-27 14:53 •866次阅读