谷歌TensorFlow Graphics:为3D图像任务打造的深度学习利器-电子发烧友网

TensorFlow重磅推出一个全新的图形工具TensorFlow Graphics，结合计算机图形学和计算机视觉技术，以无监督的方式解决复杂3D视觉任务。

近年来，可插入到神经网络架构中的一种新型可微图形层(differentiable graphics layers)开始兴起。

从空间变换器(spatial transformers)到可微图形渲染器，这些新型的神经网络层利用计算机视觉、图形学研究获得的知识来构建新的、更高效的网络架构。它们将几何先验和约束显式地建模到神经网络中，为能够以自监督的方式进行稳健、高效训练的神经网络架构打开了大门。

从高级层面来说，计算机图形学的pipeline需要3D物体及其在场景中的绝对位置、构成它们的材质的描述、光、以及摄像头。然后，渲染器对这个场景描述进行解释，生成一个合成渲染。

相比之下，计算机视觉系统是从图像开始的，并试图推断出场景的相关参数。也就是说，计算机视觉系统可以预测场景中有哪些物体，它们由什么材料构成，以及它们的3D位置和方向。

训练一个能够解决这些复杂的3D视觉任务的机器学习系统通常需要大量的数据。由于给数据打标签是一个成本高昂而且复杂的过程，因此设计能够理解三维世界、而且无需太多监督的机器学习模型的机制非常重要。

将计算机视觉和计算机图形学技术结合起来，我们得以利用大量现成的无标记数据。

如下图所示，这个过程可以通过合成分析来实现，其中视觉系统提取场景参数，图形系统根据这些参数返回图像。如果渲染结果与原始图像匹配，则说明视觉系统已经准确地提取出场景参数了。

在这种设置中，计算机视觉和计算机图形学相辅相成，形成了一个类似于自动编码器的机器学习系统，能够以一种自监督的方式进行训练。

可微图形层

接下来，我们将探讨TensorFlow Graphics的一些功能。更多信息可以访问GitHub：

变换(Transformations)

物体变换(Object transformations)功能能够控制物体在空间中的位置。

如下图所示，利用轴角度可以将立方体旋转起来。旋转轴指向上方，角度为正，则使立方体逆时针旋转。

在下面的Colab示例中，我们展示了如何在一个神经网络中训练旋转形式，该神经网络被训练来预测物体的旋转和平移。

https://colab.sandbox.google.com/github/tensorflow/graphics/blob/master/tensorflow_graphics/notebooks/6dof_alignment.ipynb

这项任务是许多应用程序的核心，比如专注于与环境交互的机器人。机器人要用机械臂抓取物体，需要精确地估计物体相对于机械臂的位置。

建模相机(Modelling cameras)

相机模型(Camera models)在计算机视觉中有着至关重要的作用，因为相机会极大地影响投影到图像平面上的3D物体的外观。

如下图所示，立方体看起来是上下缩放的，而实际上发生这种变化只是由于相机焦距发生了变化。

下面的Colab示例提供了更多关于相机模型的细节，以及如何在TensorFlow中使用它们的具体示例。

材料

材料模型(Material models)定义了光和物体交互的方式，赋予它们独特的外观。

例如，有些材料，如石膏，能均匀地向所有方向反射光线，而有些材料，如镜子，则纯粹是镜面反射。

准确地预测材料属性是许多视觉任务的基础。例如，可以让用户将虚拟家具放置在环境中，家具的照片可以与室内环境逼真地融合在一起，从而让用户对这些家具的外观形成准确的感知。

在下面的Colab笔记本，可以学习如何使用Tensorflow Graphics生成如下的渲染。你也可以试验不同的材料和光的参数，了解它们如何相互作用。

几何——3D卷积和池化

近年来，从智能手机的深度传感器到自动驾驶汽车激光雷达，以点云或网格的形式输出3D数据的传感器越来越常用。由于这类数据有着不规则的结构，与提供规则网格结构的图像相比，在这些表示上执行卷积更难实现。

TensorFlow Graphics提供两个3D卷积层和一个3D池化层，例如，允许网络在网格上执行语义部分分类（如下图所示）：

TensorBoard 3d

可视化debug是评估实验是否朝着正确方向进行的一种很好的方法。为此，TensorFlow Graphics提供了一个TensorBoard插件，可以交互式地对3D网格和点云进行可视化。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6211

浏览量
106438
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121833

原文标题：谷歌重磅推出TensorFlow Graphics：为3D图像任务打造的深度学习利器

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

超景深3D检测显微镜技术解析

方案的制定提供依据。在工业检测领域，超景深3D检测显微镜的高精度成像能力使其成为质量控制的利器。无论是电子元器件的检测，还是精密机械零件的表面分析，这种显微镜都能够提供清晰、立体的图像，帮助工程师快速

发表于 02-25 10:51

TechWiz LCD 3D应用：局部液晶配向

，本案例使用TechWiz LCD 3D进行局部摩擦的设置。 1. 建模任务 1.1进行局部摩擦配置 2. 建模过程以下是建模过程中部分重要步骤的说明 2.1在TechWiz Layout中创建结构

发表于 02-08 08:52

AN-1249：使用ADV8003评估板将3D图像转换成2D图像

电子发烧友网站提供《AN-1249：使用ADV8003评估板将3D图像转换成2D图像.pdf》资料免费下载

发表于 01-08 14:28 •0次下载

AN-1249：使用ADV8003评估板将<b class='flag-5'>3D</b><b class='flag-5'>图像</b>转换成2<b class='flag-5'>D</b><b class='flag-5'>图像</b>

3D深度感测的原理和使用二极管激光来实现深度感测的优势

本文介绍了3D深度感测的原理和使用二极管激光来实现深度感测的优势。世界是三维的。这句话如此容易理解，以至于大多数人从未怀疑过自己感知世界的方式。但事实上，人的每只眼睛每次可捕获一幅平面图

发表于 01-07 09:54 •235次阅读

TechWiz LCD 3D应用：局部液晶配向

，本案例使用TechWiz LCD 3D进行局部摩擦的设置。 1. 建模任务 1.1进行局部摩擦配置 2. 建模过程以下是建模过程中部分重要步骤的说明 2.1在TechWiz Layout中创建结构

发表于 01-03 08:58

3D 建模：塑造未来的无限可能

的原子结构要求真实的物理存在需要所有三个维度，尽管我们大脑将电影和照片解释为二维(2D)。在数字计算中，3D图像指的是具有深度信息、类似于真

发表于 08-16 18:24 •1696次阅读

裸眼3D笔记本电脑——先进的光场裸眼3D技术

效果的用户，这款笔记本电脑都能满足你的需求。一、卓越的3D模型设计能力英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D技术，使用户无需佩戴3D眼镜就能看到立体的

发表于 07-16 10:04 •732次阅读

如何在Tensorflow中实现反卷积

在TensorFlow中实现反卷积（也称为转置卷积或分数步长卷积）是一个涉及多个概念和步骤的过程。反卷积在深度学习领域，特别是在图像分割、图像

发表于 07-14 10:46 •790次阅读

TensorFlow是什么？TensorFlow怎么用？

TensorFlow是由Google开发的一个开源深度学习框架，它允许开发者方便地构建、训练和部署各种复杂的机器学习模型。TensorFlow

发表于 07-12 16:38 •939次阅读

tensorflow简单的模型训练

在本文中，我们将详细介绍如何使用TensorFlow进行简单的模型训练。TensorFlow是一个开源的机器学习库，广泛用于各种机器学习任务

发表于 07-05 09:38 •901次阅读

TensorFlow的定义和使用方法

TensorFlow是一个由谷歌人工智能团队谷歌大脑（Google Brain）开发和维护的开源机器学习库。它基于数据流编程（dataflow programming）的概念，将复杂的

发表于 07-02 14:14 •1039次阅读

TensorFlow与PyTorch深度学习框架的比较与选择

深度学习作为人工智能领域的一个重要分支，在过去十年中取得了显著的进展。在构建和训练深度学习模型的过程中，深度

发表于 07-02 14:04 •1217次阅读

奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

在过去几十年里，动作捕捉（MoCap）技术经历了显著的发展，广泛被应用于电影、游戏、虚拟现实、医疗等多个领域。近期，奥比中光合作客户Moverse使用Orbbec Femto系列3D相机，打造

发表于 06-25 16:37 •1215次阅读

无监督深度学习实现单次非相干全息3D成像

论文信息背景引入数字全息术因其能够从单一视点对3D场景进行成像而备受关注。与直接成像相比，数字全息是一种间接的多步骤成像过程，包括光学记录全息图和数值计算重建，为包括深度学习在内的

发表于 05-13 17:38 •605次阅读

奥比中光携多款3D相机深度参与国内3D视觉最高规格会议

4月19日-21日，国内3D视觉最高规格会议China 3DV 2024大会在深圳举行。奥比中光作为大会铂金赞助商，携多款不同技术路线的3D相机深度参与。

发表于 04-24 09:26 •545次阅读

搜索历史

谷歌TensorFlow Graphics:为3D图像任务打造的深度学习利器

评论

超景深3D检测显微镜技术解析

TechWiz LCD 3D应用：局部液晶配向

AN-1249：使用ADV8003评估板将3D图像转换成2D图像

3D深度感测的原理和使用二极管激光来实现深度感测的优势

TechWiz LCD 3D应用：局部液晶配向

3D 建模：塑造未来的无限可能

裸眼3D笔记本电脑——先进的光场裸眼3D技术

如何在Tensorflow中实现反卷积

TensorFlow是什么？TensorFlow怎么用？

tensorflow简单的模型训练

TensorFlow的定义和使用方法

TensorFlow与PyTorch深度学习框架的比较与选择

奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

无监督深度学习实现单次非相干全息3D成像

奥比中光携多款3D相机深度参与国内3D视觉最高规格会议