0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌TensorFlow Graphics:为3D图像任务打造的深度学习利器

电子工程师 来源:YXQ 2019-05-14 08:35 次阅读

TensorFlow重磅推出一个全新的图形工具TensorFlow Graphics,结合计算机图形学和计算机视觉技术,以无监督的方式解决复杂3D视觉任务。

近年来,可插入到神经网络架构中的一种新型可微图形层(differentiable graphics layers)开始兴起。

从空间变换器(spatial transformers)到可微图形渲染器,这些新型的神经网络层利用计算机视觉、图形学研究获得的知识来构建新的、更高效的网络架构。它们将几何先验和约束显式地建模到神经网络中,为能够以自监督的方式进行稳健、高效训练的神经网络架构打开了大门。

从高级层面来说,计算机图形学的pipeline需要3D物体及其在场景中的绝对位置、构成它们的材质的描述、光、以及摄像头。然后,渲染器对这个场景描述进行解释,生成一个合成渲染。

相比之下,计算机视觉系统是从图像开始的,并试图推断出场景的相关参数。也就是说,计算机视觉系统可以预测场景中有哪些物体,它们由什么材料构成,以及它们的3D位置和方向。

训练一个能够解决这些复杂的3D视觉任务的机器学习系统通常需要大量的数据。由于给数据打标签是一个成本高昂而且复杂的过程,因此设计能够理解三维世界、而且无需太多监督的机器学习模型的机制非常重要。

将计算机视觉和计算机图形学技术结合起来,我们得以利用大量现成的无标记数据。

如下图所示,这个过程可以通过合成分析来实现,其中视觉系统提取场景参数,图形系统根据这些参数返回图像。如果渲染结果与原始图像匹配,则说明视觉系统已经准确地提取出场景参数了。

在这种设置中,计算机视觉和计算机图形学相辅相成,形成了一个类似于自动编码器的机器学习系统,能够以一种自监督的方式进行训练。

可微图形层

接下来,我们将探讨TensorFlow Graphics的一些功能。更多信息可以访问GitHub:

变换(Transformations)

物体变换(Object transformations)功能能够控制物体在空间中的位置。

如下图所示,利用轴角度可以将立方体旋转起来。旋转轴指向上方,角度为正,则使立方体逆时针旋转。

在下面的Colab示例中,我们展示了如何在一个神经网络中训练旋转形式,该神经网络被训练来预测物体的旋转和平移。

https://colab.sandbox.google.com/github/tensorflow/graphics/blob/master/tensorflow_graphics/notebooks/6dof_alignment.ipynb

这项任务是许多应用程序的核心,比如专注于与环境交互的机器人。机器人要用机械臂抓取物体,需要精确地估计物体相对于机械臂的位置。

建模相机(Modelling cameras)

相机模型(Camera models)在计算机视觉中有着至关重要的作用,因为相机会极大地影响投影到图像平面上的3D物体的外观。

如下图所示,立方体看起来是上下缩放的,而实际上发生这种变化只是由于相机焦距发生了变化。

下面的Colab示例提供了更多关于相机模型的细节,以及如何在TensorFlow中使用它们的具体示例。

材料

材料模型(Material models)定义了光和物体交互的方式,赋予它们独特的外观。

例如,有些材料,如石膏,能均匀地向所有方向反射光线,而有些材料,如镜子,则纯粹是镜面反射。

准确地预测材料属性是许多视觉任务的基础。例如,可以让用户将虚拟家具放置在环境中,家具的照片可以与室内环境逼真地融合在一起,从而让用户对这些家具的外观形成准确的感知。

在下面的Colab笔记本,可以学习如何使用Tensorflow Graphics生成如下的渲染。你也可以试验不同的材料和光的参数,了解它们如何相互作用。

几何——3D卷积和池化

近年来,从智能手机的深度传感器自动驾驶汽车激光雷达,以点云或网格的形式输出3D数据的传感器越来越常用。由于这类数据有着不规则的结构,与提供规则网格结构的图像相比,在这些表示上执行卷积更难实现。

TensorFlow Graphics提供两个3D卷积层和一个3D池化层,例如,允许网络在网格上执行语义部分分类(如下图所示):

TensorBoard 3d

可视化debug是评估实验是否朝着正确方向进行的一种很好的方法。为此,TensorFlow Graphics提供了一个TensorBoard插件,可以交互式地对3D网格和点云进行可视化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6141

    浏览量

    105080
  • 深度学习
    +关注

    关注

    73

    文章

    5492

    浏览量

    120970

原文标题:谷歌重磅推出TensorFlow Graphics:为3D图像任务打造的深度学习利器

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    裸眼3D笔记本电脑——先进的光场裸眼3D技术

    效果的用户,这款笔记本电脑都能满足你的需求。 一、卓越的3D模型设计能力 英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D技术,使用户无需佩戴3D眼镜就能看到立体的
    的头像 发表于 07-16 10:04 458次阅读

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google开发的一个开源深度学习框架,它允许开发者方便地构建、训练和部署各种复杂的机器学习模型。TensorFlow
    的头像 发表于 07-12 16:38 569次阅读

    TensorFlow的定义和使用方法

    TensorFlow是一个由谷歌人工智能团队谷歌大脑(Google Brain)开发和维护的开源机器学习库。它基于数据流编程(dataflow programming)的概念,将复杂的
    的头像 发表于 07-02 14:14 672次阅读

    TensorFlow与PyTorch深度学习框架的比较与选择

    深度学习作为人工智能领域的一个重要分支,在过去十年中取得了显著的进展。在构建和训练深度学习模型的过程中,深度
    的头像 发表于 07-02 14:04 884次阅读

    奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

      在过去几十年里,动作捕捉(MoCap)技术经历了显著的发展,广泛被应用于电影、游戏、虚拟现实、医疗等多个领域。近期,奥比中光合作客户Moverse使用Orbbec Femto系列3D相机,打造
    的头像 发表于 06-25 16:37 1022次阅读

    无监督深度学习实现单次非相干全息3D成像

    论文信息 背景引入 数字全息术因其能够从单一视点对3D场景进行成像而备受关注。与直接成像相比,数字全息是一种间接的多步骤成像过程,包括光学记录全息图和数值计算重建,包括深度学习在内的
    的头像 发表于 05-13 17:38 379次阅读
    无监督<b class='flag-5'>深度</b><b class='flag-5'>学习</b>实现单次非相干全息<b class='flag-5'>3D</b>成像

    奥比中光携多款3D相机深度参与国内3D视觉最高规格会议

    4月19日-21日,国内3D视觉最高规格会议China 3DV 2024大会在深圳举行。奥比中光作为大会铂金赞助商,携多款不同技术路线的3D相机深度参与。
    的头像 发表于 04-24 09:26 418次阅读
    奥比中光携多款<b class='flag-5'>3D</b>相机<b class='flag-5'>深度</b>参与国内<b class='flag-5'>3D</b>视觉最高规格会议

    谷歌模型怎么用PS打开文件和图片

    谷歌模型本身并不是用Adobe Photoshop(简称PS)打开的文件和图片格式。谷歌模型通常是用于机器学习深度学习的模型文件,如
    的头像 发表于 02-29 18:25 1363次阅读

    基于深度学习的方法在处理3D点云进行缺陷分类应用

    背景部分介绍了3D点云应用领域中公开可访问的数据集的重要性,这些数据集对于分析和比较各种模型至关重要。研究人员专门设计了各种数据集,包括用于3D形状分类、3D物体检测和3D点云分割等
    的头像 发表于 02-22 16:16 1018次阅读
    基于<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的方法在处理<b class='flag-5'>3D</b>点云进行缺陷分类应用

    Adobe提出DMV3D3D生成只需30秒!让文本、图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型,能直接根据模型文字或单张图片的输入,生成 3D
    的头像 发表于 01-30 16:20 805次阅读
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成只需30秒!让文本、<b class='flag-5'>图像</b>都动起来的新方法!

    友思特C系列3D相机:实时3D点云图像

    3D相机
    虹科光电
    发布于 :2024年01月10日 17:39:25

    如何搞定自动驾驶3D目标检测!

    可用于自动驾驶场景下基于图像3D目标检测的数据集总结。其中一些数据集包括多个任务,这里只报告了3D检测基准(例如KITTI 3D发布了超过
    发表于 01-05 10:43 547次阅读
    如何搞定自动驾驶<b class='flag-5'>3D</b>目标检测!

    两种应用于3D对象检测的点云深度学习方法

    是标准 RGB 图像与其关联的“深度图”的组合,目前由 Kinect 或英特尔实感技术使用。3D 数据可以对传感器周围环境进行丰富的空间表示,并可应用于机器人、智能家居设备、无人驾驶汽车或医学成像。
    的头像 发表于 01-03 10:32 926次阅读
    两种应用于<b class='flag-5'>3D</b>对象检测的点云<b class='flag-5'>深度</b><b class='flag-5'>学习</b>方法

    使用Python从2D图像进行3D重建过程详解

    有许多不同的方法和算法可用于从2D图像执行3D重建。选择的方法取决于诸如输入图像的质量、摄像机校准信息的可用性以及重建的期望准确性和速度等因素。
    的头像 发表于 12-05 14:07 2816次阅读
    使用Python从2<b class='flag-5'>D</b><b class='flag-5'>图像</b>进行<b class='flag-5'>3D</b>重建过程详解

    深度解析3D视觉成像几种典型方案

    类似于ToF相机、光场相机这类相机,可以归类单相机3D成像范围,它们体积小,实时性好,适合Eye-in-Hand系统执行3D测量、定位和实时引导。
    发表于 12-05 12:24 918次阅读
    <b class='flag-5'>深度</b>解析<b class='flag-5'>3D</b>视觉成像几种典型方案