3D计算机视觉的图像表示方法-电子发烧友网

目前深度学习已经在2D计算机视觉领域取得了非凡的成果，比如使用一张图像进行目标检测，语义分割，对视频当中的物体进行目标跟踪等任务都有非常不错的效果。传统的3D计算机视觉则是基于纯立体几何来实现的，而目前我们使用深度学习在3D计算机视觉当中也可以得到一些不错的效果，目前甚至有超越传统依靠立体几何识别准确率的趋势。因此咱们现在来介绍一下深度学习在3D计算机视觉当中的应用吧！本博文参考了前几天斯坦福大学最新出的CS231n课程（2020/8/11新出），新课增加了3D计算机视觉和视频/动作分类的lecture，同时丰富了生成对抗网络（GAN）的内容，暂时国内还无人翻译，因此小编将其翻译整理成博文的形式供大家参考,如有错误之处，请大家见谅，同时欢迎大家讨论。

一.3D计算机视觉的图像表示方法

在3D计算机视觉当中，我们可以采用于训练的模型共有以上几种，分别是：

1.Depth Map（深度图）

2.Voxel Grid(翻译过来很奇怪，因此就保留原英语)

3.Implicit Surf ace(隐表面)

4.PointCloud（三维点云）

5.Mesh

如下图所示：

二.Depth Map(深度图)

深度图的图像如下所示：

在左上角有一张关于斯坦福大学寝室的图片，我们可以将其转化为右上角的深度图，其中深度图当中不同的颜色表示了不同物体距离摄像头的距离，距离摄像头的距离越大，则显示出来的颜色则越红。我们假设有一个神经网络，我们只需要输入一张图片，就可以得到图片当中的所有位置距离摄像头的距离，这样是不是很酷呢？那么我们如何使用神经网络对一系列的图片训练成为深度图的形式呢？一些研究人员便立马想到可以使用全卷积神经网络(Fully convolutional Network)来实现这个过程，全卷积神经网络(Fully convolutional Network)是我们之前在2D计算机视觉当中所采用的用于图像分割的神经网络，之前图像分割得到的是每一个像素点显示的是属于某一个物体类别的概率值，而现在我们把同样的神经网络用于深度图当中就可以得到图像当中某一个像素距离摄像头的远近大小。这样就可以完美得到咱们的深度图训练模型了，我们甚至可以把这个全卷积神经网络替换成U-net以期在一些特定数据集上得到更好的效果。模型如下所示：

这个模型首先也是输出一个3通道的彩色图片，经过一个全卷积神经网络(FCN)然后对深度图进行估计，输出的深度图仅仅具有两个通道，因为第三个通道的维度为1，意味着我们输出的深度图实际上是黑白的，用黑色或者白色的深度来表示距离摄像头的距离，图像当中使用了彩色仅仅是因为看起来更加方便。同时这里的loss使用了L2距离进行损失函数的编写。

但是！！！！细心的同学肯定会发现其中有一定的问题，那就是同一个物体，拥有不同的大小，他们如果仅仅通过一张图片来判定他们离摄像头的距离是不一定准确的。因为图片当中并没有包含物体有关深度的信息。

比如我们有两只形状完全相同的鸟，但是其中一只鸟是另一只鸟大小的2倍，我们把小鸟放到离摄像头更近的位置，将大鸟放到离摄像头更远的位置，那么仅仅通过一张图片我们就会认为这两只鸟离我们的摄像头距离是一样大的！如下图所示：

那么这样我们又该如何解决呢？聪明的研究人员设计了一个具有尺寸不变特征的的loss function来解决了这个问题，这个loss function的写法如下：

至于这个公式为什么会让图片的深度信息得以保留，这里不再赘述，感兴趣的同学可以翻看一下提出这个loss的论文，在2016年的世界顶级人工智能会议论文NIPS上发表，于纽约大学（New York University）提出，论文的链接如下：https://papers.nips.cc/paper/5539-depth-map-prediction-from-a-single-image-using-a-multi-scale-deep-network.pdf

同时呢，在深度图当中还有一种图叫做垂直表面法向量图，它的图像如下所示：

最后输出图像当中的不同颜色代表了这个物体的表面所朝空间当中的方向，比如绿色代表这个物体的表面是朝向右边的，而红色则代表这个物体的表面是朝向左边的。我们也可以使用全卷积神经网络(Fully convolutional Network)对这种输出的图像进行处理，其中的结构如下所示：

最后的Loss采用了(x*y)/(|x|*|y||)的方法，因为我们所预测的图像具备图像的方向和深度的信息，而图像的方向和大小正好可以由向量表示，岂不美哉？每一个训练集当中的图片的其中一个像素点都可以由一个向量来表示，同时具备深度（长度）和方向的信息。而原图当中某个像素点的大小可以表示为向量x，通过神经网络推测之后的同一个像素点则可以表示为向量y,因此我们可以使用公式(x*y)/(|x|*|y||)来衡量这两个向量之间的差距，其中(x*y)中的乘法使用了点乘，因此上下相除可得cos(theta)也就是图片当中某个像素点所具备的loss的大小，将整个图片当中所有像素点的大小加起来则可以得到整个图像当中loss的大小了。

三.Voxel Grid网格表示法

如下图所示，我们可以将一张二维的图片转为一张三维的Mesh图，什么是Mesh图呢？Voxels grid图就是在一个三维的，大小为V*V*V的空间立体当中，由一系列1*1*1正方体网格堆砌出来的三维立体图形，Voxels grid图当中的每一个网格只具有两个值，1或者0，1表示这个地方有正方体，0表示这个地方没有正方体。一个Voxels grid图当中只保留物体的形状和大小信息，而不保留物体的颜色以及纹理的信息。

我们先来看一个有趣的问题，用什么方法可以对三维Voxels grid图进行分类呢？我们暂时不考虑将二维图像恢复到三维Voxels grid图的情况的话，常见的手段是使用立体3D卷积，如下图所示：

3D立体卷积和我们的2D卷积有一点不同之处，那就是卷积核的神奇之处是它竟然一个正立方体！而不是一个二维的平面！在上图当中，我们的输入是一个四通道的1*30*30*30的Mesh图，输入的图像可能是一个椅子，也可能是一个床。我们通过三维卷积，不断地进行卷积以及池化的操作，接着使用全连接神经网络将其展开，最后使用softmax函数将其继续拧分类。我们使用3D卷积能够对立体图像的特征进行更为有效的检测，因为一个立体的图像不仅仅有长和宽上面的信息，还有其有关深度的相关信息，因此需要采用3D卷积。3D卷积的动态图如下所示，这个例题动态图当中卷积核的大小为3*3*3：

再回到我们刚才的问题，如何将一个二维的图像转化为Voxels grid图呢，我们可以采用的卷积神经网络如下所示：

首先我们将二维的图像首先送入到一个2D卷积神经网络当中，用于提取这个二维图像的特征，然后通过全连接神经网络或者Flatten层将其展平一个一维的向量，这样就可以更加方便地转化reshape为四通道进行三维卷积的形式，前面我们已经说过三维卷积能够更好地抽象地还原和提取到图像在三维空间上的个特征，因此我们对刚才二维图像抽象出来的特征通过三维卷积进行还原，这是一个通过三维卷积进行上采样的过程。最后输出的结果就可以得到我们的Voxels grid图啦！

但是使用三维卷积常常就会用更为昂贵的代价来换取更为准确的结果，因为三维卷积使用的参数过多，如下图所示：

我们仅仅储存1024^3个Voxels grid网格就需要电脑 4GB的显存，实在是太大了！好多电脑的显存还没有这么大呢！因此有些研究人员则直接使用二维卷积对图像进行三维的还原，当然效果肯定没这么好啦，如下图所示：

这个思想就很和我们的自编码器（Auto-Encoders）很像了。

四.采用3D点云

采用3D点云应该是目前比较靠谱的方案，

在3D点云当中每一个点，都有三个参数，分别是每个点在x,y,z轴上的位置，对3D点云进行分类的话和对Mesh分类的方法差不多，也是经过一定的神经网络再经过softmax函数就可以得到最后的分类了！如下图所示：

这就是今天小编给大家分享的全部内容啦！

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2875

浏览量
107486
计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
45980
深度学习

深度学习

+关注

关注
73

文章
5500

浏览量
121113

原文标题：一门入门当今最火的3D计算机视觉

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

计算机视觉有哪些优缺点

计算机视觉作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革，也带来了诸多优势，但同时也伴随着一些挑战和局限

发表于 08-14 09:49 •921次阅读

计算机视觉中的图像融合

在许多计算机视觉应用中（例如机器人运动和医学成像），需要将多个图像的相关信息整合到单一图像中。这种图像融合可以提供更高的可靠性、准确性和数据

发表于 08-01 08:28 •630次阅读

<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>中的<b class='flag-5'>图像</b>融合

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉机器视觉，又称为计算机

发表于 07-16 10:23 •520次阅读

计算机视觉的五大技术

计算机视觉作为深度学习领域最热门的研究方向之一，其技术涵盖了多个方面，为人工智能的发展开拓了广阔的道路。以下是对计算机视觉五大技术的详细解析，包括图

发表于 07-10 18:26 •1330次阅读

计算机视觉的工作原理和应用

计算机视觉（Computer Vision，简称CV）是一门跨学科的研究领域，它利用计算机和数学算法来模拟人类视觉系统对图像和视频进行识别、

发表于 07-10 18:24 •1909次阅读

计算机视觉与人工智能的关系是什么

引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域的知识。人工智能则是研究如

发表于 07-09 09:25 •620次阅读

计算机视觉和机器视觉区别在哪

计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。一、定义 计算机视觉 计算机

发表于 07-09 09:22 •446次阅读

计算机视觉和图像处理的区别和联系

计算机视觉和图像处理是两个密切相关但又有明显区别的领域。 1. 基本概念 1.1 计算机视觉 计算机

发表于 07-09 09:16 •1282次阅读

计算机视觉属于人工智能吗

属于，计算机视觉是人工智能领域的一个重要分支。引言 计算机视觉是一门研究如何使计算机具有视觉能

发表于 07-09 09:11 •1291次阅读

计算机视觉怎么给图像分类

图像分类是计算机视觉领域中的一项核心任务，其目标是将输入的图像自动分配到预定义的类别集合中。这一过程涉及图像的特征提取、特征

发表于 07-08 17:06 •644次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机视觉，作为计算机科学的一个重要分支，

发表于 07-01 11:38 •777次阅读

计算机视觉的主要研究方向

计算机视觉（Computer Vision, CV）作为人工智能领域的一个重要分支，致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展，

发表于 06-06 17:17 •951次阅读

计算机视觉的十大算法

随着科技的不断发展，计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法，包括它们的基本原理、应用场景和优缺点。这些算法在图像

发表于 02-19 13:26 •1236次阅读

工业视觉与计算机视觉的区别

工业视觉主要解决以往需要人眼进行的工件的定位、测量、检测等重复性劳动；计算机视觉的主要任务是赋予智能机器人视觉，利用测距、物体标定与识别等功能实现对于外界位置信息、

发表于 01-16 10:06 •576次阅读

计算机视觉：AI如何识别与理解图像

计算机视觉是人工智能领域的一个重要分支，它致力于让机器能够像人类一样理解和解释图像。随着深度学习和神经网络的发展，人们对于如何让AI识别和理解图像产生了浓厚的兴趣。本文将探讨

发表于 01-12 08:27 •1417次阅读

搜索历史

3D计算机视觉的图像表示方法

评论

计算机视觉有哪些优缺点

计算机视觉中的图像融合

机器视觉和计算机视觉有什么区别

计算机视觉的五大技术

计算机视觉的工作原理和应用

计算机视觉与人工智能的关系是什么

计算机视觉和机器视觉区别在哪

计算机视觉和图像处理的区别和联系

计算机视觉属于人工智能吗

计算机视觉怎么给图像分类

深度学习在计算机视觉领域的应用

计算机视觉的主要研究方向

计算机视觉的十大算法

工业视觉与计算机视觉的区别

计算机视觉：AI如何识别与理解图像