0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从单张二维图像重建出三维形状的方法

nlfO_thejiangme 来源:lq 2018-11-30 09:11 次阅读

对于具有丰富的日常经验的人类来说,我们可以通过单一的图像推断出物体的三维形貌,甚至对从未见过的物体也能够通过单一视角的图像对其形状有八九不离十的感官认知,但这对计算机来说却是一个巨大的挑战。目前从单一视图重物体的三维形貌极大地受到了训练数据的影响,对于未知物体的重建依然存在着一系列问题。

视觉领域的研究人员认为人类的这种能力来自于对于物体表示的复杂层级关系,通过将图像映射到表面最终得到物体的体积和形状信息,利用不同形式的表示来处理形状不同方面的信息。为了有效的解决这一问题,研究人员提出了一种称为一般性重建(Generalizable Reconstruction, GenRe)的算法,来捕捉与物体类别无关的形状先验特征,并实现了表现良好的单视图形状恢复,对于未包含在训练集内的物体也具有良好的重建效果。

近年来很多计算机视觉和机器学习领域的研究人员探索了从单张二维图像重建出三维形状的方法,包括ShapeNet和MarrNet等工作都在这个方向进行了一系列有益的探索,通过学习复杂庞大的数据集与其对应视图的映射关系来实现2D到3D的映射。三维形状重建问题可以分解为f(2.5D->3D)&f(2D->2.5D)两个子过程。

但很多现存的方法却忽略了一个问题,从2D或者2.5D到3D形状的映射会涉及复杂但确定的几何投影过程,如果不为这个映射过程精确建模而简单地使用神经网络来近似,会造成过度参数化/过拟合的现象。同时还会忽略这一投影过程中有价值的归纳偏置(inductive biases)。正是由于这两个因素造成了目前的算法对于未知分类的重建泛化能力不尽如人意。

在这篇文章中,研究人员提出了一种解耦形状重建几何投影的过程,来实现对于未知物体更好的外形重建泛化能力。在MarrNet的基础上,将先前的f(2.5D-3D)的映射解耦成了两个过程:现充2.5D数据投影到部分的3D模型,再将部分3D模型构建出完整的3D模型,此时f(2.5D->3D)=c(2.5D->3D)&p(2.5D->3D),变成了一个部分三维投影问题和三维体素补全问题的组合。但三维的形状补全问题却面临着严重的稀疏性问题,得不到很好的重建效果。

于是研究人员提出了基于球坐标(spherical maps)的三维补全。spherical maps是一种在单位球面上由UV坐标定义的表示,其中坐标点的值表示从这点沿直径到三维物体表面的最短距离。这种表示结合了2D和3D的特征:其中球面可以看做是2D图像的一种形式,那么就可以利用神经网络图像修复的方法来进行补全;同时其中保留的语义信息可以将它重新投影到3D恢复完整的几何形状。这种表示使得我们可以通过可见区域来补全不可见区域,作为实现三维重建的中间步骤。此时上面的步骤就可以转换为:f(2.5D->3D)=p(S->3D)c(s->s)p(2.5D->S),即2.5D先投影到S表示下,补全后再由S投影到3D。

综上所述,将单幅图像重建为三维形貌的模型总共包含了三部分:

首先利用单幅图像来预测深度图(2D->2.5D),并将深度图投影到球表示上(2.5D->S);

随后利用球面修复网络来对其中的数据进行补全(s->s),将补全后的数据投影到3D体素表示(s->3D);

最后利用体素精调网络来进一步提高体素空间中3D形状的表示。

这一神经网络只需要为目标的几何外形建模而无需学习复杂的几何投影关系。除了这一因素外,还有以下几点提高了模型的泛化性:

模块化设计使得模型学习上一模块给出的特征,避免了模型记住训练集的形状。

每个模块的模型输入输出都在同一个域内,保证了更为有效的映射。

下面将具体介绍各个模块的具体实现过程。

单视角深度估计器

这一模块可以从干净背景的输入图片估计出深度图。深度估计是一个与类别无关的任务,使用了自编码器和U-NET的网络架构,从256-256的输入生成了512-1-1的特征图,并通过对称的网络预测出深度图。

球面修复网络

通过将3D形状补全问题转化为二维球面的修复问题来实现,这对于新类别物体有很好的泛华性,同时也比体素的方法更为高效。球面修复网络的结构类似深度估计,利用了标准的卷积网络,但为了适应球面周期性的结构,在训练目标和输入上加入了周期性的padding。

体素精炼网络

在球面修复后投影到体素空间的三维形状还存在自遮挡问题,还需要通过精炼网络来改善最终输出的形状。通过输入从球面投影而来的体素表示和直接从深度图投影而来的体素表示,共同生成最终的结果。

由于遮挡来自于局部的邻近区域,网络只需要学习局部的结构先验,而这也是与物体类别无关的过程。这一模块的输入包含了两通道的128-128-128的三维体素,并输入320D的隐变量,在解码时每一个解码层还接入了对应编码层的输出。

模型表现

通过对三部分模块进行训练后,研究人员给出了模型对于未知物体的重建表现。首先,利用汽车、椅子和飞机训练的单视图深度估计器,在训练集未包含的物体类别上精度表现良好。

随后对于训练集包含和未知的物体,这一算法GenRe也有着良好的表现。可以看到,除了飞机、汽车和椅子外其他都是没有见过的物体,但依然可以获得与GT较为接近的结果。

在真实数据上的重建误差也达到了前沿水平:

最后为了验证算法的有效性,研究人员利用训练好的模型对非刚体和高度规则化的几何体进行了从深度图到三维外形重建,依然保持了较好的效果。

这篇文章通过将三维形状补全的工作投影到了二维球面上,使用了二维图像修复类似的方法来实现三维图像补全,提高了从单张图像恢复三维形貌的精度,希望这一工作能对相关领域的研究带来一些有益的想法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1695

    浏览量

    45912
  • 机器学习
    +关注

    关注

    66

    文章

    8367

    浏览量

    132357
  • 二维图像
    +关注

    关注

    0

    文章

    9

    浏览量

    7433

原文标题:MIT研究人员提出新方法,可从单张图片实现未知物体的三维外形重建

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    二维三维Gauss随机粗糙面的Monte Carlo仿真

    二维的推导方法扩展到三维,建立了三维Gauss随机粗糙面模型。【关键词】:高功率微波;;Monte Carlo方法;;随机粗糙面;;仿真【D
    发表于 05-28 13:41

    三维触控技术突破“向箔”的束缚

    》中被向箔击中的文明一样。很自然地,我们会想到:既然人类生活在三维的空间里,为什么用户与设备的交互只能是在二维空间里呢?有没有可能实现三维的交互
    发表于 12-19 15:53

    安徽三维动画制作和二维动画有哪些区别呢?(一)

    三维动画制作中,“”这个字,是一个几何学和空间理论的基本概念。构成空间的每一个要素,如长度、宽度、高度,被称之为一“”。二维空间是指由长度和宽度(在几何学中为X轴和Y轴)两个要素
    发表于 01-22 10:02

    安徽三维动画制作和二维动画有哪些区别呢?(

    二维动画制作制作和三维动画制作除了按照在制作过程中摄像机或者虚拟摄像机是否可以任意进行旋转的区别外,主流的二维动画制作(不包括平面材料动画制作)和三维动画制作(不包括立体材料动画制作)
    发表于 01-25 10:34

    基于纹理映射的医学图像三维重建

    提出了一种基于纹理映射的体绘制算法,提高了图像重建效率,增强了图像重建效果。算法实现了对二维医学图像
    发表于 12-14 11:10 19次下载

    基于FPGA的医学图像三维重建系统设计与实现

    目前大部分的医学图像三维重建过程都是在PC机上完成的,由于PC机本身性能的限制和重建算法的复杂性,使得重建效率不高。针对这个问题,设计与实现了一个基于FPGA(Field Progra
    发表于 03-15 13:52 44次下载

    基于二维激光测距仪的三维模型配准研究

    在自主移动机器人上安装二维激光测距仪和内置室内小型电机云台。将激光的平面信息和电机云台的高度信息结合构建一个三维模型。通过RANSAC算法三维点云阵中提取平面。并在
    发表于 09-16 14:46 70次下载
    基于<b class='flag-5'>二维</b>激光测距仪的<b class='flag-5'>三维</b>模型配准研究

    光学方法测量三维形状综述

    光学方法测量三维形状综述光学方法测量三维形状综述光学方法
    发表于 01-07 16:48 2次下载

    AI+AR将用于智能三维重建领域

    AI与AR的关系日渐微妙,正在不断融合、相互促进。在计算机视觉中, 三维重建是指根据单视图或者多视图的二维图像重建三维信息·的过程。在虚拟现
    发表于 09-21 10:33 4598次阅读

    基于图像三维物体重建:在深度学习时代的最新技术和趋势综述之训练

    前面几节讨论了直接二维观测重建三维对象的方法。本节展示了如何使用附加提示,如中间表示和时间相关性来促进
    发表于 01-26 19:55 5次下载
    基于<b class='flag-5'>图像</b>的<b class='flag-5'>三维</b>物体<b class='flag-5'>重建</b>:在深度学习时代的最新技术和趋势综述之训练

    深度学习背景下的图像三维重建技术进展综述

    根据三维模型的表示形式可以将图像三维重建方法分类为基于体素的三维重建、基于点云的三维重建和基于网
    的头像 发表于 01-09 14:26 2299次阅读

    三维重建入门到入土

    经典三维重建系统的整个pipeline相机标定、基础矩阵与本质矩阵估计、特征匹配到运动恢复结构(SFM),SFM到稠密点云重建、表面重建
    的头像 发表于 03-03 10:17 1120次阅读

    升级!昊衡科技应变场重构软件二维扩展到三维

    扩展到三维,应变温度传感数据可以在三维模型上展示。图1三维温度场重构二维三维应变场重构软件设计思路相同,都是用网口作为接口,基于TCP/I
    的头像 发表于 08-25 10:47 700次阅读
    升级!昊衡科技应变场重构软件<b class='flag-5'>从</b><b class='flag-5'>二维</b>扩展到<b class='flag-5'>三维</b>

    如何实现整个三维重建过程

    在计算机视觉中,三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视频的信息不完全,因此三维重建需要利用经验知识,而多视图的
    发表于 09-01 11:06 1595次阅读
    如何实现整个<b class='flag-5'>三维重建</b>过程

    RayDF:实时渲染!基于射线的三维重建方法

    在机器视觉和机器人领域的许多前沿应用中,学习准确且高效的三维形状表达是十分重要的。然而,现有的基于三维坐标的隐式表达在表示三维形状或是渲染
    的头像 发表于 11-17 16:23 687次阅读
    RayDF:实时渲染!基于射线的<b class='flag-5'>三维重建</b>新<b class='flag-5'>方法</b>