0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出了在计算机视觉领域模拟重建人类视觉的新模型

DPVg_AI_era 来源:lq 2019-05-25 09:16 次阅读

谷歌近日推出了在计算机视觉领域模拟重建人类视觉的新模型,与以往方法不同的是,新模型利用AI,通过普通Youtube视频预测深度图,可以在场景内的摄像头和人同时运动的复杂情况下生成自然视频。

人类的视觉系统具有非凡的能力,可以从2D投影中理解3D世界。即使在包含多个移动物体的复杂环境中,人也能够对物体的几何形状和深度的排序进行可行的解释。长期以来,计算机视觉领域都在研究如何通过2D图像数据计算重建场景的几何特征,来实现和人类类似的能力,但在许多情况下,仍然难以实现具备充分鲁棒性的重建。

当摄像头和场景中的物体都在自由移动时,是实现重建的最困难的情况。这种情况混淆了基于三角测量的传统3D重建算法,该算法假设可以同时从至少两个不同的观察点观察到相同的对象。满足这个假设需要一个多摄像头阵列,或者单摄像头移动,但场景目标本身是静止状态。因此,现有的大多数方法要么需要过滤掉移动的目标(将移动目标的深度固定为“零”),要么直接忽略移动目标(会导致深度值发生错误)。

左图:传统的立体设置假设至少有两个观察点在同时捕捉场景。右图:我们考虑摄像头和拍摄对象都在移动的情况。

我们通过基于深度学习的方法来解决这个基本问题,该方法可以从普通视频中生成深度图,场景中的摄像头和主体目标都可以自由移动。模型从数据中学习人体姿势和形状的先验知识,无需直接3D三角测量。尽管最近使用机器学习进行深度预测逐渐兴起,但这项工作是第一个针对同时在摄像头和目标都在运动的状态下的基于学习的方法。

本研究中的观察目标是人类,人类是增强现实和3D视频效果的有趣目标。

我们的模型可以预测深度图(右图,离摄像头越近,图中越亮),场景中的人和摄像头都在自由移动。

训练数据

我们以监督学习的方式训练深度预测模型,该模型需要通过移动的摄像头捕获的自然场景视频以及精确的深度图。关键问题是从何处获取此类数据。综合生成数据需要对各种场景和自然人类行为进行逼真的建模和渲染,这是很困难的任务。

此外,针对这样的数据训练的模型可能难以推广到真实场景中。另一种方法可能是用RGBD传感器(如微软的Kinect)记录真实场景,但深度传感器通常仅限于室内环境,而且要面临3D重建上的一系列问题。

我们利用现有的数据来进行监督学习:即YouTube视频,视频中的人们通过自己定格在各种自然姿势,模仿人体模特效果,而手持摄像机则在现场记录。

因为整个场景是静止的(只有摄像机在移动),所以基于三角测量的方法是行得通的,可以获得包括其中人物在内的整个场景的精确深度图。我们收集了大约2000个这样的视频,涵盖了各种逼真的场景,场景中的人按照不同的分组配置自然分布。

人们在摄像头在场景中移动时模仿人体模特,我们将其作为训练数据。我们使用传统的MVS算法来估计深度,并在深度预测模型的训练中将其用于监督。

推断移动中的人的场景深度

Mannequin挑战视频对移动中的摄像机和“定格”的人进行深度监控,但我们的目标是利用移动的摄像头和移动的人来处理视频。我们需要构建网络输入来弥补这一差距。

一种可能的方法是为视频的每一帧都进行深度图推断(也就是对模型的输入相当于单帧图像)。虽然这种模型改进了用于深度预测的最先进的单帧方法,但是我们可以通过来自多帧的信息组合来进一步改善结果。比如运动视差,即两个不同视点之间的静态物体的明显的相对运动,就对深度推断提供了有力线索。为了充分利用这些信息,我们计算了视频中每个输入帧和另一帧之间的2D光流,用它表示两帧之间的像素位移。

这些光流场取决于场景的深度和摄像头的相对位置。但是,由于摄像头位置是已知的,可以从流场中去除二者之间的依赖关系,由此生成初始深度图。此初始深度仅对静态场景区域有效。为了在测试时处理运动中的人,可以利用人工分割网络来盖住初始深度图中的人类区域。这样,我们网络的完整输入包括:RGB图像、盖住人类的区域,以及基于视差的遮盖后的深度图。

深度预测网络:模型的输入包括RGB图像(第t帧),人类区域的遮盖和非人类区域的初始深度,根据输入帧与另一个之间的运动视差(光流)计算视频中的帧。模型输出第t帧的完整深度图。由MVS算法计算出的深度图负责对训练过程的监督。

该网络的作用是“修复”人与场景的深度值,并在其他地方细化深度值。因为人类的外形和大小特征几乎一致,网络可以通过观察多个训练样例,在模型内部学习这些先验知识。经过训练后,模型就可以处理任意摄像头和人体同时运动的视频。

以下是基于视频的深度预测模型结果的一些示例,并与最近基于最新学习的方法做了比较。

上图:基于学习的单眼深度预测方法。 下图:基于学习的立体方法(DeMoN)和我们的估计深度图的结果。

使用深度图处理3D视频效果

我们预测的深度图可用于产生一系列3D感知视频效

使用估计深度图产生的散景效果

我们的深度图也可用于其他方面的应用,包括利用单眼视频生成立体视频,将合成CG对象插入场景,还可以在视频的其他帧中显示内容的情况下进行场景区域的填充。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6139

    浏览量

    105061
  • 计算机视觉
    +关注

    关注

    8

    文章

    1696

    浏览量

    45924
  • 深度学习
    +关注

    关注

    73

    文章

    5491

    浏览量

    120958

原文标题:Google AI:机器学习预测场景深度图,模拟人眼更进一步

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    计算机视觉有哪些优缺点

    计算机视觉作为人工智能领域的一个重要分支,旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革,也
    的头像 发表于 08-14 09:49 702次阅读

    计算机视觉技术的AI算法模型

    计算机视觉技术作为人工智能领域的一个重要分支,旨在使计算机能够像人类一样理解和解释图像及视频中的信息。为了实现这一目标,
    的头像 发表于 07-24 12:46 596次阅读

    机器视觉计算机视觉有什么区别

    。机器视觉的研究目标是让机器具有类似人类视觉能力,能够自动、准确地完成各种视觉任务。 计算机视觉
    的头像 发表于 07-16 10:23 459次阅读

    计算机视觉的工作原理和应用

    计算机视觉(Computer Vision,简称CV)是一门跨学科的研究领域,它利用计算机和数学算法来模拟人类
    的头像 发表于 07-10 18:24 1606次阅读

    机器人视觉计算机视觉的区别与联系

    机器人视觉计算机视觉是两个密切相关但又有所区别的领域。 1. 引言 在当今科技迅猛发展的时代,机器人和计算机
    的头像 发表于 07-09 09:27 574次阅读

    计算机视觉与智能感知是干嘛的

    感知(Intelligent Perception)则是计算机视觉的一个分支,它强调计算机处理视觉信息时的智能性和自适应性。 随着
    的头像 发表于 07-09 09:23 763次阅读

    计算机视觉和机器视觉区别在哪

    计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。 一、定义 计算机视觉
    的头像 发表于 07-09 09:22 397次阅读

    计算机视觉和图像处理的区别和联系

    计算机视觉和图像处理是两个密切相关但又有明显区别的领域。 1. 基本概念 1.1 计算机视觉 计算机
    的头像 发表于 07-09 09:16 1124次阅读

    计算机视觉人工智能领域有哪些主要应用?

    计算机视觉是人工智能领域的一个重要分支,它主要研究如何让计算机能够像人类一样理解和处理图像和视频数据。
    的头像 发表于 07-09 09:14 1151次阅读

    计算机视觉属于人工智能吗

    属于,计算机视觉是人工智能领域的一个重要分支。 引言 计算机视觉是一门研究如何使计算机具有
    的头像 发表于 07-09 09:11 1133次阅读

    深度学习计算机视觉领域的应用

    随着人工智能技术的飞速发展,深度学习作为其中的核心技术之一,已经计算机视觉领域取得了显著的成果。计算机
    的头像 发表于 07-01 11:38 665次阅读

    机器视觉计算机视觉的区别

    人工智能和自动化技术的快速发展中,机器视觉(Machine Vision, MV)和计算机视觉(Computer Vision, CV)作为两个重要的分支
    的头像 发表于 06-06 17:24 1213次阅读

    计算机视觉的主要研究方向

    计算机视觉(Computer Vision, CV)作为人工智能领域的一个重要分支,致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展,
    的头像 发表于 06-06 17:17 837次阅读

    计算机视觉的十大算法

    随着科技的不断发展,计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法,包括它
    的头像 发表于 02-19 13:26 1194次阅读
    <b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的十大算法

    最适合 AI 应用的计算机视觉类型是什么?

    计算机视觉是指为计算机赋予人类视觉这一技术目标,从而赋能装配线检查到驾驶辅助和机器人等应用。计算机
    的头像 发表于 12-18 13:09 7173次阅读
    最适合 AI 应用的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>类型是什么?