0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度预测模型推断移动中的人的场景深度

电子工程师 来源:YXQ 2019-05-27 11:23 次阅读

谷歌近日推出了在计算机视觉领域模拟重建人类视觉的新模型,与以往方法不同的是,新模型利用AI,通过普通Youtube视频预测深度图,可以在场景内的摄像头和人同时运动的复杂情况下生成自然视频。

人类的视觉系统具有非凡的能力,可以从2D投影中理解3D世界。即使在包含多个移动物体的复杂环境中,人也能够对物体的几何形状和深度的排序进行可行的解释。长期以来,计算机视觉领域都在研究如何通过2D图像数据计算重建场景的几何特征,来实现和人类类似的能力,但在许多情况下,仍然难以实现具备充分鲁棒性的重建。

当摄像头和场景中的物体都在自由移动时,是实现重建的最困难的情况。这种情况混淆了基于三角测量的传统3D重建算法,该算法假设可以同时从至少两个不同的观察点观察到相同的对象。满足这个假设需要一个多摄像头阵列,或者单摄像头移动,但场景目标本身是静止状态。因此,现有的大多数方法要么需要过滤掉移动的目标(将移动目标的深度固定为“零”),要么直接忽略移动目标(会导致深度值发生错误)。

左图:传统的立体设置假设至少有两个观察点在同时捕捉场景。右图:我们考虑摄像头和拍摄对象都在移动的情况。

我们通过基于深度学习的方法来解决这个基本问题,该方法可以从普通视频中生成深度图,场景中的摄像头和主体目标都可以自由移动。模型从数据中学习人体姿势和形状的先验知识,无需直接3D三角测量。尽管最近使用机器学习进行深度预测逐渐兴起,但这项工作是第一个针对同时在摄像头和目标都在运动的状态下的基于学习的方法。

本研究中的观察目标是人类,人类是增强现实和3D视频效果的有趣目标。

我们的模型可以预测深度图(右图,离摄像头越近,图中越亮),场景中的人和摄像头都在自由移动。

训练数据

我们以监督学习的方式训练深度预测模型,该模型需要通过移动的摄像头捕获的自然场景视频以及精确的深度图。关键问题是从何处获取此类数据。综合生成数据需要对各种场景和自然人类行为进行逼真的建模和渲染,这是很困难的任务。

此外,针对这样的数据训练的模型可能难以推广到真实场景中。另一种方法可能是用RGBD传感器(如微软的Kinect)记录真实场景,但深度传感器通常仅限于室内环境,而且要面临3D重建上的一系列问题。

我们利用现有的数据来进行监督学习:即YouTube视频,视频中的人们通过自己定格在各种自然姿势,模仿人体模特效果,而手持摄像机则在现场记录。

因为整个场景是静止的(只有摄像机在移动),所以基于三角测量的方法是行得通的,可以获得包括其中人物在内的整个场景的精确深度图。我们收集了大约2000个这样的视频,涵盖了各种逼真的场景,场景中的人按照不同的分组配置自然分布。

人们在摄像头在场景中移动时模仿人体模特,我们将其作为训练数据。我们使用传统的MVS算法来估计深度,并在深度预测模型的训练中将其用于监督。

推断移动中的人的场景深度

Mannequin挑战视频对移动中的摄像机和“定格”的人进行深度监控,但我们的目标是利用移动的摄像头和移动的人来处理视频。我们需要构建网络输入来弥补这一差距。

一种可能的方法是为视频的每一帧都进行深度图推断(也就是对模型的输入相当于单帧图像)。虽然这种模型改进了用于深度预测的最先进的单帧方法,但是我们可以通过来自多帧的信息组合来进一步改善结果。比如运动视差,即两个不同视点之间的静态物体的明显的相对运动,就对深度推断提供了有力线索。为了充分利用这些信息,我们计算了视频中每个输入帧和另一帧之间的2D光流,用它表示两帧之间的像素位移。

这些光流场取决于场景的深度和摄像头的相对位置。但是,由于摄像头位置是已知的,可以从流场中去除二者之间的依赖关系,由此生成初始深度图。此初始深度仅对静态场景区域有效。为了在测试时处理运动中的人,可以利用人工分割网络来盖住初始深度图中的人类区域。这样,我们网络的完整输入包括:RGB图像、盖住人类的区域,以及基于视差的遮盖后的深度图。

深度预测网络:模型的输入包括RGB图像(第t帧),人类区域的遮盖和非人类区域的初始深度,根据输入帧与另一个之间的运动视差(光流)计算视频中的帧。模型输出第t帧的完整深度图。由MVS算法计算出的深度图负责对训练过程的监督。

该网络的作用是“修复”人与场景的深度值,并在其他地方细化深度值。因为人类的外形和大小特征几乎一致,网络可以通过观察多个训练样例,在模型内部学习这些先验知识。经过训练后,模型就可以处理任意摄像头和人体同时运动的视频。

来看一段介绍视频:

以下是基于视频的深度预测模型结果的一些示例,并与最近基于最新学习的方法做了比较。

上图:基于学习的单眼深度预测方法。 下图:基于学习的立体方法(DeMoN)和我们的估计深度图的结果。

使用深度图处理3D视频效果

我们预测的深度图可用于产生一系列3D感知视频效

使用估计深度图产生的散景效果

我们的深度图也可用于其他方面的应用,包括利用单眼视频生成立体视频,将合成CG对象插入场景,还可以在视频的其他帧中显示内容的情况下进行场景区域的填充。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6163

    浏览量

    105307
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121113

原文标题:Google AI:机器学习预测场景深度图,模拟人眼更进一步

文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FPGA加速深度学习模型的案例

    FPGA(现场可编程门阵列)加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速深度学习模型的案例: 一、基于FPGA的AlexNet卷积运算加速 项目名称
    的头像 发表于 10-25 09:22 215次阅读

    AI大模型深度学习的关系

    AI大模型深度学习之间存在着密不可分的关系,它们互为促进,相辅相成。以下是对两者关系的介绍: 一、深度学习是AI大模型的基础 技术支撑 :深度
    的头像 发表于 10-23 15:25 652次阅读

    FPGA做深度学习能走多远?

    支持不同的数据精度、量化和激活函数等。这种灵活性使其能够适应各种深度学习任务,为不同的应用场景提供定制化的解决方案。 • 低功耗:FPGA 是可编程的,可以在设计仅使用所需的计算资源,从而避免不必要
    发表于 09-27 20:53

    深度学习模型有哪些应用场景

    深度学习模型作为人工智能领域的重要分支,已经在多个应用场景展现出其巨大的潜力和价值。这些应用不仅改变了我们的日常生活,还推动了科技进步和产业升级。以下将详细探讨
    的头像 发表于 07-16 18:25 1914次阅读

    深度神经网络模型量化的基本方法

    尽量保持模型的性能。这一技术通过降低模型参数的位数来显著减小模型的大小,加速推理过程,并降低能耗,从而有助于将深度学习模型部署到边缘计算设备
    的头像 发表于 07-15 11:26 666次阅读

    深度学习模型的过拟合与正则化

    深度学习的广阔领域中,模型训练的核心目标之一是实现对未知数据的准确预测。然而,在实际应用,我们经常会遇到一个问题——过拟合(Overfitting)。过拟合是指
    的头像 发表于 07-09 15:56 929次阅读

    深度学习的时间序列分类方法

    的发展,基于深度学习的TSC方法逐渐展现出其强大的自动特征提取和分类能力。本文将从多个角度对深度学习在时间序列分类的应用进行综述,探讨常用的深度学习
    的头像 发表于 07-09 15:54 877次阅读

    深度学习的无监督学习方法综述

    应用往往难以实现。因此,无监督学习在深度学习扮演着越来越重要的角色。本文旨在综述深度学习的无监督学习方法,包括自编码器、生成对抗网络、
    的头像 发表于 07-09 10:50 683次阅读

    深度学习模型权重

    深度学习这一充满无限可能性的领域中,模型权重(Weights)作为其核心组成部分,扮演着至关重要的角色。它们不仅是模型学习的基石,更是模型智能的源泉。本文将从
    的头像 发表于 07-04 11:49 1216次阅读

    深度学习的典型模型和训练过程

    深度学习作为人工智能领域的一个重要分支,近年来在图像识别、语音识别、自然语言处理等多个领域取得了显著进展。其核心在于通过构建复杂的神经网络模型,从大规模数据自动学习并提取特征,进而实现高效准确的
    的头像 发表于 07-03 16:06 1419次阅读

    深度神经网络模型cnn的基本概念、结构及原理

    ,其核心是构建具有多层结构的神经网络模型,以实现对复杂数据的高效表示和处理。在众多深度学习模型,卷积神经网络(CNN)因其在图像识别等领域的卓越性能而备受关注。CNN通过引入卷积层和
    的头像 发表于 07-02 10:11 9709次阅读

    深度学习模型训练过程详解

    深度学习模型训练是一个复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型,本质上是通过优化算法调整模型参数,
    的头像 发表于 07-01 16:13 1237次阅读

    深度学习的模型优化与调试方法

    深度学习模型在训练过程,往往会遇到各种问题和挑战,如过拟合、欠拟合、梯度消失或爆炸等。因此,对深度学习模型进行优化与调试是确保其性能优越的
    的头像 发表于 07-01 11:41 803次阅读

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    复用和优化效果。这些趋势共同推动了大语言模型深度学习研究和应用的重要地位。数据效应指出大型模型需要更多数据进行训练,以提高性能。其次,表示能力使得大语言
    发表于 05-04 23:55

    FPGA在深度学习应用或将取代GPU

    、笔记本电脑或机架式服务器上训练神经网络时,这不是什么大问题。但是,许多部署深度学习模型的环境对 GPU 并不友好,比如自动驾驶汽车、工厂、机器人和许多智慧城市环境,在这些环境硬件必须忍受热、灰尘、湿度
    发表于 03-21 15:19