深度预测模型推断移动中的人的场景深度-电子发烧友网

谷歌近日推出了在计算机视觉领域模拟重建人类视觉的新模型，与以往方法不同的是，新模型利用AI，通过普通Youtube视频预测深度图，可以在场景内的摄像头和人同时运动的复杂情况下生成自然视频。

人类的视觉系统具有非凡的能力，可以从2D投影中理解3D世界。即使在包含多个移动物体的复杂环境中，人也能够对物体的几何形状和深度的排序进行可行的解释。长期以来，计算机视觉领域都在研究如何通过2D图像数据计算重建场景的几何特征，来实现和人类类似的能力，但在许多情况下，仍然难以实现具备充分鲁棒性的重建。

当摄像头和场景中的物体都在自由移动时，是实现重建的最困难的情况。这种情况混淆了基于三角测量的传统3D重建算法，该算法假设可以同时从至少两个不同的观察点观察到相同的对象。满足这个假设需要一个多摄像头阵列，或者单摄像头移动，但场景目标本身是静止状态。因此，现有的大多数方法要么需要过滤掉移动的目标（将移动目标的深度固定为“零”），要么直接忽略移动目标（会导致深度值发生错误）。

左图：传统的立体设置假设至少有两个观察点在同时捕捉场景。右图：我们考虑摄像头和拍摄对象都在移动的情况。

我们通过基于深度学习的方法来解决这个基本问题，该方法可以从普通视频中生成深度图，场景中的摄像头和主体目标都可以自由移动。模型从数据中学习人体姿势和形状的先验知识，无需直接3D三角测量。尽管最近使用机器学习进行深度预测逐渐兴起，但这项工作是第一个针对同时在摄像头和目标都在运动的状态下的基于学习的方法。

本研究中的观察目标是人类，人类是增强现实和3D视频效果的有趣目标。

我们的模型可以预测深度图（右图，离摄像头越近，图中越亮），场景中的人和摄像头都在自由移动。

训练数据

我们以监督学习的方式训练深度预测模型，该模型需要通过移动的摄像头捕获的自然场景视频以及精确的深度图。关键问题是从何处获取此类数据。综合生成数据需要对各种场景和自然人类行为进行逼真的建模和渲染，这是很困难的任务。

此外，针对这样的数据训练的模型可能难以推广到真实场景中。另一种方法可能是用RGBD传感器（如微软的Kinect）记录真实场景，但深度传感器通常仅限于室内环境，而且要面临3D重建上的一系列问题。

我们利用现有的数据来进行监督学习：即YouTube视频，视频中的人们通过自己定格在各种自然姿势，模仿人体模特效果，而手持摄像机则在现场记录。

因为整个场景是静止的（只有摄像机在移动），所以基于三角测量的方法是行得通的，可以获得包括其中人物在内的整个场景的精确深度图。我们收集了大约2000个这样的视频，涵盖了各种逼真的场景，场景中的人按照不同的分组配置自然分布。

人们在摄像头在场景中移动时模仿人体模特，我们将其作为训练数据。我们使用传统的MVS算法来估计深度，并在深度预测模型的训练中将其用于监督。

推断移动中的人的场景深度

Mannequin挑战视频对移动中的摄像机和“定格”的人进行深度监控，但我们的目标是利用移动的摄像头和移动的人来处理视频。我们需要构建网络输入来弥补这一差距。

一种可能的方法是为视频的每一帧都进行深度图推断（也就是对模型的输入相当于单帧图像）。虽然这种模型改进了用于深度预测的最先进的单帧方法，但是我们可以通过来自多帧的信息组合来进一步改善结果。比如运动视差，即两个不同视点之间的静态物体的明显的相对运动，就对深度推断提供了有力线索。为了充分利用这些信息，我们计算了视频中每个输入帧和另一帧之间的2D光流，用它表示两帧之间的像素位移。

这些光流场取决于场景的深度和摄像头的相对位置。但是，由于摄像头位置是已知的，可以从流场中去除二者之间的依赖关系，由此生成初始深度图。此初始深度仅对静态场景区域有效。为了在测试时处理运动中的人，可以利用人工分割网络来盖住初始深度图中的人类区域。这样，我们网络的完整输入包括：RGB图像、盖住人类的区域，以及基于视差的遮盖后的深度图。

深度预测网络：模型的输入包括RGB图像（第t帧），人类区域的遮盖和非人类区域的初始深度，根据输入帧与另一个之间的运动视差（光流）计算视频中的帧。模型输出第t帧的完整深度图。由MVS算法计算出的深度图负责对训练过程的监督。

该网络的作用是“修复”人与场景的深度值，并在其他地方细化深度值。因为人类的外形和大小特征几乎一致，网络可以通过观察多个训练样例，在模型内部学习这些先验知识。经过训练后，模型就可以处理任意摄像头和人体同时运动的视频。

来看一段介绍视频：

以下是基于视频的深度预测模型结果的一些示例，并与最近基于最新学习的方法做了比较。

上图：基于学习的单眼深度预测方法。下图：基于学习的立体方法（DeMoN）和我们的估计深度图的结果。

使用深度图处理3D视频效果

我们预测的深度图可用于产生一系列3D感知视频效

使用估计深度图产生的散景效果

我们的深度图也可用于其他方面的应用，包括利用单眼视频生成立体视频，将合成CG对象插入场景，还可以在视频的其他帧中显示内容的情况下进行场景区域的填充。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6211

浏览量
106519
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121893

原文标题：Google AI：机器学习预测场景深度图，模拟人眼更进一步

文章出处：【微信号：smartman163，微信公众号：网易智能】欢迎添加关注！文章转载请注明出处。

中设智控全面接入DeepSeek加速AI+设备资产管理全场景深度融合

近日，中设智控完成DeepSeek于ACCM3设备资产综合管控服务内的部署，并且即将推出AI+设备资产综合管控的相关应用场景，推动设备资产管理从数字化向AI+数智化的演进。通过人工智能与设备资产管理

发表于 02-14 09:43 •330次阅读

<b class='flag-5'>中</b>设智控全面接入DeepSeek加速AI+设备资产管理全<b class='flag-5'>场景深度</b>融合

百川智能发布全场景深度思考模型Baichuan-M1-preview

近日，百川智能正式发布了国内首个全场景深度思考模型——Baichuan-M1-preview。这一创新成果标志着我国在人工智能领域取得了重要突破，特别是在语言、视觉和搜索三大领域的推理能力上实现了

发表于 02-05 13:51 •376次阅读

百川智能发布全场景深度思考模型Baichuan-M1-preview

1月24日，百川智能正式发布了全场景深度思考模型Baichuan-M1-preview。 Baichuan-M1-preview同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等权威评测

发表于 01-24 14:40 •788次阅读

FPGA加速深度学习模型的案例

FPGA（现场可编程门阵列）加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速深度学习模型的案例：一、基于FPGA的AlexNet卷积运算加速项目名称

发表于 10-25 09:22 •597次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度

发表于 10-23 15:25 •1980次阅读

FPGA做深度学习能走多远？

支持不同的数据精度、量化和激活函数等。这种灵活性使其能够适应各种深度学习任务，为不同的应用场景提供定制化的解决方案。 • 低功耗：FPGA 是可编程的，可以在设计中仅使用所需的计算资源，从而避免不必要

发表于 09-27 20:53

深度学习模型有哪些应用场景

深度学习模型作为人工智能领域的重要分支，已经在多个应用场景中展现出其巨大的潜力和价值。这些应用不仅改变了我们的日常生活，还推动了科技进步和产业升级。以下将详细探讨

发表于 07-16 18:25 •2767次阅读

深度神经网络模型量化的基本方法

尽量保持模型的性能。这一技术通过降低模型参数的位数来显著减小模型的大小，加速推理过程，并降低能耗，从而有助于将深度学习模型部署到边缘计算设备

发表于 07-15 11:26 •951次阅读

深度学习模型中的过拟合与正则化

在深度学习的广阔领域中，模型训练的核心目标之一是实现对未知数据的准确预测。然而，在实际应用中，我们经常会遇到一个问题——过拟合（Overfitting）。过拟合是指

发表于 07-09 15:56 •1266次阅读

深度学习中的时间序列分类方法

的发展，基于深度学习的TSC方法逐渐展现出其强大的自动特征提取和分类能力。本文将从多个角度对深度学习在时间序列分类中的应用进行综述，探讨常用的深度学习

发表于 07-09 15:54 •1401次阅读

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型学习的基石，更是模型智能的源泉。本文将从

发表于 07-04 11:49 •2859次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化算法调整模型参数，

发表于 07-01 16:13 •1802次阅读

深度学习的模型优化与调试方法

深度学习模型在训练过程中，往往会遇到各种问题和挑战，如过拟合、欠拟合、梯度消失或爆炸等。因此，对深度学习模型进行优化与调试是确保其性能优越的

发表于 07-01 11:41 •1189次阅读

【大语言模型：原理与工程实践】揭开大语言模型的面纱

复用和优化效果。这些趋势共同推动了大语言模型在深度学习研究和应用中的重要地位。数据效应指出大型模型需要更多数据进行训练，以提高性能。其次，表示能力使得大语言

发表于 05-04 23:55

FPGA在深度学习应用中或将取代GPU

、笔记本电脑或机架式服务器上训练神经网络时，这不是什么大问题。但是，许多部署深度学习模型的环境对 GPU 并不友好，比如自动驾驶汽车、工厂、机器人和许多智慧城市环境，在这些环境中硬件必须忍受热、灰尘、湿度

发表于 03-21 15:19

搜索历史

深度预测模型推断移动中的人的场景深度

评论

中设智控全面接入DeepSeek加速AI+设备资产管理全场景深度融合

百川智能发布全场景深度思考模型Baichuan-M1-preview

百川智能发布全场景深度思考模型Baichuan-M1-preview

FPGA加速深度学习模型的案例

AI大模型与深度学习的关系

FPGA做深度学习能走多远？

深度学习模型有哪些应用场景

深度神经网络模型量化的基本方法

深度学习模型中的过拟合与正则化

深度学习中的时间序列分类方法

深度学习中的模型权重

深度学习模型训练过程详解

深度学习的模型优化与调试方法

【大语言模型：原理与工程实践】揭开大语言模型的面纱

FPGA在深度学习应用中或将取代GPU