0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何利用NVIDIA中的单视角3D追踪功能减轻视觉感知中的遮挡现象?

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-05-17 10:36 次阅读

说到智能视频分析(IVA)应用(如交通监控、仓库安全和零售消费者分析)的感知,最大的挑战之一就是遮挡。例如,人们可能会移动到结构性障碍物后面,零售消费者可能由于货架而无法被完全看到,汽车可能会被隐藏在大型卡车后面。

本文将介绍如何利用NVIDIA DeepStream SDK中全新的单视角 3D 追踪功能,来解决现实生活中 IVA 部署常见的视觉感知遮挡问题。

视觉感知中的视角和投影

在我们的物理世界中,通过相机镜头观察到的一些物体的运动可能看起来并不稳定,这是由于相机对 3D 世界的 2D 呈现所造成的。

水星和火星等行星的逆行就是一个例子,这让古希腊天文学家感到困惑。他们无法解释为什么行星有时看起来会向后移动(图 1)。

之所以会出现明显退行,是由于恒星和行星在夜空中的轨迹所造成的。这些是宇宙 3D 空间中轨道运动在夜空2D画布上的投影,如果古代天文学家知道3D空间的运动模式,他们就可以预测这些行星在2D夜空中的出现。

8712583e-1380-11ef-b74b-92fbcf53809c.png

图 1. 2014 年(左)和 2016 年(右)

火星在夜空中的逆行运动轨迹(图片来源:NASA)

交通监控摄像头提供了类似的例子。这些摄像头通常用于监测一个大面积的区域,在这个区域里,车辆在近场和远场的运动动态可能截然不同。

在视频 1 中,远处的车辆看起来较小且移动缓慢。当车辆靠近摄像头并转弯时,可以观察到物体运动的突然变化。这些变化使得我们在 2D 摄像机视图中很难找到常见的模式,因此也很难预测车辆未来可能移动的位置。

视频 1. 近场车辆似乎移动得很快,

而远场车辆则移动得较慢

物体跟踪本质上是对物体物理状态的连续估计,同时随着时间的推移来识别其独特身份。该过程通常包括对物体运动动态进行建模和预测,以抑制测量(检测)中的固有干扰。从所提供的示例来看,直接在原生3D空间中对物体状态进行估计和预测显然比在投影的2D 摄像头图像平面中效果更好,这是因为物体存在于3D空间中。

使用 NVIDIA DeepStream进行单视角 3D 跟踪

NVIDIA DeepStream SDK 是一个基于 GStreamer 的完整流媒体分析工具包,可用于基于 AI 的多传感器处理,视频、音频和图像理解。DeepStream 6.4 版本引入了一种名为单视角 3D 跟踪(SV3DT)的新功能,该功能能够在单摄像头视图内估计 3D 物理世界中的物体状态。

这一过程包括使用每个摄像头的 3×4 投影矩阵或摄像头矩阵,将 2D 摄像头图像平面上的观测测量转换为 3D 世界坐标系。物体在3D世界地平面中的位置表示为物体底部的中心,因此,行人被建模为一个立在世界地面平面上的圆柱体(具有高度和半径),圆柱体模型底部的中心是行人的脚部位置(图 2)。

87335f5c-1380-11ef-b74b-92fbcf53809c.png

图 2. 每个圆柱形模型的底部中心表示

每个行人在 3D 世界地平面上的位置(用绿点标记)

使用 3×4 投影矩阵和圆柱形人体模型,可以估算出针对检测到物体的 3D 人体模型在 3D 世界地平面上的位置,从而使投影在 2D 摄像头图像平面上的 3D 人体模型,与检测到的物体的边界框相吻合。

例如,在图 3(左)中,灰色边界框表示对象检测器使用NVIDIA TAO PeopleNet模型检测到的物体,紫色和黄色圆柱体代表从 3D 世界地平面上的估计位置投影到 2D 摄像头图像平面的相应的 3D 人体模型,投影的 3D 人体模型底部的绿点代表预估的脚部位置。尽管摄像头视图有透视和旋转,但这些位置与实际脚部位置非常吻合。

8897f42a-1380-11ef-b74b-92fbcf53809c.png

图 3. SV3DT 有助于跟踪零售消费者准确的脚部位置,

即使存在遮挡也不影响

新推出的 DeepStream SV3DT 功能的一个重要优势是,即使存在明显的局部遮挡,也可以准确地找到物体的 2D 和 3D 脚部位置,而这是现实世界 IVA 应用中最具挑战性的问题之一。

例如,图 3(右)显示了一个人在狭窄的过道里购物,摄像头只能看到其上半身的一小部分,这将导致物体边界框较小,只能捕获头部和肩部区域。在这种情况下,要在全局商店地图上对此人进行定位就变得极具挑战性,至少可以说,估计脚部位置是一项非同小可的任务。

使用边界框的底部中心作为对象位置的代表会为轨迹估计带来很大的误差。即使使用摄像头校准信息将 2D 点转换为 3D 点情况也是如此,尤其是当摄像头透视和旋转较大时。

DeepStream SDK 中的多目标跟踪器模块中的 SV3DT 算法,在假设摄像头安装在头部上方的情况下,通过利用 3D 人体建模信息来解决这个问题。大多数部署在智能空间中的大型摄像头网络系统通常都是这种情况。有了这个假设,在估算相应的 3D 人体模型位置时,就可以使用头部作为锚点。如图 3 显示,即使在人被严重遮挡的情况下,SV3DT 算法也可以成功地找到匹配的 3D 人体模型位置。

视频 2 显示了在一家便利店中对消费者进行跟踪的情况。需要注意的是,所使用的 3×4 投影矩阵没有考虑镜头失真,尽管特定的摄像头有一定的镜头失真,正如您所看到的,水平线有点弯曲而不是直线。这会导致 3D 人体模型位置估计更加不准确,尤其是当人位于视频帧的边缘时。

尽管如此,人们在便利店的 2D 和 3D 脚部位置(用绿点表示)还是被准确而稳健地追踪到了,这也提高了队列长度监控和占用率地图等其他分析的准确性。

图 4 显示了如何在合成数据集中稳健地追踪每个行人的脚部位置,即使下半身的大部分被货架等大型物体遮挡。

88ba9430-1380-11ef-b74b-92fbcf53809c.gif

图 4. 基于合成数据集的严重颗粒遮挡情况下的SV3DT 行人位置跟踪

我们相信,解决部分遮挡问题将为现实应用带来许多可能性。SV3DT 目前处于 Alpha 模式,因为其对象类型支持有限(仅限站立的人),其他情况(如人们坐着和躺着)或其他对象类型可能会在未来的版本中得到支持。

DeepStream SV3DT 用例

该 DeepStream SV3DT 用例演示了如何在本文介绍的零售商店视频上启用单视角 3D 跟踪,并从管道中保存 3D 元数据。如图 4 和视频 2 所示,用户可以从数据中可视化凸起的船体和脚部位置。README 还介绍了如何在定制视频上运行该算法。

总结

NVIDIA DeepStream SDK 中的单视角 3D 跟踪有助于缓解现实生活中 IVA 应用程序和部署的部分遮挡问题。该功能在 6.4 版本中首次推出,并在 7.0 版本中进行了增强。具体而言,SV3DT 能够在局部遮挡的情况下估计脚部位置,并能够进行更稳健和准确的对象追踪,从而实现 3D 地平面中的准确定位。依赖或利用地理空间分析的企业有望从这项技术中受益。

审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2548

    文章

    50698

    浏览量

    752043
  • NVIDIA
    +关注

    关注

    14

    文章

    4940

    浏览量

    102818
  • 摄像头
    +关注

    关注

    59

    文章

    4810

    浏览量

    95451

原文标题:利用 NVIDIA DeepStream 中的单视角 3D 跟踪技术减轻视觉感知中的遮挡现象

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OpenCV携奥比3D相机亮相CVPR 2024

    和机器学习软件库,提供丰富的图像处理和计算机视觉算法。奥比光与OpenCV的深入合作,使得复杂的3D感知项目开发变得简单高效。全球开发者及企业用户可借助奥比
    的头像 发表于 06-21 09:38 506次阅读

    苏州吴中区多色PCB板元器件3D视觉检测技术

    3D视觉检测相较于2D视觉检测,有其独特的优势,不受产品表面对比度影响,精确检出产品形状,可以测出高度(厚度)、体积、平整度等。在实际应用
    的头像 发表于 06-14 15:02 369次阅读
    苏州吴中区多色PCB板元器件<b class='flag-5'>3D</b><b class='flag-5'>视觉</b>检测技术

    奥比光英伟达联办3D视觉创新应用竞赛圆满收官

    5月15日,奥比光与NVIDIA(英伟达)联合主办的“2024第四届3D视觉创新应用竞赛”圆满落幕。
    的头像 发表于 05-30 09:37 385次阅读
    奥比<b class='flag-5'>中</b>光英伟达联办<b class='flag-5'>3D</b><b class='flag-5'>视觉</b>创新应用竞赛圆满收官

    天马微电子首发TIANMA META SIGHT光场3D解决方案

    3D显示领域,视角的大小和画面的稳定性一直是行业内的难题,TIANMA META SIGHT 3D光场显示器采用了先进的追踪式超多视点技术
    的头像 发表于 05-23 10:21 459次阅读
    天马微电子首发TIANMA META SIGHT光场<b class='flag-5'>3D</b>解决方案

    奥比光携多款3D相机深度参与国内3D视觉最高规格会议

    4月19日-21日,国内3D视觉最高规格会议China 3DV 2024大会在深圳举行。奥比光作为大会铂金赞助商,携多款不同技术路线的3D
    的头像 发表于 04-24 09:26 422次阅读
    奥比<b class='flag-5'>中</b>光携多款<b class='flag-5'>3D</b>相机深度参与国内<b class='flag-5'>3D</b><b class='flag-5'>视觉</b>最高规格会议

    奥比3D相机及方案亮相,携手NVIDIA探索机器人应用革新

    3月18日-21日,奥比光作为英伟达NPN合作伙伴亮相NVIDIA GTC 2024 AI开发者大会,在美国加州圣何塞会议中心带来基于奥比3D
    的头像 发表于 03-22 09:37 325次阅读

    奥比3D相机及方案亮相,携手NVIDIA探索机器人应用革新

    3月18日-22日,奥比光作为英伟达NPN合作伙伴亮相NVIDIA GTC 2024 AI开发者大会,在美国加州圣何塞会议中心带来基于奥比3D
    的头像 发表于 03-19 17:20 639次阅读

    高分工作!Uni3D3D基础大模型,刷新多个SOTA!

    我们主要探索了3D视觉scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GPT-4,SAM,EVA等)已经取得了很imp
    的头像 发表于 01-30 15:56 795次阅读
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基础大模型,刷新多个SOTA!

    技术基因+自主创新,光鉴科技塑造3D视觉感知新范式

    感知技术已经渗透到智能汽车、工业机器人、服务机器人、智慧城市、新零售和智能家居等广泛领域,凭借精度高、速度快、适配性强、抗干扰能力强等突出优势,3D视觉感知技术迅猛发展之势已经不可阻挡
    的头像 发表于 01-16 00:22 1268次阅读
    技术基因+自主创新,光鉴科技塑造<b class='flag-5'>3D</b><b class='flag-5'>视觉</b><b class='flag-5'>感知</b>新范式

    ad3d封装放到哪个层

    在广告3D封装通常放置在视觉设计层。视觉设计是广告至关重要的一个层面,通过图像、颜色和排版等视觉
    的头像 发表于 01-04 15:05 982次阅读

    一文了解3D视觉和2D视觉的区别

    3D视觉与2D视觉最明显的区别在于立体感。2D视觉只有两个维度,即宽度和高度;而
    的头像 发表于 12-25 11:15 2883次阅读

    2D3D视觉技术的比较

    作为一个多年经验的机器视觉工程师,我将详细介绍2D3D视觉技术的不同特点、应用场景以及它们能够解决的问题。在这个领域内,2D
    的头像 发表于 12-21 09:19 1064次阅读

    图漾科技发布3D工业视觉应用开发平台Vision++

    2023年12月20日,全球领先的3D机器视觉企业图漾科技发布了3D工业视觉应用开发平台Vision++,集成了简单易用的图形化低代码开发环境、丰富的2
    的头像 发表于 12-20 16:46 823次阅读
    图漾科技发布<b class='flag-5'>3D</b>工业<b class='flag-5'>视觉</b>应用开发平台Vision++

    3D视觉的三大优势

    康耐视的In-Sight 3D-L4000凭借突破性的3D视觉技术、无斑点蓝色激光照明系统和小巧外形重新定义了3D视觉解决方案。本文将深入探
    的头像 发表于 12-07 10:53 1186次阅读
    <b class='flag-5'>3D</b><b class='flag-5'>视觉</b>的三大优势

    阿迪达斯与 Covision Media 使用 AI 和 NVIDIA RTX 创建逼真的 3D 内容

    使用的传统方法(比如基于摄影测量法的应用和扫描仪等)可能需要数小时乃至数天的时间,而且这些方法有时无法提供高质量的 3D 质量和细节水平,而在所有应用呈现逼真的模型。 位于意大利的初创企业
    的头像 发表于 11-28 18:45 628次阅读
    阿迪达斯与 Covision Media 使用 AI 和 <b class='flag-5'>NVIDIA</b> RTX 创建逼真的 <b class='flag-5'>3D</b> 内容