0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

复旦开源LVOS:面向真实场景的长时视频目标分割数据集

CVer 来源:CVer 2023-09-04 16:33 次阅读

本文介绍复旦大学提出的面向真实场景的长时视频目标分割数据集LVOS,论文被ICCV2023收录

653a1c14-4ae1-11ee-97a6-92fbcf53809c.png

现有的视频目标分割(VOS)数据集主要关注于短时视频,平均时长在3-5秒左右,并且视频中的物体大部分时间都是可见的。然而在实际应用过程中,用户所需要分割的视频往往时长更长,并且目标物体常常会消失。现有的VOS数据集和真实场景存在一定的差异,真实场景中的视频更加困难。

虽然现在的SOTA的视频目标分割方法在短时的VOS数据集上已经取得了90%的分割准确率,但是这些算法在真实场景中的表现如何却由于缺少相关的数据集不得而知。

6541eec6-4ae1-11ee-97a6-92fbcf53809c.png

因此,为了探究VOS模型在真实场景下的表现,弥补现有数据集的缺失,我们提出了第一个面向真实场景的长时视频目标分割数据集Long-term Video Object Segmentation (LVOS)。

背景介绍:

视频目标分割(VOS)旨在根据视频中第一帧的物体的掩膜,在视频之后每一帧中准确地跟踪并分割目标物体。视频目标分割有着十分广泛的应用,比如:视频编辑、现实增强等。在实际应用场景中,待分割的视频长度常常大于一分钟,且视频中的目标物体会频繁地消失和重新出现。对于VOS模型来说,在任意长的视频中准确地重检测和分割目标物体是一个十分重要的能力。

但是,现有的VOS模型主要是针对于短时视频设计的,并不能很好的处理长时的物体消失和错误累计。并且部分VOS算法依赖于不断增长的记忆模块,当视频长度较长时,存在着低效率甚至显存不够的问题。

目前的视频目标分割数据集主要关注于短时视频,平均视频长度为六秒左右,和真实场景存在着较大差异。与现有的数据集相比,LVOS的视频长度更长,对于VOS算法的要求更高,能够更高地评估VOS模型在真实场景下的性能。

LVOS数据集介绍:

658426e2-4ae1-11ee-97a6-92fbcf53809c.png

LVOS包含220个视频,总时长达421分钟,平均每个视频时长为1.59分钟,远远大于现有的VOS数据集。LVOS中的视频更加复杂,且有着在短时视频中不存在的挑战,比如长时消失重现和跨时序混淆。这些挑战更难,且对VOS模型的性能影响更大。LVOS中涉及27个类别的物体,其中包含了7种只有测试集中存在的未见类别,能够很好地衡量VOS模型的泛化性。

LVOS分为120个训练视频,50个验证视频和50个测试视频,其中测试视频和验证视频已经全部开源,而测试视频目前只开源了视频图像和第一帧中目标物体的掩膜,需要将预测结果上传到测试服务器中进行在线评测。

方法介绍:

6588d66a-4ae1-11ee-97a6-92fbcf53809c.png

针对于长时视频,我们提出了一个新颖的VOS算法,Diverse Dynamic Memory (DDMemory)。DDMemory包含三个固定大小的记忆模块,分别是参考记忆,全局记忆和局部记忆。通过记忆模块,DDMemory将全局的时序信息压缩到三个固定大小的记忆特征中,在保持高准确率的同时实现了低GPU显存占用和高效率。在分割当前帧时,当前帧图像特征会与三个记忆模块特征进行匹配,并根据匹配结果输出掩膜预测。参考记忆存储第一帧的图像和掩膜信息,参考记忆负责物体消失或者遮挡之后的找回。局部记忆会随着视频不断更新,存储前一帧的图像和掩膜,为当前帧的分割提供位置和形状的先验。而全局记忆利用了全局记忆编码器,通过循环网络的形式,有效地将全局历史信息存储在一个固定大小的特征中,实现对于时序信息的高效压缩和对冗余噪声干扰的排除。

实验:

65cfb88c-4ae1-11ee-97a6-92fbcf53809c.png

在验证集和测试集上,我们对现有的VOS模型和DDMemory进行了分别评测。从表中可以看到,现有仅在短时视频上训练的VOS模型在长时视频上表现不如人意,而在长时视频上进行了微调之后,性能均有一定的提升。我们提出的DDMemory能够使用最小的GPU显存,在实现最好性能的同时,实现实时的速度(30.3FPS)。实验结果表明,现有的VOS模型对于真实场景表现较差,且由于缺少面向真实场景的数据集,在一定程度上限制了现有VOS模型的发展,也证明了LVOS数据集的价值。

65f23c0e-4ae1-11ee-97a6-92fbcf53809c.png

我们也进行了oracle实验,给定真实的位置和掩膜,模型的性能都会有所提升。在分割当前帧时,给定目标物体的真实位置,性能能够提升8.3%。而在记忆模块更新时,使用真实掩膜来代替预测掩膜进行更新,预测性能能够提升20.8%。但是即使给定目标物体的真实位置和掩膜,模型预测结果仍然和真实结果存在较大差距。实验表明,错误累计以及真实场景视频中复杂的物体运动对VOS模型仍然是尚未解决的挑战,且这些挑战在现有短时视频数据集中并不明显,却在真实场景下对VOS算法性能有着巨大的影响。

总结

针对于真实场景,我们构建了一个新的长时视频目标分割数据集LVOS,LVOS中的视频物体运动更加复杂,对于VOS模型的能力有着更高的要求,且比现有的短时数据集更加贴近实际应用。我们对现有的VOS算法进行了测试和比较,发现现有的VOS模型并不能很好地解决长时视频中的挑战。基于LVOS,我们也分析了现有方法的缺陷以及一些可能的改进方向。希望LVOS能够为面向真实场景的视频理解研究提供一个平台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4620

    浏览量

    93046
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24737
  • VOS
    VOS
    +关注

    关注

    0

    文章

    22

    浏览量

    8114

原文标题:​ICCV 2023 | 复旦开源LVOS:面向真实场景的长时视频目标分割数据集

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    鸿蒙开源场景应用开发资料汇总

    1、鸿蒙开源场景应用开发——视频编解码面对鸿蒙这一全新的生态,广大消费者在积极尝鲜的同时,家中不可避免会出现安卓设备和鸿蒙设备并存的现象,短期内可能不会形成全鸿蒙的生态环境。因此,在未来的一段时间
    发表于 03-23 10:09

    复旦微电子学院杨帆:介绍openDACS物理设计&建模验证SIG,发布开源Verilog Parser

    物理设计&建模验证SIG组长,介绍了SIG总体情况,包括四个方面内容:SIG研究方向介绍技术趋势和相关业界产品开源目标与计划开源版本发布最后代表复旦微电子学院,发布了openD
    发表于 07-01 14:35

    3D视频目标分割与快速跟踪

    3D视频目标分割与快速跟踪_朱仲杰
    发表于 01-07 16:00 0次下载

    广泛应用的城市语义分割数据整理

    这是最早用于自动驾驶领域的语义分割数据,发布于2007年末。他们应用自己的图像标注软件在一段10分钟的视频中连续标注了700张图片,这些视频
    的头像 发表于 05-29 09:42 8378次阅读

    如何在信息熵约束下进行视频目标分割资料详细概述

    大部分基于图论的视频分割方法往往先通过分析运动和外观信息获得先验显著性区域,然后用最小化能量模型来进一步分割,这些方法常常忽略对外观信息精细化分析,建立的目标模型对复杂
    发表于 12-06 11:53 4次下载

    深度学习在视频对象分割中的应用及相关研究

    视频对象分割的主要任务,并总结了该任务所面临的挑战。其次,对开放的视频对象分割常用数据进行了
    发表于 03-24 15:47 9次下载
    深度学习在<b class='flag-5'>视频</b>对象<b class='flag-5'>分割</b>中的应用及相关研究

    动态外观模型和高阶能量的双边视频目标分割方法

    针对复杂场景视频日标分割质量不佳和时间效率低下的问题,提岀了一种动态外观模型和高阶能量的双边视频目标
    发表于 04-07 15:44 8次下载
    动态外观模型和高阶能量的双边<b class='flag-5'>视频</b><b class='flag-5'>目标</b><b class='flag-5'>分割</b>方法

    基于深度学习的场景分割算法研究

    场景分割目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对
    发表于 02-12 11:28 589次阅读

    港中大IDEA开源首个大规模全场景人体数据Human-Art

    然而,现有的计算机视觉任务、训练的数据等大多只关注到了真实世界的照片,这导致相关模型在更丰富的场景下,常常出现性能下降甚至完全失效的问题。即使是SOTA性能的人体检测模型,面对虚拟
    的头像 发表于 04-11 14:13 965次阅读

    语义分割数据:从理论到实践

    语义分割是计算机视觉领域中的一个重要问题,它的目标是将图像或视频中的语义信息(如人、物、场景等)从背景中分离出来,以便于进行目标检测、识别和
    的头像 发表于 04-23 16:45 948次阅读

    PyTorch教程14.9之语义分割数据

    电子发烧友网站提供《PyTorch教程14.9之语义分割数据.pdf》资料免费下载
    发表于 06-05 11:10 0次下载
    PyTorch教程14.9之语义<b class='flag-5'>分割</b>和<b class='flag-5'>数据</b><b class='flag-5'>集</b>

    PyTorch教程-14.9. 语义分割数据

    14.9. 语义分割数据¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的头像 发表于 06-05 15:44 660次阅读
    PyTorch教程-14.9. 语义<b class='flag-5'>分割</b>和<b class='flag-5'>数据</b><b class='flag-5'>集</b>

    最全自动驾驶数据分享系列一:目标检测数据

    自动驾驶数据分享是整数智能推出的一个全新分享系列,在这个系列中,我们将介绍目前为止各大科研机构和企业推出的所有公开自动驾驶数据数据
    发表于 06-06 11:15 2次下载
    最全自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>集</b>分享系列一:<b class='flag-5'>目标</b>检测<b class='flag-5'>数据</b><b class='flag-5'>集</b>

    SAM-PT:点几下鼠标,视频目标分割出来了!

    这些视频中包含训练之外的物体。而表现一般的原因就是没有特定的视频分割数据进行微调,这些模型就很难在各种场景中保持一致的性能。
    的头像 发表于 07-10 15:28 736次阅读
    SAM-PT:点几下鼠标,<b class='flag-5'>视频</b><b class='flag-5'>目标</b>就<b class='flag-5'>分割</b>出来了!

    图像分割目标检测的区别是什么

    图像分割目标检测是计算机视觉领域的两个重要任务,它们在许多应用场景中都发挥着关键作用。然而,尽管它们在某些方面有相似之处,但它们的目标、方法和应用
    的头像 发表于 07-17 09:53 1394次阅读