0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。

CVer 来源:CVer 2023-07-12 14:21 次阅读

TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。仅使用ResNet,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里还提出了不需要标注的调参方法。代码已公开可用。

5a5d439a-2073-11ee-962d-dac502259ad0.png

Paper title: Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

arXiv: https://arxiv.org/abs/2304.08025

作者机构:UC Berkeley, MSRA, UMich

Project page: https://rcf-video.github.io/

Code and models: https://github.com/TonyLianLong/RCF-UnsupVideoSeg

视频物体分割真的可以不需要人类监督吗?

视频分割一直是重标注的一个task,可是要标出每一帧上的物体是非常耗时费力的。然而人类可以轻松地分割移动的物体,而不需要知道它们是什么类别。为什么呢?

Gestalt定律尝试解释人类是怎么分割一个场景的,其中有一条定律叫做Common Fate,即移动速度相同的物体属于同一类别。比如一个箱子从左边被拖到右边,箱子上的点是均匀运动的,人就会把这个部分给分割出来理解。然而人并不需要理解这是个箱子来做这个事情,而且就算是婴儿之前没有见过箱子也能知道这是一个物体。

5aca276c-2073-11ee-962d-dac502259ad0.png

运用Common Fate来分割视频

这个定律启发了基于运动的无监督分割。然而,Common Fate并不是物体性质的可靠指标:关节可动 (articulated) /可变形物体 (deformable objects) 的一些part可能不以相同速度移动,而物体的阴影/反射 (shadows/reflections) 始终随物体移动,但并非其组成部分。

举个例子,下面这个人的腿和身子的运动是不同的(Optical Flow可视化出来颜色不同)。这很常见,毕竟人有关节嘛 (articulated),要是这个处理不了的话,很多视频都不能分割了。然而很多baseline是处理不了这点的(例如AMD+和OCLR),他们把人分割成了几个部分。

5b2027ac-2073-11ee-962d-dac502259ad0.png

还有就是影子和反射,比如上面这只天鹅,它的倒影跟它的运动是一致的(Optical Flow可视化颜色一样),所以之前的方法认为天鹅跟倒影是一个物体。很多视频里是有这类现象的(毕竟大太阳下物体都有个影子嘛),如果这个处理不了的话,很多视频也不能分割了。

那怎么解决?放松。Relax.

长话短说,那我们的方法是怎么解决这个问题的呢?无监督学习的一个特性是利用神经网络自己内部的泛化和拟合能力进行学习。既然Common Fate有自己的问题,那么我们没有必要强制神经网络去拟合Common Fate。于是我们提出了Relaxed Common Fate,通过一个比较弱的学习方式让神经网络真正学到物体的特性而不是noise。

具体来说,我们的方法认为物体运动由两部分组成:物体总体的piecewise-constant motion (也就是Common Fate)和物体内部的segment motion。比如你看下图这个舞者,他全身的运动就可以被理解成piecewise-constant motion来建模,手部腿部这些运动就可以作为residual motion进行拟合,最后合并成一个完整的flow,跟RAFT生成的flow进行比较来算loss。我们用的RAFT是用合成数据(FlyingChairs和FlyingThings)进行训练的,不需要人工标注。

5b4f6800-2073-11ee-962d-dac502259ad0.png

Relaxed Common Fate

首先我们使用一个backbone来进行特征提取,然后通过一个简单的full-convolutional network获得Predicted Masks $hat{M}$(下图里的下半部分),和一般的分割框架是一样的,也可以切换成别的框架。

那我们怎么优化这些Masks呢?我们先提取、合并两帧的特征,放入一个residual flow prediction head来获得Residual Flow $hat{R}$ (下图里的上半部分)。

然后我们对RAFT获得的Flow用Predicted Masks $hat{M}$进行Guided Pooling,获得一个piecewise-constant flow,再加上预测的residual flow,就是我们的flow prediction了。最后把flow prediction和RAFT获得的Flow的差算一个L1 norm Loss进行优化,以此来学习segmentation。

在测试的时候,只有Predicted Masks $hat{M}$ 是有用的,其他部分是不用的。

5b95f8f6-2073-11ee-962d-dac502259ad0.png

这里的Residual Flow会尽量初始化得小一些,来鼓励先学piecewise-constant的部分(有点类似ControlNet),再慢慢学习residual部分。

引入Appearance信息来帮助无监督视频分割

光是Relaxed Common Fate就能在DAVIS上相对baseline提5%了,但这还不够。前面说Relaxed Common Fate的只用了motion而没有使用appearance信息。

让我们再次回到上面这个例子。这个舞者的手和身子是一个颜色,然而AMD+直接把舞者的手忽略了。下面这只天鹅和倒影明明在appearance上差别这么大,却在motion上没什么差别。如果整合appearance和motion,是不是能提升分割质量呢?

5bb4182c-2073-11ee-962d-dac502259ad0.png

因此我们引入了Appearance 来进行进一步的监督。在学习完motion信息之后,我们直接把取得的Mask进行两步优化:一个是low-level的CRF refinement,强调颜色等细节一致的地方应该属于同一个mask(或背景),一个是semantic constraint,强调Unsupervised Feature一直的地方应该属于同一个mask。

把优化完的mask再和原mask进行比较,计算L2 Loss,再更新神经网络。这样训练的模型的无监督分割能力可以进一步提升。具体细节欢迎阅读原文。

5bf4316e-2073-11ee-962d-dac502259ad0.png

无监督调参

很多无监督方法都需要使用有标注的数据集来调参,而我们的方法提出可以利用前面说的motion和appearance的一致性来进行调参。简单地说,motion学习出的mask在appearance上不一致代表这个参数可能不是最优的。具体方法是在Unsupervised Feature上计算Normalized Cuts (但是不用算出最优值),Normalized Cuts越小越代表分割效果好。原文里面对此有详细描述。

方法效果

无论是否有Post-processing,我们的方法在三个视频分割数据集上都有很大提升,在STv2上更是提升了12%。

5c19869e-2073-11ee-962d-dac502259ad0.png

Ablation可以看出Residual pathway (Relaxed Common Fate)的贡献是最大的,其他部分总计贡献了11.9%的增长。

5c2ed2ba-2073-11ee-962d-dac502259ad0.png

Visualizations

5c55c0dc-2073-11ee-962d-dac502259ad0.png

5db3ac5a-2073-11ee-962d-dac502259ad0.png

总结

这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。通过Relaxed Common Fate来利用motion信息,再通过改进和利用appearance信息来进一步优化,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里还提出了不需要标注的调参方法。代码和模型已公开可用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4656

    浏览量

    99489
  • 视频分割
    +关注

    关注

    0

    文章

    4

    浏览量

    5790

原文标题:TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一直在调pmsm无速度的仿真,但是波形总是不对是为什么?

    ,换个参数就是封顶别的数值了)。给定速度超过900,转速就一直是900;给定速度低于900,电机转速就变负的。。这是为什么啊?速度完全不跟随给定
    发表于 02-06 06:49

    图像标注如何提升效率?

    心烦意乱,还会耗费大量时间。这时候,我们就需要借助标注工具,来帮助我们提高标注效率。那么市面上有没有类似的工具呢?答案是有的!但些工具费用昂贵,对使用者的能力要
    的头像 发表于 12-19 08:29 278次阅读
    图像<b class='flag-5'>标注</b>如何提升效率?

    PanopticNeRF-360:快速生成大量新视点全景分割图像!

    PanopticNeRF-360是PanopticNeRF的扩展版本,借助3D粗标注快速生成大量的新视点全景分割和RGB图,并引入几何-语义联合优化来解决交叉区域的类别模糊问题,对于数据标注领域有
    发表于 11-30 10:25 271次阅读
    PanopticNeRF-360:快速生成大量新视点全景<b class='flag-5'>分割</b>图像!

    完全不需要电解电容的LED驱动方案资料详情

    电子发烧友网站提供《完全不需要电解电容的LED驱动方案资料详情.rar》资料免费下载
    发表于 10-31 10:22 0次下载
    <b class='flag-5'>完全不需要</b>电解电容的LED驱动方案资料详情

    机器视觉(六):图像分割

    基于阈值的分割方法是种应用十分广泛的图像分割技术,其实质是利用图像的灰度直方图信息获取用于分割的阈值,
    的头像 发表于 10-22 11:34 744次阅读
    机器视觉(六):图像<b class='flag-5'>分割</b>

    ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量

    稠密图像分割问题一直在计算机视觉领域中备受关注。无论是在 Adobe 旗下的 Photoshop 等重要产品中,还是其他实际应用场景中,分割模型的泛化和精度都被赋予极高的期望。对于这
    的头像 发表于 10-02 10:40 599次阅读
    ICCV <b class='flag-5'>2023</b> | 超越SAM!EntitySeg:更少的数据,更高的<b class='flag-5'>分割</b>质量

    串口输出变量值一直是0或者一直不变的原因?

    串口输出变量值一直是0或者一直不变。 用输入捕获实验改的测距实验,测距的时间可以正常输出,但是距离经过运算公式之后就一直输出是0,是咋回事啊。
    发表于 09-27 07:41

    复旦开源LVOS:面向真实场景的长时视频目标分割数据集

    现有的视频目标分割(VOS)数据集主要关注于短时视频,平均时长在3-5秒左右,并且视频中的物体大部分时间都是可见的。然而在实际应用过程中,用
    的头像 发表于 09-04 16:33 669次阅读
    复旦开源LVOS:面向真实场景的长时<b class='flag-5'>视频</b>目标<b class='flag-5'>分割</b>数据集

    c++实现的多画面视频分割示例

    c++实现的多画面视频分割示例,有4路、8路、16路、64路显示等显示分割界面
    发表于 08-30 17:40 3次下载

    CVPR 2023 中的领域适应:用于切片方向连续的无监督跨模态医学图像分割

    如上图所示,以前的医学图像分割 UDA 方法大多采用 2D UDA,当将预测堆叠在起时,会导致切片方向上的预测不致。SDC-UDA 在翻译和分割过程中考虑
    的头像 发表于 08-17 16:35 1593次阅读
    <b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b> 中的领域适应:用于切片方向连续的无监督跨模态医学图像<b class='flag-5'>分割</b>

    数据标注工:训练AI,被AI替代

    代延不得不为“AI可能完全取代人”做准备。他带着团队同时做文本标注类别的教辅标注和3D点云标注项目。一个是文字,
    的头像 发表于 07-18 16:29 564次阅读
    数据<b class='flag-5'>标注</b>工:训练AI,被AI替代

    CVPR 2023 | 完全无监督的视频物体分割 RCF

    TLDR视频分割一直是标注
    的头像 发表于 07-16 20:45 385次阅读
    <b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b> | <b class='flag-5'>完全</b>无监督的<b class='flag-5'>视频</b><b class='flag-5'>物体</b><b class='flag-5'>分割</b> RCF

    点云标注的挑战与未来发展

    标注需要处理大量数据和复杂场景。自动驾驶汽车在实际行驶中会遇到各种不同的路况和环境,这需要点云标注系统具备强大的处理能力和泛化能力。 此外,点云
    的头像 发表于 07-10 15:39 460次阅读

    SAM-PT:点几下鼠标,视频目标就分割出来了!

    这些视频中包含训练之外的物体。而表现般的原因就是没有特定的视频分割数据进行微调,这些模型就很难在各种场景中保持
    的头像 发表于 07-10 15:28 488次阅读
    SAM-PT:点几下鼠标,<b class='flag-5'>视频</b>目标就<b class='flag-5'>分割</b>出来了!

    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

    本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。 简介 本文介绍种名为Side
    的头像 发表于 07-10 10:05 732次阅读
    <b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b> | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义<b class='flag-5'>分割</b>架构