0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于通用的模型PADing解决三大分割任务

CVer 来源:CVer 2023-06-26 10:39 次阅读

1. 研究动机

图像分割旨在将具有不同语义的像素进行分类进而分组,例如类别或实例,近年来取得飞速的发展。然而,由于深度学习方法是数据驱动的,对大规模标记训练样本的强烈需求导致了巨大的挑战,这些训练数据需要消耗巨大的时间以及人力成本。为处理上述难题,零样本学习(Zero-Shot Learning,ZSL)被提出用于分类没有训练样本的新对象,并扩展到分割任务中,例如零样本语义分割(Zero-Shot Semantic Segmentation, ZSS)和零样本实例分割(Zero-Shot Instance Segmentation, ZSI)。在此基础上,本文进一步引入零样本全景分割(Zero-Shot Panoptic Segmentation, ZSP)并旨在利用语义知识构建一个通用的零样本全景/语义/实例分割框架,如图1所示。

本文从为未知类别生成更好的伪特征出发来设计一个通用的模型PADing解决三大分割任务。针对通用分割存在的共性问题:视觉与语言差异以及类别偏见问题,旨在实现对于新类别的全景、实例和语义分割。本文基于零样本通用分割方法PADing开展定量实验和定性可视化,研究结果表明,相对于主流方法,该方法在定量实验结果和定性可视化结果方面表现出色。

本文贡献主要包括以下四点:

研究了通用的零样本分割问题,并提出了一种名为基于协作关系对齐和特征解耦学习的基元生成(Primitive generation with collaborative relationship Alignment and feature Disentanglement learning,PADing)的统一框架来处理零样本语义分割、实例分割和全景分割问题。

提出了一种基元生成器,它使用许多带有细粒度属性的学习基元来合成未见过类别的视觉特征,有助于解决偏差问题和域间差距问题。

提出了一种协作关系对齐和特征解耦学习方法,以促进生成器产生更好的合成特征。

提出的方法PADing在零样本全景分割(ZSP)、零样本实例分割(ZSI)和零样本语义分割(ZSS)上取得了新的最先进性能。

2. 方法

2.1 方法概述

本文提出的方法基于协作关系对齐和特征解耦学习的基元生成PADing,其总体架构如图2所示。首先,Backbone预测了一组与类无关的掩码及其相应的类向量。接着,基元生成器经过训练,可以从语义向量中合成类向量。然后,将真实的与合成类向量被分解为与语义相关和与语义无关的特征,并在语义相关的特征上进行关系对齐学习。最后,通过合成未知类别的向量,用实际已知类别的真实向量和未知类别的合成向量进行重新微调训练分类器。

ac14b2a4-1371-11ee-962d-dac502259ad0.png

图2: PADing框架结构图

2.2 基元跨模态生成

由于缺乏未知类别的样本,分类器不能使用未知类别的特征进行优化。因此,仅使用已知类别的特征进行训练的分类器往往会将所有对象标记为已知类别,这称为偏置问题。先前的方法提出利用生成模型来为未知类别合成假的视觉特征。虽然达到了良好的性能,但并未考虑特征粒度的视觉-语义差异。众所周知,图像通常包含比语言更丰富的信息。视觉信息提供了对象的非常精细的属性,而文本信息通常提供抽象和高级别的属性。这种差异导致了视觉特征和语义特征之间的不一致。为了解决这一挑战,本文提出了一个基于基元的跨模态生成器,利用大量学习到的属性基元来构建视觉表示。

先初始化一堆可学习的基元,希望它能学习到细粒度的信息,具体的方法是利用Transformer将语义向量和基元组都输入到网络中,首先语义向量先与基元组计算相似度,选择其与语义向量最为相关型的基元后并加入高斯噪声。这样就得到由基元组成的特征,当输入一个语义向量,能输出生成相应的视觉向量。最后用MMD损失来拉近这两个生成与真实的视觉向量特征。基元就像是语言与视觉之间的桥梁,消除两者之间的域内差异。

ac2decec-1371-11ee-962d-dac502259ad0.png

图3: 基元跨模态生成的结构示意图

2.3 语义-视觉关系对齐

众所周知,类别之间的关系自然上是不同的。例如,有三个对象:苹果、橙子和奶牛。显然,苹果和橙子之间的关系比苹果和奶牛之间的关系更紧密。语义空间中的类别关系是强大的先验知识,而类别特定的特征生成并没有明确利用这种关系。也就是语义空间中关系相近的物体,在视觉空间也应该相近,具有相似的分布。但通常的方法一般直接将语义空间的关系暴力地迁移到视觉空间中。这样并不能有效的利用语义关系,因为语义和视觉本来就不是相互对齐的空间,视觉特征包含更多信息,而语义特征可以看作是信息的浓缩。也就是视觉特征中多了多余的信息。所以本文考虑到了将视觉特征进行解耦之后再进行关系对齐。解耦的方法也就是分成了语义相关特征与语义无关特征,然后将视觉的语义相关特征再与语义特征对齐。语义无关特征希望其符合正态分布刻画着没有具体语义信息的特征。而语义相关特征需要其能通过特征将其分到指定语义信息中。

ac537246-1371-11ee-962d-dac502259ad0.png

图4: 语义-视觉关系对齐示意图

3. 实验

3.1 定量结果实验

为了验证本文方法的有效性,在COCO数据上针对全景分割、实例分割、语义分割上进行了对比实验,见表1、2、3。实验结果表明,本文方法PADing取得先进的性能。

ac757ee0-1371-11ee-962d-dac502259ad0.png

表1: 零样本全景分割结果

ac86033c-1371-11ee-962d-dac502259ad0.png

表2: 零样本语义分割结果

ac9328aa-1371-11ee-962d-dac502259ad0.png

表1: 零样本实例分割结果

3.2 定性结果实验

为了探究基元是否可以代表细微的细节元素,图5可视化不同基元在图片上的注意力响应。结果表明基元可以代表不同细粒度的属性,例如在图中的猫作为例子:关注到了耳朵、尾巴以及轮廓。

aca2f71c-1371-11ee-962d-dac502259ad0.png

图5: 基元注意力响应图

为了研究本文合成的未见特征的属性,并展示本章提出的方法的有效性,图6使用 t-SNE来展示合成的未知特征的分布情况。(a)由 GMMN 生成器生成的合成特征由于语义-视觉差异而杂乱无序。(b)引入了本文的基元生成器,同一类别的特征变得更加紧密,不同类别的特征则高度可分。此外,在语义相关特征上应用关系对齐约束后,(c),不同类别的特征相距更远,分布结构更好,这表明结构关系已经嵌入到合成的特征中,合成的未见特征大大增强了较好的区分性。

acbab474-1371-11ee-962d-dac502259ad0.png

图6: 不同生成器生成未知类别特征分布图

图7定性可视化了零样本通用分割结果的例子,结果表明我们的方法可以取得很好的效果。

acd6b37c-1371-11ee-962d-dac502259ad0.png

图7: 零样本通用分割(全景、实例、语义分割)可视化结果

4. 总结

本文针对零样本通用分割中存在的视觉与语言差异以及类别偏见问题,提出了基元生成、协作关系对齐与特征解耦学习的统一框架(PADing),以实现高效、实用的零样本通用分割。首先,提出了基元生成器,用于合成未知类别的伪训练特征。接着,提出了协作的特征解耦和关系对齐学习策略,帮助生成器产生更好的伪未知特征,前者将视觉特征解耦为语义相关部分和语义不相关部分,后者将跨类知识从语义空间传输到视觉空间。PADing在三个零样本分割任务,包括语义、实例和全景分割上进行的广泛实验,都取得了最先进的结果。
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3097

    浏览量

    48626
  • 生成器
    +关注

    关注

    7

    文章

    313

    浏览量

    20935
  • 分割
    +关注

    关注

    0

    文章

    17

    浏览量

    11883

原文标题:CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    通过任务分割提高嵌入式系统的实时性

    分析长任务对嵌入式系统实时性的影响,在此基础上提出任务分割是提高嵌入式系统实时性的一种有效途径; 总结长任务分割的方法, 给出一个通过
    发表于 05-15 15:07 4次下载

    基于多级混合模型的图像分割方法

    本文研究了典型的基于区域的图像分割方法主动形状模型(Active Shape Model, ASM)和基于边缘的图像分割snake 算法,分析了算法适用条件和各自的优缺点。结合snake 模型
    发表于 07-08 09:58 20次下载

    基于改进活动轮廓模型的图像分割

    基于改进活动轮廓模型的图像分割_王芳
    发表于 01-07 19:00 0次下载

    基于模型球型分割的信息隐藏算法

    对于基于模型信息隐藏算法在几何攻击中鲁棒性差的问题,提出一种基于模型球型分割的信息隐藏算法。首先,利用主元分析、球面坐标转换、球型
    发表于 11-28 11:10 0次下载

    聚焦语义分割任务,如何用卷积神经网络处理语义图像分割

    CNN架构图像语义分割 图像分割是根据图像内容对指定区域进行标记的计算机视觉任务,简言之就是「这张图片里有什么,其在图片中的位置是什么?」本文聚焦于语义分割
    发表于 09-17 15:21 546次阅读

    基于预测算法实现模型的最优在线任务分配

    根据空间众包任务类型的多样化特点,构建空间众包任务分配模型并提出基于预测算法的在线仼务分配策略。在批处理模式下,将最大分任务分配问题转化为
    发表于 03-22 11:47 26次下载
    基于预测算法实现<b class='flag-5'>模型</b>的最优在线<b class='flag-5'>任务</b>分配

    通用航空器运行排班及维修任务的优化模型

    控制目标,文中分析了通用航空器作业的运行与维修计划特性,结合通航运行控制与调度的实际经验和工作流程等强约束条件,提岀了兼容运行排班与安全保障的公平性及均匀性策略,建立了通用航空器运行排班及维修任务的优仳
    发表于 04-22 15:36 6次下载
    <b class='flag-5'>通用</b>航空器运行排班及维修<b class='flag-5'>任务</b>的优化<b class='flag-5'>模型</b>

    基于遥感数据的海岛边界快速分割模型

    基于遥感数据的海岛边界快速分割模型
    发表于 06-11 15:32 4次下载

    在NGC上玩转图像分割!NeurIPS顶会模型、智能标注10倍速神器、人像分割SOTA方案、3D医疗影像分割利器应有尽有

    ! 图像分割是计算机视觉任务之一,基于深度学习的图像分割技术也发挥日益重要的作用,广泛应用于工业质检、自动驾驶、遥感
    的头像 发表于 11-21 21:05 1038次阅读

    通用视觉GPT时刻来临?智源推出通用分割模型SegGPT

    无论是 “一触即通” 还是 “一通百通”,都意味着视觉模型已经 “理解” 了图像结构。SAM 精细标注能力与 SegGPT 的通用分割标注能力相结合,能把任意图像从像素阵列解析为视觉结构单元,像生物视觉那样理解任意场景,
    的头像 发表于 04-09 09:40 1394次阅读

    SAM分割模型是什么?

    SAM是一类处理图像分割任务通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM
    的头像 发表于 05-20 09:30 2150次阅读

    近期分割模型发展情况

    SAM(Segment Anything Model)Meta 的 FAIR 实验室发布的一种最先进的图像分割模型,该模型将自然语言处理领域的prompt范式引入计算机视觉领域,可以通过点击、框选和自动识别
    的头像 发表于 05-22 16:26 816次阅读
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>发展情况

    中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

    通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务,⽤带实例分割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度实现了与SAM⽅
    的头像 发表于 06-28 14:33 1580次阅读
    中科院提出FastSAM快速<b class='flag-5'>分割</b>一切<b class='flag-5'>模型</b>!比Meta原版提速50倍!

    项SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割、语义分割和全景分割任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯
    的头像 发表于 12-12 11:23 711次阅读
    <b class='flag-5'>三</b>项SOTA!MasQCLIP:开放词汇<b class='flag-5'>通用</b>图像<b class='flag-5'>分割</b>新网络

    图像分割与语义分割中的CNN模型综述

    图像分割与语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型,在图像
    的头像 发表于 07-09 11:51 548次阅读