0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

IPMT:用于小样本语义分割的中间原型挖掘Transformer

CVer 来源:CVer 作者:CVer 2022-11-17 15:25 次阅读

本文简要介绍发表在NeurIPS 2022上关于小样本语义分割的论文《Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation》。该论文针对现有研究中忽视查询和支持图像之间因类内多样性而带来的类别信息的差距,而强行将支持图片的类别信息迁移到查询图片中带来的分割效率低下的问题,引入了一个中间原型,用于从支持中挖掘确定性类别信息和从查询中挖掘自适应类别知识,并因此设计了一个中间原型挖掘Transformer。文章在每一层中实现将支持和查询特征中的类型信息到中间原型的传播,然后利用该中间原型来激活查询特征图。借助Transformer迭代的特性,使得中间原型和查询特征都可以逐步改进。相关代码已开源在:

https://github.com/LIUYUANWEI98/IPMT

一、研究背景

目前在计算机视觉取得的巨大进展在很大程度上依赖于大量带标注的数据,然而收集这些数据是一项耗时耗力的工作。为了解决这个问题,通过小样本学习来学习一个模型,并将该模型可以推广到只有少数标注图像的新类别。这种设置也更接近人类的学习习惯,即可以从稀缺标注的示例中学习知识并快速识别新类别。

本文专注于小样本学习在语义分割上的应用,即小样本语义分割。该任务旨在用一些带标注的支持样本来分割查询图像中的目标物体。然而,目前的研究方法都严重依赖从支持集中提取的类别信息。尽管支持样本能提供确定性的类别信息指导,但大家都忽略了查询和支持样本之间可能存在固有的类内多样性。

在图1中,展示了一些支持样本原型和查询图像原型的分布。从图中可以观察到,对于与查询图像相似的支持图像(在右侧标记为“相似支持图像”),它们的原型在特征空间中与查询原型接近,在这种情况下匹配网络可以很好地工作。然而,对于与查询相比在姿势和外观上具有较大差异的支持图像(在左侧标记为“多样化支持图像”),支持和查询原型之间的距离会很远。在这种情况下,如果将支持原型中的类别信息强行迁移到查询中,则不可避免地会引入较大的类别信息偏差。

e427f546-6635-11ed-8abf-dac502259ad0.jpg

图1 支持样本原型与查询图像原型分布图

因此,本文在通过引入一个中间原型来缓解这个问题,该原型可以通过作者提出的中间原型挖掘Transformer弥补查询和支持图像之间的类别信息差距。每层Transformer由两个步骤组成,即中间原型挖掘和查询激活。在中间原型挖掘中,通过结合来自支持图像的确定性类别信息和来自查询图像的自适应类别知识来学习中间原型。然后,使用学习到的原型在查询特征激活模块中激活查询特征图。此外,中间原型挖掘Transformer以迭代方式使用,以逐步提高学习原型和激活查询功能的质量。

二、方法原理简述

e4511246-6635-11ed-8abf-dac502259ad0.jpg

图2 方法总框图

支持图像和查询图像输入到主干网络分别提取除支持特征和查询特征。查询特征在原型激活(PA)模块中经过简单的利用支持图像原型进行激活后,分割成一个初始预测掩码,并将该掩码和激活后的查询特征作为中间原型挖掘Transformer层的一个输入。同时,将支持特征、支持图片掩码和随机初始化的一个中间原型也做为第一层中间原型挖掘Transformer的输入。在中间原型挖掘Transformer层中,首先进行掩码注意力操作。具体来说,计算中间原型与查询或支持特征之间的相似度矩阵,并利用下式仅保留前景区域的特征相似度矩阵:

e47eb26e-6635-11ed-8abf-dac502259ad0.png

处理后的相似度矩阵作为权重,分别捕获查询或支持特征中的类别信息并形成新的原型。

e4a64540-6635-11ed-8abf-dac502259ad0.png

查询特征新原型、支持特征新原型和原中间原型结合在一起形成新的中间原型,完成对中间原型的挖掘。

e4d6ec7c-6635-11ed-8abf-dac502259ad0.png

而后,新的中间原型在查询特征激活模块中对查询特征中的类别目标予以激活。

e4fdfbc8-6635-11ed-8abf-dac502259ad0.png

为了便于学习中间原型中的自适应类别信息,作者使用它在支持和查询图像上生成两个分割掩码,并计算两个分割损失。

e51e9af4-6635-11ed-8abf-dac502259ad0.png

并设计双工分割损失(DSL):

e5353b2e-6635-11ed-8abf-dac502259ad0.png

由于一个中间原型挖掘Transformer层可以更新中间原型、查询特征图和查询分割掩码,因此,作者通过迭代执行这个过程,得到越来越好的中间原型和查询特征,最终使分割结果得到有效提升。假设有L 层,那么对于每一层有:

e552a614-6635-11ed-8abf-dac502259ad0.png

上式中具体过程又可以分解为以下环节:

e57441ac-6635-11ed-8abf-dac502259ad0.png

三、实验结果及可视化

e5b042d8-6635-11ed-8abf-dac502259ad0.png

图3 作者提出方法的结果的可视化与比较

在图3中,作者可视化了文章中方法和仅使用支持图像的小样本语义分割方法[1]的一些预测结果。可以看出,与第 2 行中仅使用支持信息的结果相比,第3行中的结果展现出作者的方法可以有效地缓解由固有的类内多样性引起的分割错误。

表4 与先前工作在PASCAL-5i[2]数据集上的效果比较

e60ebb06-6635-11ed-8abf-dac502259ad0.png

从表4中可以发现,作者的方法大大超过了所有其他方法,并取得了新的最先进的结果。在使用 ResNet-50 作为主干网络时, 在 1-shot 设置下与之前的最佳结果相比,作者将 mIoU 得分提高了 2.6。此外,在使用 ResNet-101作为主干网络时,作者方法实现了 1.8 mIoU(1-shot)和 2.2 mIoU(5-shot )的提升。

表5 各模块消融实验

e678b39e-6635-11ed-8abf-dac502259ad0.png

表5中指出,当仅使用 IPM 会导致 5.3 mIoU 的性能下降。然而,当添加 DSL 时,模型的性能在baseline上实现了 4.1 mIoU 的提升。作者认为这种现象是合理的,因为无法保证 IPM 中的可学习原型将在没有 DSL 的情况下学习中间类别知识。同时,使用 QA 激活查询特征图可以进一步将模型性能提高 2.5 mIoU。这些结果清楚地验证了作者提出的 QA 和 DSL 的有效性。

表6 中间原型Transformer有效性的消融研究

e6a4a940-6635-11ed-8abf-dac502259ad0.png

在表6中,作者对比了仅使用support或者query提供类别信息时,和是否使用迭代方式提取信息时的模型的性能情况。可以看出,借助中间原型以迭代的方式从support和query中都获取类型信息所取得的效果更为出色,也验证了作者提出方法的有效性。

e6c452a4-6635-11ed-8abf-dac502259ad0.png

图7 支持原型和中间原型分别的可视化比较

如图7所示,作者将原本的支持原型可视化为橘色,学习到的中间原型可视化为蓝色,查询图像原型可视化为粉色。可以看到,在特征空间中,中间原型比支持原型更接近查询原型,因此验证了作者的方法有效地缓解了类内多样性问题并弥补了查询和支持图像之间的类别信息差距。

四、总结及结论

在文章中,作者关注到查询和支持之间的类内多样性,并引入中间原型来弥补它们之间的类别信息差距。核心思想是通过设计的中间原型挖掘Transformer并采取迭代的方式使用中间原型来聚合来自于支持图像的确定性类型信息和查询图像的自适应的类别信息。令人惊讶的是,尽管它很简单,但作者的方法在两个小样本语义分割基准数据集上大大优于以前的最新结果。为此,作者希望这项工作能够激发未来的研究能够更多地关注小样本语义分割的类内多样性问题。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模块
    +关注

    关注

    7

    文章

    2655

    浏览量

    47287
  • 图像
    +关注

    关注

    2

    文章

    1078

    浏览量

    40373
  • 计算机视觉
    +关注

    关注

    8

    文章

    1694

    浏览量

    45894

原文标题:​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘Transformer

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    手册上新 |迅为RK3568开发板NPU例程测试

    测试 6.1 deeplabv3语义分割 6.2 lite_transformer 6.3 LPRNet车牌识别 6.4 mobilenet图像分类 6.5 PPOCR-Rec文字识别 6.6
    发表于 10-23 14:06

    语义分割25种损失函数综述和展望

    本综述提供了对25种用于图像分割的损失函数的全面且统一的回顾。我们提供了一种新颖的分类法,并详细审查了这些损失函数如何在图像分割中被定制和利用,强调了它们的重要特征和应用,并进行了系统的分类。摘要
    的头像 发表于 10-22 08:04 88次阅读
    <b class='flag-5'>语义</b><b class='flag-5'>分割</b>25种损失函数综述和展望

    手册上新 |迅为RK3568开发板NPU例程测试

    测试 6.1 deeplabv3语义分割 6.2 lite_transformer 6.3 LPRNet车牌识别 6.4 mobilenet图像分类 6.5 PPOCR-Rec文字识别 6.6
    发表于 08-12 11:03

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义
    的头像 发表于 07-17 09:56 335次阅读

    图像分割语义分割的区别与联系

    图像分割语义分割是计算机视觉领域中两个重要的概念,它们在图像处理和分析中发挥着关键作用。 1. 图像分割简介 图像分割是将图像划分为多个区
    的头像 发表于 07-17 09:55 612次阅读

    迅为RK3568手册上新 | RK3568开发板NPU例程测试

    deeplabv3语义分割 6.2 lite_transformer 6.3 LPRNet车牌识别 6.4 mobilenet图像分类 6.5 PPOCR-Rec文字识别 6.6 PPOCR-Det
    发表于 07-12 14:44

    Transformer语言模型简介与实现过程

    在自然语言处理(NLP)领域,Transformer模型以其卓越的性能和广泛的应用前景,成为了近年来最引人注目的技术之一。Transformer模型由谷歌在2017年提出,并首次应用于神经机器翻译
    的头像 发表于 07-10 11:48 1093次阅读

    图像分割语义分割中的CNN模型综述

    图像分割语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型,在图像
    的头像 发表于 07-09 11:51 583次阅读

    中间继电器主要用于信号传递和放大的原因

    中间继电器(Middle Relay)是一种电气设备,主要用于在电气控制系统中传递和放大信号。它具有结构简单、性能稳定、可靠性高、使用方便等特点,广泛应用于各种工业自动化、电力系统、通信系统等领域
    的头像 发表于 06-24 11:37 746次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    就无法修改,因此难以灵活应用于下游文本的挖掘中。 词嵌入表示:将每个词映射为一个低维稠密的实值向量。不同的是,基于预训练的词嵌入表示先在语料库中利用某种语言模型进行预训练,然后将其应用到下游任务中,词
    发表于 05-05 12:17

    助力移动机器人下游任务!Mobile-Seed用于联合语义分割和边界检测

    精确、快速地划定清晰的边界和鲁棒的语义对于许多下游机器人任务至关重要,例如机器人抓取和操作、实时语义建图以及在边缘计算单元上执行的在线传感器校准。
    的头像 发表于 02-20 10:30 799次阅读
    助力移动机器人下游任务!Mobile-Seed<b class='flag-5'>用于</b>联合<b class='flag-5'>语义</b><b class='flag-5'>分割</b>和边界检测

    三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与
    的头像 发表于 12-12 11:23 731次阅读
    三项SOTA!MasQCLIP:开放词汇通用图像<b class='flag-5'>分割</b>新网络

    异构信号驱动下小样本跨域轴承故障诊断的GMAML算法

    论文提出了一种通用的模型不可知元学习(GMAML)方法,用于在异质信号驱动的不同工况下,进行轴承的少样本故障诊断。
    的头像 发表于 12-06 15:07 985次阅读
    异构信号驱动下<b class='flag-5'>小样本</b>跨域轴承故障诊断的GMAML算法

    一种在线激光雷达语义分割框架MemorySeg

    本文提出了一种在线激光雷达语义分割框架MemorySeg,它利用三维潜在记忆来改进当前帧的预测。传统的方法通常只使用单次扫描的环境信息来完成语义分割任务,而忽略了观测的时间连续性所蕴含
    的头像 发表于 11-21 10:48 524次阅读
    一种在线激光雷达<b class='flag-5'>语义</b><b class='flag-5'>分割</b>框架MemorySeg

    关于深度学习模型Transformer模型的具体实现方案

    Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
    发表于 11-17 10:34 486次阅读
    关于深度学习模型<b class='flag-5'>Transformer</b>模型的具体实现方案