IPMT：用于小样本语义分割的中间原型挖掘Transformer-电子发烧友网

本文简要介绍发表在NeurIPS 2022上关于小样本语义分割的论文《Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation》。该论文针对现有研究中忽视查询和支持图像之间因类内多样性而带来的类别信息的差距，而强行将支持图片的类别信息迁移到查询图片中带来的分割效率低下的问题，引入了一个中间原型，用于从支持中挖掘确定性类别信息和从查询中挖掘自适应类别知识，并因此设计了一个中间原型挖掘Transformer。文章在每一层中实现将支持和查询特征中的类型信息到中间原型的传播，然后利用该中间原型来激活查询特征图。借助Transformer迭代的特性，使得中间原型和查询特征都可以逐步改进。相关代码已开源在：

https://github.com/LIUYUANWEI98/IPMT

一、研究背景

目前在计算机视觉取得的巨大进展在很大程度上依赖于大量带标注的数据，然而收集这些数据是一项耗时耗力的工作。为了解决这个问题，通过小样本学习来学习一个模型，并将该模型可以推广到只有少数标注图像的新类别。这种设置也更接近人类的学习习惯，即可以从稀缺标注的示例中学习知识并快速识别新类别。

本文专注于小样本学习在语义分割上的应用，即小样本语义分割。该任务旨在用一些带标注的支持样本来分割查询图像中的目标物体。然而，目前的研究方法都严重依赖从支持集中提取的类别信息。尽管支持样本能提供确定性的类别信息指导，但大家都忽略了查询和支持样本之间可能存在固有的类内多样性。

在图1中，展示了一些支持样本原型和查询图像原型的分布。从图中可以观察到，对于与查询图像相似的支持图像（在右侧标记为“相似支持图像”），它们的原型在特征空间中与查询原型接近，在这种情况下匹配网络可以很好地工作。然而，对于与查询相比在姿势和外观上具有较大差异的支持图像（在左侧标记为“多样化支持图像”），支持和查询原型之间的距离会很远。在这种情况下，如果将支持原型中的类别信息强行迁移到查询中，则不可避免地会引入较大的类别信息偏差。

图1 支持样本原型与查询图像原型分布图

因此，本文在通过引入一个中间原型来缓解这个问题，该原型可以通过作者提出的中间原型挖掘Transformer弥补查询和支持图像之间的类别信息差距。每层Transformer由两个步骤组成，即中间原型挖掘和查询激活。在中间原型挖掘中，通过结合来自支持图像的确定性类别信息和来自查询图像的自适应类别知识来学习中间原型。然后，使用学习到的原型在查询特征激活模块中激活查询特征图。此外，中间原型挖掘Transformer以迭代方式使用，以逐步提高学习原型和激活查询功能的质量。

二、方法原理简述

图2 方法总框图

支持图像和查询图像输入到主干网络分别提取除支持特征和查询特征。查询特征在原型激活（PA）模块中经过简单的利用支持图像原型进行激活后，分割成一个初始预测掩码，并将该掩码和激活后的查询特征作为中间原型挖掘Transformer层的一个输入。同时，将支持特征、支持图片掩码和随机初始化的一个中间原型也做为第一层中间原型挖掘Transformer的输入。在中间原型挖掘Transformer层中，首先进行掩码注意力操作。具体来说，计算中间原型与查询或支持特征之间的相似度矩阵，并利用下式仅保留前景区域的特征相似度矩阵：

处理后的相似度矩阵作为权重，分别捕获查询或支持特征中的类别信息并形成新的原型。

查询特征新原型、支持特征新原型和原中间原型结合在一起形成新的中间原型，完成对中间原型的挖掘。

而后，新的中间原型在查询特征激活模块中对查询特征中的类别目标予以激活。

为了便于学习中间原型中的自适应类别信息，作者使用它在支持和查询图像上生成两个分割掩码，并计算两个分割损失。

并设计双工分割损失（DSL）：

由于一个中间原型挖掘Transformer层可以更新中间原型、查询特征图和查询分割掩码，因此，作者通过迭代执行这个过程，得到越来越好的中间原型和查询特征，最终使分割结果得到有效提升。假设有L 层，那么对于每一层有：

上式中具体过程又可以分解为以下环节：

三、实验结果及可视化

图3 作者提出方法的结果的可视化与比较

在图3中，作者可视化了文章中方法和仅使用支持图像的小样本语义分割方法[1]的一些预测结果。可以看出，与第 2 行中仅使用支持信息的结果相比，第3行中的结果展现出作者的方法可以有效地缓解由固有的类内多样性引起的分割错误。

表4 与先前工作在PASCAL-5i[2]数据集上的效果比较

从表4中可以发现，作者的方法大大超过了所有其他方法，并取得了新的最先进的结果。在使用 ResNet-50 作为主干网络时，在 1-shot 设置下与之前的最佳结果相比，作者将 mIoU 得分提高了 2.6。此外，在使用 ResNet-101作为主干网络时，作者方法实现了 1.8 mIoU（1-shot）和 2.2 mIoU（5-shot ）的提升。

表5 各模块消融实验

表5中指出，当仅使用 IPM 会导致 5.3 mIoU 的性能下降。然而，当添加 DSL 时，模型的性能在baseline上实现了 4.1 mIoU 的提升。作者认为这种现象是合理的，因为无法保证 IPM 中的可学习原型将在没有 DSL 的情况下学习中间类别知识。同时，使用 QA 激活查询特征图可以进一步将模型性能提高 2.5 mIoU。这些结果清楚地验证了作者提出的 QA 和 DSL 的有效性。

表6 中间原型Transformer有效性的消融研究

在表6中，作者对比了仅使用support或者query提供类别信息时，和是否使用迭代方式提取信息时的模型的性能情况。可以看出，借助中间原型以迭代的方式从support和query中都获取类型信息所取得的效果更为出色，也验证了作者提出方法的有效性。

图7 支持原型和中间原型分别的可视化比较

如图7所示，作者将原本的支持原型可视化为橘色，学习到的中间原型可视化为蓝色，查询图像原型可视化为粉色。可以看到，在特征空间中，中间原型比支持原型更接近查询原型，因此验证了作者的方法有效地缓解了类内多样性问题并弥补了查询和支持图像之间的类别信息差距。

四、总结及结论

在文章中，作者关注到查询和支持之间的类内多样性，并引入中间原型来弥补它们之间的类别信息差距。核心思想是通过设计的中间原型挖掘Transformer并采取迭代的方式使用中间原型来聚合来自于支持图像的确定性类型信息和查询图像的自适应的类别信息。令人惊讶的是，尽管它很简单，但作者的方法在两个小样本语义分割基准数据集上大大优于以前的最新结果。为此，作者希望这项工作能够激发未来的研究能够更多地关注小样本语义分割的类内多样性问题。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模块

模块

+关注

关注
7

文章
2719

浏览量
47561
图像

图像

+关注

关注
2

文章
1087

浏览量
40499
计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
46030

原文标题：NeurIPS 2022 | IPMT：用于小样本语义分割的中间原型挖掘Transformer

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

transformer专用ASIC芯片Sohu说明

2022年，我们打赌说transformer会统治世界。我们花了两年时间打造Sohu，这是世界上第一个用于transformer（ChatGPT中的“T”）的专用芯片。将transform

发表于 01-06 09:13 •113次阅读

Transformer模型的具体应用

如果想在 AI 领域引领一轮新浪潮，就需要使用到 Transformer。

发表于 11-20 09:28 •488次阅读

手册上新 |迅为RK3568开发板NPU例程测试

测试 6.1 deeplabv3语义分割 6.2 lite_transformer 6.3 LPRNet车牌识别 6.4 mobilenet图像分类 6.5 PPOCR-Rec文字识别 6.6

发表于 10-23 14:06

语义分割25种损失函数综述和展望

本综述提供了对25种用于图像分割的损失函数的全面且统一的回顾。我们提供了一种新颖的分类法，并详细审查了这些损失函数如何在图像分割中被定制和利用，强调了它们的重要特征和应用，并进行了系统的分类。摘要

发表于 10-22 08:04 •651次阅读

手册上新 |迅为RK3568开发板NPU例程测试

测试 6.1 deeplabv3语义分割 6.2 lite_transformer 6.3 LPRNet车牌识别 6.4 mobilenet图像分类 6.5 PPOCR-Rec文字识别 6.6

发表于 08-12 11:03

图像语义分割的实用性是什么

图像语义分割是一种重要的计算机视觉任务，它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用，如自动驾驶、医学图像分析、机器人导航等。一、图像语义

发表于 07-17 09:56 •455次阅读

图像分割和语义分割的区别与联系

图像分割和语义分割是计算机视觉领域中两个重要的概念，它们在图像处理和分析中发挥着关键作用。 1. 图像分割简介图像分割是将图像划分为多个区

发表于 07-17 09:55 •1054次阅读

迅为RK3568手册上新 | RK3568开发板NPU例程测试

deeplabv3语义分割 6.2 lite_transformer 6.3 LPRNet车牌识别 6.4 mobilenet图像分类 6.5 PPOCR-Rec文字识别 6.6 PPOCR-Det

发表于 07-12 14:44

Transformer语言模型简介与实现过程

在自然语言处理（NLP）领域，Transformer模型以其卓越的性能和广泛的应用前景，成为了近年来最引人注目的技术之一。Transformer模型由谷歌在2017年提出，并首次应用于神经机器翻译

发表于 07-10 11:48 •1852次阅读

图像分割与语义分割中的CNN模型综述

图像分割与语义分割是计算机视觉领域的重要任务，旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络（CNN）作为深度学习的一种核心模型，在图像

发表于 07-09 11:51 •1004次阅读

中间继电器主要用于信号传递和放大的原因

中间继电器（Middle Relay）是一种电气设备，主要用于在电气控制系统中传递和放大信号。它具有结构简单、性能稳定、可靠性高、使用方便等特点，广泛应用于各种工业自动化、电力系统、通信系统等领域

发表于 06-24 11:37 •971次阅读

中间继电器的型号怎么表示

中间继电器是一种电气控制元件，用于接收输入信号并将其转换为输出信号，以控制其他电气设备。它广泛应用于工业自动化、电力系统、通信设备等领域。本文将详细介绍中间继电器的型号表示方法，包括

发表于 06-24 11:33 •2065次阅读

【大语言模型：原理与工程实践】大语言模型的基础技术

就无法修改，因此难以灵活应用于下游文本的挖掘中。词嵌入表示：将每个词映射为一个低维稠密的实值向量。不同的是，基于预训练的词嵌入表示先在语料库中利用某种语言模型进行预训练，然后将其应用到下游任务中，词

发表于 05-05 12:17

中间继电器的应用中间继电器在使用中的注意事项

中间继电器(intermediate relay)：它用于在控制电路中传递中间信号。中间继电器的结构和原理与交流接触器基本相同

发表于 02-28 10:26 •1314次阅读

助力移动机器人下游任务！Mobile-Seed用于联合语义分割和边界检测

精确、快速地划定清晰的边界和鲁棒的语义对于许多下游机器人任务至关重要，例如机器人抓取和操作、实时语义建图以及在边缘计算单元上执行的在线传感器校准。

发表于 02-20 10:30 •923次阅读