0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

智能感知与物联网技术研究所 来源:未知 2023-07-10 10:05 次阅读

本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。

cbf42182-1ec4-11ee-962d-dac502259ad0.png

简介本文介绍了一种名为Side Adapter Network (SAN)的新框架,用于基于预训练的视觉语言模型进行开放式语义分割。该方法将语义分割任务建模为区域识别问题,并通过附加一个侧面的可学习网络来实现。该网络可以重用CLIP(Contrastive Language-Image Pre-Training)模型的特征,从而使其非常轻便。整个网络可以进行端到端的训练,使侧面网络适应冻结的CLIP模型,从而使预测的掩码提案具有CLIP感知能力。作者在多个语义分割基准测试上评估了该方法,并表明其速度快、准确度高,只增加了少量可训练参数,在一系列数据集上相较于之前的SOTA模型取得了大幅的性能提升(如下表所示)最后,作者希望该方法能够成为一个baseline,并帮助未来的开放式语义分割研究。cc0bd192-1ec4-11ee-962d-dac502259ad0.png

论文链接:

https://arxiv.org/abs/2211.08073

cc305382-1ec4-11ee-962d-dac502259ad0.png  cc5b99ca-1ec4-11ee-962d-dac502259ad0.png  

Introduction

作者首先讨论了语义分割的概念和现代语义分割方法的限制,以及如何将大规模视觉语言模型应用于开放式语义分割。现代语义分割方法通常依赖于大量标记数据,但数据集通常只包含数十到数百个类别,昂贵的数据收集和注释限制了我们进一步扩展类别的可能性。最近,大规模视觉语言模型(如CLIP)的出现促进了零样本学习的发展,这也鼓励我们探索其在语义分割中的应用。然而,将CLIP模型应用于开放式语义分割十分困难,因为CLIP模型是通过图像级对比学习训练的,其学习到的表示缺乏像素级别的识别能力,而这种能力在语义分割中是必需的。解决这个问题的一个方法是在分割数据集上微调模型,但是分割数据集的数据规模远远小于视觉语言预训练数据集,因此微调模型在开放式识别方面的能力通常会受到影响。

wKgZomTYhN-ARx87AAHEyX5Sx1Q173.png

为了充分发挥视觉-语言预训练模型在开放词汇语义分割中的能力。作者提出了一种名为Side Adapter Network(SAN)的新框架。由于端到端训练,SAN的掩膜预测和分类是基于CLIP辅助的。整个模型十分轻量化。SAN有两个分支:一个用于预测掩膜,另一个用于预测应用于CLIP的注意力偏好,以进行掩膜类别识别。作者表明,这种分离的设计可以提高分割性能。此外,作者还提出了一种单向前设计,以最小化CLIP的成本:将浅层CLIP块的特征融合到SAN中,将其他更深层次的块与注意偏置结合以进行掩膜识别。由于训练是端到端的,SAN可以最大程度地适应冻结的CLIP模型。作者的研究基于官方发布的ViT CLIP模型,采用Visual Transformer实现。准确的语义分割需要高分辨率图像,但发布的ViT CLIP模型设计用于低分辨率图像(如),直接应用于高分辨率图像会导致性能下降。为了缓解输入分辨率的冲突,作者在CLIP模型中使用低分辨率图像,在SAN中使用高分辨率图像。作者表明,这种不对称的输入分辨率非常有效。此外,作者还探讨了仅微调ViT模型的位置嵌入,并取得了改进。作者在各种基准测试中评估了他们的方法。与之前的方法相比,作者的方法在所有基准测试中都取得了最好的性能。作者的方法只有8.4M可训练参数和64.3 GFLOPs。 cc96d86e-1ec4-11ee-962d-dac502259ad0.png  Method

3.1 基础架构

SAN的详细架构如下图所示。输入图像被分成个patch。首先通过一个线性层将图片转化为Visual Tokens。这些Visual Tokens会与个可学习的Query Tokens拼接起来,并送到后续的Transformer Layer中。每个Transformer Layer的Visual Tokens和Query Tokens都添加了position embedding。wKgaomTYhPKAEsx0AAFImjH-3XM036.png示例图片SAN的输出由两部分构成:掩膜提议(Mask Proposals)和注意力偏好(Attention Biases)。在掩膜提议中,Query Tokens和Visual Tokens首先通过两个单独的3层MLP,投影成256维,我们将投影的Query Tokens表示其中是Query Tokens的数量,投影的Visual Tokens表示为,其中和是输入图像的高度和宽度。然后,通过和的内积生成掩膜: 生成注意力偏好的过程类似于掩膜提议。Query Tokens和Visual Tokens也通过3层MLP进行投影,表示,其中是CLIP模型的注意头数。通过对和进行内积,我们得到注意力偏好: 此外,如果需要,注意力偏好还将进一步调整其中和是CLIP中注意力映射的高度和宽度。在实践中,和可以共享,并且注意力偏好将应用于CLIP的多个自注意层,即偏好将在不同的自注意层中使用。这样的双输出设计的动机很直观:作者认为用于在CLIP中识别掩模的感兴趣区域可能与掩模区域本身不同。作者在后文的对比实验中也证实了这个想法。

3.2掩膜预测

原始的CLIP模型只能通过标记进行图像级别的识别。作者工作在不改变CLIP模型参数的情况下,尝试通过指导标记的注意力图在感兴趣区域上实现精确的掩膜识别。为了实现这个目标,作者创建了一组名为标记(仿照Maskclip,如下图)。ccc87f04-1ec4-11ee-962d-dac502259ad0.png这些标记单向地通过Visual Tokens进行更新,但是Visual Tokens和标记都不受的影响。在更新标记时,预测的注意力偏差被添加到注意力矩阵中: 其中表示层编号,表示第个注意力头的Query 和Key,Visual Tokens 的Key。,和分别是Query、Key和Value的编码权重。通过注意力偏好,标记的特征逐渐演变以适应掩膜预测,并且可以通过比较标记和类名CLIP文本编码之间的距离/相似性来轻松获得掩膜的类别预测,表示为,其中是类别数。

3.3分割结果生成

使用上文提到的掩膜和类别预测,我们可以计算语义分割图: 其中。这是标准的语义分割输出,因此与主流的语义分割评估兼容。在训练,我们通过Dice Loss 和binary cross-entropy loss 来监督掩膜生成,通过cross-entropy loss 来监督掩膜识别。总损失为: 其中作者使用的损失权重,,分别为5.0,5.0和2.0。通过端到端的训练,SAN可以最大程度地适应冻结的CLIP模型,并得到很好的结果。 cce0c208-1ec4-11ee-962d-dac502259ad0.png  

讨论

具体来说,作者提出了一种全新的端到端架构,以极小的参数量在多个数据集上取得了SOTA效果。SAN的主要特点如下:

  • SAN中沿用了MaskCLIP得出的结论:在下游数据集上微调会破坏CLIP优秀的特征空间。因此在SAN的设计中,无需微调(fine-tune)CLIP模型,以便最大程度的保持CLIP模型的开放词汇能力。

  • 在冻结CLIP模型的同时,引入了额外的可编码网络,能够根据下游任务数据集学习分割所需要的特征,弥补了CLIP模型对于位置信息的缺失。

  • 将语义分割任务分解为掩膜预测与类别预测两个子任务。CLIP模型的开放识别能力不仅仅依赖于物体区域本身,也依赖于物体的上下文信息(Context Information)。这促使作者提出掩膜预测与类别预测解耦的双输出设计,下表显示该设计可以进一步提升模型的预测精度。
ccf5775c-1ec4-11ee-962d-dac502259ad0.png  
  • 充分复用了CLIP模型的特征,大幅度降低所需的额外参数量的同时获得最佳性能。下表展示了复用CLIP特征带来的性能增益。

cd05cab2-1ec4-11ee-962d-dac502259ad0.png    cd1f5ed2-1ec4-11ee-962d-dac502259ad0.png  结论作者在这项工作中提出了SAN框架,用于开放词汇语义分割。该框架成功地利用了冻结的CLIP模型的特征以及端到端的流程,并最大化地采用冻结的CLIP模型。所提出的框架在五个语义分割基准测试中显著优于以往的最先进方法,而且具有更少的可训练参数和更少的计算成本。 ·


原文标题:CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2900

    文章

    43949

    浏览量

    369729

原文标题:CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    onsemi LV/MV MOSFET 产品介绍 & 行业应用

    01直播介绍直播时间2024/10/281430直播内容1.onsemiLV/MVMOSFET产品优势&市场地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10
    的头像 发表于 10-13 08:06 202次阅读
    onsemi LV/MV MOSFET 产品介绍 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行业应用

    轻量级多级菜单控制框架

    轻量级菜单框架(C语言) 作为嵌入式软件开发,可能经常会使用命令行或者显示屏等设备实现人机交互的功能,功能中通常情况都包含 UI 菜单设计;很多开发人员都会有自己的菜单框架模块,防止重复造轮子,网上
    发表于 10-12 09:36

    国产芯上运行TinyMaxi轻量级的神经网络推理库-米尔基于芯驰D9国产商显板

    本篇测评由优秀测评者“短笛君”提供。本文将介绍基于米尔电子MYD-YD9360商显板(米尔基于芯驰D9360国产开发板)的TinyMaxi轻量级的神经网络推理库方案测试。 算力测试TinyMaix
    发表于 08-09 18:26

    国产芯上运行TinyMaxi轻量级的神经网络推理库-米尔基于芯驰D9国产商显板

    D9360国产开发板)的TinyMaxi轻量级的神经网络推理库方案测试。 算力测试 TinyMaix 是面向单片机的超轻量级的神经网络推理库,即 TinyML 推理库,可以让你在任意单片机上运行轻量级深度
    发表于 08-07 18:06

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义
    的头像 发表于 07-17 09:56 320次阅读

    图像分割语义分割的区别与联系

    图像分割语义分割是计算机视觉领域中两个重要的概念,它们在图像处理和分析中发挥着关键作用。 1. 图像分割简介 图像分割是将图像划分为多个区
    的头像 发表于 07-17 09:55 574次阅读

    FS201资料(pcb &amp;amp; DEMO &amp;amp; 原理图)

    电子发烧友网站提供《FS201资料(pcb &amp; DEMO &amp; 原理图).zip》资料免费下载
    发表于 07-16 11:24 0次下载

    图像分割语义分割中的CNN模型综述

    图像分割语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型,在图像
    的头像 发表于 07-09 11:51 548次阅读

    解读北美运营商,AT&amp;amp;amp;T的认证分类与认证内容分享

    在数字化日益深入的今天,通信技术的稳定与安全对于个人、企业乃至整个国家都至关重要。作为北美通信领域的领军者,AT&amp;T一直致力于为用户提供高效、可靠的通信服务。而在这背后,AT&amp;T
    的头像 发表于 06-05 17:27 466次阅读
    解读北美运营商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的认证分类与认证内容分享

    未来轻量级深度学习技术探索

    除了轻量级架构设计外,作者提到了可以应用于压缩给定架构的各种高效算法。例如,量化方法 旨在减少数据所需的存储空间,通常是通过用8位或16位数字代替32位浮点数,甚至使用二进制值表示数据。
    发表于 04-23 15:54 352次阅读
    未来<b class='flag-5'>轻量级</b>深度学习技术探索

    百度智能云推出全新轻量级大模型

    在近日举办的百度智能云千帆产品发布会上,三款全新的轻量级大模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了业界的广泛关注。相较于传统的千亿级别参数大模型,这些轻量级大模型在参数量上有了显著减少,为客户提供了更加灵活和经济高效的解决方案。
    的头像 发表于 03-22 10:28 589次阅读

    2023年度大事记~~

    博览会、加博会、深圳半导体展、武汉汽车智博会、IOTE展会等行业活动 05-生态发展 合作共赢4月19日,秋受邀出席2023 OpenHarmony开发者大会。秋携手开放原子开
    发表于 01-05 10:59

    三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。
    的头像 发表于 12-12 11:23 711次阅读
    三项SOTA!MasQCLIP:<b class='flag-5'>开放</b><b class='flag-5'>词汇</b>通用图像<b class='flag-5'>分割</b>新网络

    森木磊石CPEEC&amp;amp;amp;CPSSC 2023 展会圆满收官!

    2023中国电力电子与能量转换大会暨中国电源学会第二十六届学术年会及展览会(CPEEC&amp;CPSSC2023)是中国电源学会成立40周年纪念活动的重要环节。会议旨在促进电源、电力电子与能量转换
    的头像 发表于 11-16 08:22 492次阅读
    森木磊石CPEEC&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CPSSC <b class='flag-5'>2023</b> 展会圆满收官!

    NeurlPS&amp;apos;23开源 | 首个!开放词汇3D实例分割

    我们介绍了开放词汇3D实例分割的任务。当前的3D实例分割方法通常只能从训练数据集中标注的预定义的封闭类集中识别对象类别。这给现实世界的应用程序带来了很大的限制,在现实世界的应用程序中,
    的头像 发表于 11-14 15:53 543次阅读
    NeurlPS&<b class='flag-5'>amp</b>;apos;23开源 | 首个!<b class='flag-5'>开放</b><b class='flag-5'>词汇</b>3D实例<b class='flag-5'>分割</b>!