0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 2025-01-03 09:28 次阅读

本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——SparX,一种强化 Vision Mamba 和 Transformer 的稀疏跳跃连接机制,性能强大,代码已开源。

d8817ce6-c5ea-11ef-9310-92fbcf53809c.png

论文标题: SparX: A Sparse Cross-Layer Connection Mechanism for Hierarchical Vision Mamba and Transformer Networks

论文链接:

https://arxiv.org/abs/2409.09649

代码链接:

https://github.com/LMMMEng/SparX

摘要

香港大学计算和数据科学学院俞益洲教授 (https://i.cs.hku.hk/~yzyu/index.html) 及其研究团队开发了一种新型的层间稀疏跳跃连接机制 --- Sparse Cross-Layer Connection Mechanism (SparX),可以有效提升包含 Vision Mamba 和 Transformer 在内的 Vision Backbone 的性能。

不同于常规的 Vision Backbone 通过堆叠相同的基础模块来搭建网络架构,SparX 受到了人类视觉系统中神经节细胞 (Retinal Ganglion Cell) 的启发, 将网络的基础模块分为两种不同的类型:神经节层 (Ganglion Layer) 和常规层(Normal Layer)。

前者具有更高的复杂度和连接度,类似于视觉系统中的神经节细胞,而后者的连接度和复杂度都较低,类似于视觉系统中的常规细胞。通过交叉堆叠 Ganglion Layer 和 Normal Layer 构建了一种新的 Vision Backbone 网络,在图像分类、语义分割和目标检测中展现了强大的性能。

例如,基于 SparX 构建的 Vision Mamba 模型 SparX-Mamba 相较于强大的 VMamba 仍有明显提升:虽然参数量更少,SparX-Mamba-T 在 ImageNet-1K 上的 Top-1 准确率仍超越 VMamba-T 1%。此外,SparX-Mamba 在语义分割和目标检测任务上同样具备突出的性能,展现了 Mamba 模型在学习长距离关联方面的优越性。

动机

随着自注意力(Self-attention)和状态空间模型(State Space Models 或 SSMs)在 NLP 任务中的优异表现,许多工作将这些方法成功应用到了视觉领域,例如 Swin-Transformer 和 VMamba。 目前主流的 Vision Backbone 模型的设计策略为构建新的 token mixer,并据此来构建视觉网络。然而,不同层输出的特征具有一定的互补性和冗余度,因此,寻找这些特征之间的互补性,并且移除冗余的特征可以进一步提升网络的表征能力,进而提升性能。 虽然一些先前的工作(例如 DenseNet)已经利用了不同网络层的交互和复用来提升性能,但是 DenseNet 中的稠密连接具有较高的计算复杂度,使其难以直接用于比卷积更加复杂的和 SSM 算子。因此,设计一种高效的神经连接机制来挖掘和利用网络的层间互补性仍然需要进一步探索。

方法

以基于 Mamba 的模型为例,在 SparX 中 Ganglion Layer 包含用于提取局部信息的动态位置编码(Dynamic Position Encoding (DPE)),用于实现层间信息交互的 Dynamic Multi-layer Channel Aggregator (DMCA),和用于空间上下文信息建模的视觉状态空间模型(Visual State Space Model 或 VSS),而 Normal Layer 则没有 DMCA 模块。

此外,SparX 引入了两条新的跨层连接规则:

1. Sparse Ganglion Layers 将一组具有均匀间隔的层指定为更加复杂且连接度更高的 ganglion layers,而所有其余层则为复杂度和连接度都较低的 normal layers。为了控制ganglion layers的密度,进而控制网络的复杂度和连接度,研究团队引入了一个步长参数 S,即S=两个最近的ganglion layers之间的normal layers的层数加一。

此外,该规则定义了两种不同的连接类型:ganglion layer 和 norma layer 之间的内连以及两个 ganglion layers 之间的互连。为了让网络具备强大的层间特征交互且具有高效性,ganglion layer 只与处于自身和最近的前一个 ganglion layer 之间的那些 normal layers 建立内连,但是同时与多个先前的 ganglion layers 建立互连。

这种设计是因为:ganglion layer 可以被视为网络的“信息中心”,从最近的 normal layer 收集信息并与其他 ganglion layers 交换信息。一个简单的例子为:如果一个网络有 8 层并设置 S=2,则 normal layer 的索引为 {1, 3, 5, 7},而 ganglion layers 的索引为 {2, 4, 6, 8}。

2. 跨层滑动窗口(Cross-layer Sliding Window)旨在进一步提升网络高效性,其设计背后的动机是:尽管上述层间连接方式具有稀疏性,深层网络仍可能因需要存储和访问大量先前的特征图而产生较高的显存消耗。为此,受启发于经典的空间滑动窗口,引入另一个超参数 M 来限制每个 ganglion layer 仅与先前的 M 个最接近的 ganglion layers 建立互连。

基于这两条新规则,即使没有直接连接,语义信息仍然可以通过相对稀疏的内连和互连从较浅的网络层快速传递到较深的网络层。图 1 展示了一个 SparX (S=2, M=2) 的示例。

d8e3a25e-c5ea-11ef-9310-92fbcf53809c.png

▲图1. Mamba-based SparX示例

为了选择性地从先前网络层的特征中挖掘有用的特征,从而动态的建模层间交互,研究团队提出了一个简单有效的 DMCA 模块。如下图所示,DMCA 用当前层特征作为 query,用先前层的特征作为 key/value 来构建 channel-wise cross attention。构建 channel attention 的目的是为了更好地进行通道之间的信息交互,从而获得更好的性能。

d900a14c-c5ea-11ef-9310-92fbcf53809c.png

▲图2. DMCA架构图

实验结果

图像分类:SparX 在大规模数据集 ImageNet-1K 上表现出了卓越的性能,相较于现有方法,展现出更为出色的性能以及更好的 tradeoff。如表 1 所示,SparX-Mamba-S 仅以大约一半的参数量和 FLOPs 就超越了 VMamba-B 的性能。

d931b52a-c5ea-11ef-9310-92fbcf53809c.png

d9555368-c5ea-11ef-9310-92fbcf53809c.png

d96fc144-c5ea-11ef-9310-92fbcf53809c.png

如表 2 所示,对 SparX 在 ADE20K 上也进行了全面的评估,其性能在与一些强大的 Vision Backbones 的比较中脱颖而出,并且有着好的 tradeoff。

d995ee32-c5ea-11ef-9310-92fbcf53809c.png

d9b36516-c5ea-11ef-9310-92fbcf53809c.png

d9d0b42c-c5ea-11ef-9310-92fbcf53809c.png

如表 3 所示,在 COCO 2017 数据集上,SparX 同样展示出了更优的性能。值得注意的是,当使用更加强大的训练条件(3× schedule)时,SparX 展现了更加显著的性能提升。

d9e80fc8-c5ea-11ef-9310-92fbcf53809c.png

▲表3. COCO目标检测和实例分割性能对比

通用性实验

研究团队用经典的 Swin-Transformer 测试了 SparX 的通用性,为了保持公平对比,micro 设计严格保持了和 Swin 原始设计一致,例如完全相同的 patch embedding 和 token mixer。如表 4 所示,SparX 在不同任务上均取得了显著的性能提升。

da0d04c2-c5ea-11ef-9310-92fbcf53809c.png

▲表4. SparX用于Transformer架构时的性能

消融实验

为了验证 SparX 的有效性,研究团队构建了两种不同的稠密连接模型:1)Dense Ganglion Connections (DGC-Mamba-T):移除跨层滑动窗口(Cross-layer Sliding Window)来消除互连稀疏性;2)DenseNet-style Network (DSN-Mamba-T):完全按照 DenseNet 的策略来构建模型。

如表 5 所示,SparX 在保持最优性能的前提下还具备高效性。

da2d3ecc-c5ea-11ef-9310-92fbcf53809c.png

▲表5. SparX和Dense Connection的对比

可视化实验

Centered Kernel Alignment (CKA) 分析:不难发现,在表 5 消融实验中,连接度更高的模型(DGC 和 DSN)并没有带来性能提升。为了寻找背后的原因,我们进行了模型的 CKA 分析。 如图 3 所示,VMamba-T 每一层学习到的特征与相邻层非常相似,说明了模型具有大量的特征冗余。此外,DGC 和 DSN 模型可以学习到更加多样化的特征,降低了特征冗余度。与这些方法相比,SparX 不同层的特征更加多样化,从而具有更加强大的特征表达,这也是其性能更好的原因。

da477922-c5ea-11ef-9310-92fbcf53809c.png

▲图3. CKA可视化

有效感受野(Effective Receptive Field 或 ERF)分析:如图 4 所示,SparX-Mamba 和其它方法相比具有更大的感受野,进一步说明了 SparX 对模型表征能力的增强效果。

da68148e-c5ea-11ef-9310-92fbcf53809c.png

▲图4. Effective Receptive Fields可视化

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3363

    浏览量

    42544
  • 连接
    +关注

    关注

    2

    文章

    96

    浏览量

    20987
  • Vision
    +关注

    关注

    1

    文章

    198

    浏览量

    18202

原文标题:AAAI 2025 | 港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Mamba入局图像复原,达成新SOTA

    图像复原又来新突破了!还记得性能超越SwinIR(基于Transformer)的MambaIR吗?一种基于Mamba的图像复原基准模型,登上ECCV 2024。最近原作者又开发了新版本
    的头像 发表于 12-30 18:09 109次阅读
    <b class='flag-5'>Mamba</b>入局图像复原,达成新SOTA

    Transformer模型的具体应用

    如果想在 AI 领域引领一轮新浪潮,就需要使用到 Transformer
    的头像 发表于 11-20 09:28 464次阅读
    <b class='flag-5'>Transformer</b>模型的具体应用

    Transformer模型能够做什么

    尽管名为 Transformer,但它们不是电视银幕上的变形金刚,也不是电线杆上垃圾桶大小的变压器。
    的头像 发表于 11-20 09:27 326次阅读
    <b class='flag-5'>Transformer</b>模型能够做什么

    了解TPS61175的脉冲跳跃功能

    电子发烧友网站提供《了解TPS61175的脉冲跳跃功能.pdf》资料免费下载
    发表于 10-10 10:31 0次下载
    了解TPS61175的脉冲<b class='flag-5'>跳跃</b>功能

    HTC新头显Vive Focus Vision:强化混合现实体验

    HTC最新推出的VIVE Focus Vision头显,作为VIVE Focus 3的升级力作,不仅预示着其在混合现实(MR)领域的深入探索,还通过一系列技术革新为用户带来了前所未有的沉浸式体验。
    的头像 发表于 09-19 15:52 897次阅读

    迪技术IPO上市丨提升综合管理水平,强化公司持续经营能力

    武汉迪技术股份有限公司(简称:迪技术)是一家专注于工业自动化领域产品研发、生产与销售的高新技术企业及国家级专精特新“小巨人”企业,产品主要包括自动化驱动产品、智能操控系统,以及管理系统软件。
    的头像 发表于 09-18 17:38 307次阅读

    Transformer能代替图神经网络吗

    Transformer作为一种在处理序列数据方面表现出色的深度学习模型,自其提出以来,已经在自然语言处理(NLP)、时间序列分析等领域取得了显著的成果。然而,关于Transformer是否能完全代替图神经网络(GNN)的问题,需
    的头像 发表于 07-12 14:07 470次阅读

    Transformer语言模型简介与实现过程

    在自然语言处理(NLP)领域,Transformer模型以其卓越的性能和广泛的应用前景,成为了近年来最引人注目的技术之一。Transformer模型由谷歌在2017年提出,并首次应用于神经机器翻译
    的头像 发表于 07-10 11:48 1794次阅读

    Transformer架构在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著的进步。其中,Transformer架构的提出,为NLP领域带来了革命性的变革。本文将深入探讨Transformer架构的核心思想、组成部分以及在自然语言处理领域的
    的头像 发表于 07-09 11:42 823次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,在自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型,包括模型的结构、训练过程、关键组件以及实现细节。
    的头像 发表于 07-02 11:41 1666次阅读

    Transformer 能代替图神经网络吗?

    Transformer模型发布时,它彻底革新了机器翻译领域。虽然最初是为特定任务设计的,但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准,甚至用于它最
    的头像 发表于 07-02 08:27 362次阅读
    <b class='flag-5'>Transformer</b> 能代替图神经网络吗?

    Vision Board 创客营】Vision Board上的DAC实践

    1、概述 感谢官方举办【Vision Board 创客营】活动,使得我有机会试用Vision Board开发板,体验嵌入式AI的快乐。在此,再次感谢官方以及导师们的热情帮助。在本次活动中,本人
    的头像 发表于 04-24 21:55 614次阅读
    【<b class='flag-5'>Vision</b> Board 创客营】<b class='flag-5'>Vision</b> Board上的DAC实践

    Vision_Board_schematic

    Vision_Board_schematic
    发表于 03-20 09:59 9次下载

    一文详解Transformer神经网络模型

    Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中,通过试错来学习最优的行为策略。
    发表于 02-20 09:55 1.4w次阅读
    一文详解<b class='flag-5'>Transformer</b>神经网络模型

    Vision Mamba:速度与内存的双重突破

    为了进一步评估研究方法在下游任务上(即分割、检测和实例分割)的效率,本文将骨干网与常用的特征金字塔网络(FPN)模块结合起来,并对其 FPS 和 GPU 内存进行基准测试。
    的头像 发表于 01-31 14:14 2229次阅读
    <b class='flag-5'>Vision</b> <b class='flag-5'>Mamba</b>:速度与内存的双重突破