0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Vision Mamba:速度与内存的双重突破

CVer 来源:机器之心 2024-01-31 14:14 次阅读

Vision Mamba 不是个普通模型。

号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。 来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba(Vim)。

效果如何呢?在 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务上,与 DeiT 等成熟的视觉 Transformers 相比,Vim 实现了更高的性能,同时还显著提高了计算和内存效率。例如,在对分辨率为 1248×1248 的图像进行批量推理提取特征时,Vim 比 DeiT 快 2.8 倍,并节省 86.8% 的 GPU 内存。结果表明,Vim 能够克服对高分辨率图像执行 Transformer 式理解时的计算和内存限制,并且具有成为视觉基础模型的下一代骨干的巨大潜力。

接下来我们看看论文内容。 Mamba 的提出带动了研究者对状态空间模型(state space model,SSM)兴趣的增加,不同于 Transformer 中自注意力机制的计算量会随着上下文长度的增加呈平方级增长,由于 SSM 擅长捕捉远程依赖关系,因而开始受到大家追捧。 在此期间,一些基于 SSM 的方法如线性状态空间层(LSSL)、结构化状态空间序列模型(S4)、对角状态空间(DSS)和 S4D 都被研究者提出来,用于处理各种序列数据,特别是在建模远程依赖关系方面。 Mamba 将时变参数纳入 SSM 中,并提出了一种硬件感知算法来实现高效的训练和推理。Mamba 卓越的扩展性能表明它在语言建模方面是 Transformer 有前途的替代品。 然而,到目前为止,研究者还尚未在视觉任务中探索出通用的基于纯 SSM 的骨干网络。 受 Mamba 在语言建模方面成功的激励,研究者开始设想能否将这种成功从语言转移到视觉,即用先进的 SSM 方法设计通用且高效的视觉主干。

然而,由于 Mamba 特有的架构,需要解决两个挑战,即单向建模和缺乏位置感知。 为了应对这些问题,研究者提出了 Vision Mamba (Vim) 块,它结合了用于数据依赖的全局视觉上下文建模的双向 SSM 和用于位置感知视觉识别的位置嵌入。 与其他基于 SSM 的视觉任务模型相比,Vim 是一种基于纯 SSM 的方法,并以序列方式对图像进行建模。与基于 Transformer 的 DeiT 相比,Vim 在 ImageNet 分类上取得了优越的性能。此外,Vim 在 GPU 内存和高分辨率图像的推理时间方面更加高效。 方法介绍 Vision Mamba (Vim) 的目标是将先进的状态空间模型 (SSM),即 Mamba 引入到计算机视觉。 Vim 的概述如图 2 所示,标准的 Mamba 是为 1-D 序列设计的。为了处理视觉任务,首先需要将二维图像61da3466-b7ae-11ee-8b88-92fbcf53809c.png转换成展开的 2-D patch 

61de0992-b7ae-11ee-8b88-92fbcf53809c.png

。式中 (H, W) 为输入图像的大小,C 为通道数,P 为图像 patch 的大小。接下来,需要将 x_p 线性投影到大小为 D 的向量上,并添加位置嵌入

61e1e8be-b7ae-11ee-8b88-92fbcf53809c.png

得到如下公式:

61e54b4e-b7ae-11ee-8b88-92fbcf53809c.png

Vim 块 原始的 Mamba 块是为一维序列设计的,不适合需要空间感知理解的视觉任务。Vim 块集成了用于视觉任务的双向序列建模,Vim 块如上图 2 所示。 Vim 块的操作算法如下所示。

61ef4ab8-b7ae-11ee-8b88-92fbcf53809c.png

架构细节 架构的超参数如下:

L:块数

D:隐藏状态维度

E:扩展状态维度

N:SSM 维度

遵循 ViT 和 DeiT,该研究首先采用 16×16 内核大小的投影层来获得非重叠 patch 嵌入的一维序列。随后直接堆叠 L 个 Vim 块。默认情况下块数 L 设置为 24,SSM 维度 N 设置为 16。为了与 DeiT 系列模型大小保持一致,该研究将小( tiny)尺寸变体的隐藏状态维度 D 设置为 192,将扩展状态维度 E 设置为 384。对于小(small)尺寸变体,该研究将 D 设置为 384,将 E 设置为 768。

实验

该研究在 ImageNet-1K 数据集上对 Vim 进行了基准测试。

图像分类

表 1 将 Vim 与基于 ConvNet、基于 Transformer 和基于 SSM 的骨干网络进行了比较。与基于 ConvNet 的 ResNet 相比,Vim 表现出更优越的性能。例如,当参数大致相似时,Vim-Small 的 top-1 准确率达到 80.3,比 ResNet50 高 4.1 个百分点。与传统的基于自注意力的 ViT 相比,Vim 在参数数量和分类准确率方面都有相当大的优势。与高度优化的 ViT 变体(即 DeiT )相比,VimTiny 比 DeiT-Tiny 高 0.9 个点,Vim-Small 比 DeiT 高 0.5 个点。与基于 SSM 的 S4ND-ViTB 相比,Vim 以减少 3 倍的参数实现了类似的 top-1 准确率。

61f38af6-b7ae-11ee-8b88-92fbcf53809c.png

图 1 (b) 和 (c) 比较了小型 Vim 和 DeiT 的 FPS 和 GPU 内存。随着图像分辨率的提高,Vim 在速度和内存方面表现出更好的效率。具体来说,当图像大小为 512 时,Vim 实现了与 DeiT 相似的 FPS 和内存。当图像大小增长到 1248 时,Vim 比 DeiT 快 2.8 倍,并节省 86.8% 的 GPU 内存。Vim 在序列长度上的线性扩展的显著优势使其为高分辨率下游视觉应用和长序列多模态应用做好了准备。

61f87af2-b7ae-11ee-8b88-92fbcf53809c.png

语义分割 如表 2 所示,Vim 在不同尺度上始终优于 DeiT:Vim-Ti 比 DeiT-Ti 高 1.0 mIoU,Vim-S 比 DeiT-S 高 0.9 mIoU。与 ResNet-101 主干网络相比,Vim-S 以减少近 2 倍的参数实现了相同的分割性能。

61fd408c-b7ae-11ee-8b88-92fbcf53809c.png

为了进一步评估研究方法在下游任务上(即分割、检测和实例分割)的效率,本文将骨干网与常用的特征金字塔网络(FPN)模块结合起来,并对其 FPS 和 GPU 内存进行基准测试。 如图 3 和图 4 所示,尽管该研究在主干网上附加了一个 heavy FPN,但效率曲线与纯主干网(图 1)的比较结果相似。

62017bde-b7ae-11ee-8b88-92fbcf53809c.png

62054138-b7ae-11ee-8b88-92fbcf53809c.png

目标检测和实例分割 表 3 使用 Cascade Mask R-CNN 框架对 Vim-Ti 和 DeiT-Ti 进行了比较。Vim-Ti 超过 DeiT-Ti 1.3 box AP 和 1.1 mask AP。

6209d932-b7ae-11ee-8b88-92fbcf53809c.png

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4729

    浏览量

    128890
  • 感知算法
    +关注

    关注

    0

    文章

    19

    浏览量

    7643
  • Transformer
    +关注

    关注

    0

    文章

    143

    浏览量

    5995

原文标题:视觉新主干!Vision Mamba:高效视觉表示学习,速度提升2.8倍,内存能省87%

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    芯片业遭双重打击:经济低迷技术难突破

    晶片制造商正面临经济低迷和技术难有突破双重打击。高通(Qualcomm)等公司的营收连续第二年下滑。虽说在全球经济动荡背景下买家捂紧荷包是原因之一,但晶片行业自身也缺乏优秀产品。
    发表于 05-25 11:22 587次阅读

    内存救星-极大提高系统速度的工具

    内存救星-极大提高系统速度的工具1600%提高系统速度的工具 软件简介:   Windows为每个应用程序平等的分配内存,但这样并不合理。例如:你在玩游戏时,一些
    发表于 07-31 16:46

    继电保护双重保护的要求

    继电保护双重化配置是防止因保护装置拒动而导致系统事故的有效措施,同时又可大大减少由于保护装置异常、检修等原因造成的一次设备停运现象,但继电保护的双重化配置也增加了保护误动的机率。因此,在考虑保护双重
    发表于 11-13 15:18

    为什么寄存器的速度内存

    `在看C专家编程的时候, 上面有一幅图,整理的是内存媒介的速度,与成本的关系说明, 这里我在网上找了一张说明更为细致的图:那为什么寄存器的速度会比内存快?Mike Ash写了一篇很好的
    发表于 12-27 10:19

    vision如何安装

    各位大咖,vision development module如何安装呀?安装在vision目录下?还是在一个硬盘上就行了。vision安装还需要密码呀,哪里获得?谢谢
    发表于 12-25 12:43

    单片DCDC转换器突破速度限制以缩小电路板空间

    DN125- 单片DC / DC转换器突破速度限制以缩小电路板空间
    发表于 05-24 10:52

    vision acquisition采集图像速度很低

    硬件:大华500W面阵相机运用labview自带的vision acquisition采集图像,获取速度很慢,设置是默认,生成VI后点击运行大概2S才采集到图片结束。请帮忙指点什么原因
    发表于 08-13 16:55

    突破氮化镓功率半导体的速度限制

    突破GaN功率半导体的速度限制
    发表于 06-25 07:17

    功能一体机的内存和打印速度

    功能一体机的内存和打印速度                内存即多功能一体机产品中的内部存储器(简称
    发表于 12-29 11:59 375次阅读

    VISION软件在汽车发动机标定中的应用

    VISION 是一个基于PC机的汽车电子控制单元(ECU)的开发、标定和测量系统的软件。VISION软件与ECU芯片之间的界面是通过LAPcan II和USBcan II等物理连接、VISION网络集线器和
    发表于 06-15 15:39 47次下载
    <b class='flag-5'>VISION</b>软件在汽车发动机标定中的应用

    阿里拟香港纽约双重主要上市 双重主要上市是什么?

    阿里拟香港纽约双重主要上市 双重主要上市是什么? 阿里巴巴集团又有大动作,阿里拟香港纽约双重主要上市。 我们先来解读一下什么是双重主要上市?双重
    发表于 07-26 18:06 528次阅读

    HUAWEI Vision Glass多少钱?HUAWEI Vision Glass价格2999元

    HUAWEI Vision Glass多少钱?HUAWEI Vision Glass价格2999元 在华为冬季全场景新品发布会上,华为首款智能观影眼镜HUAWEI Vision Glass正式亮相
    的头像 发表于 12-12 16:42 1995次阅读
    HUAWEI <b class='flag-5'>Vision</b> Glass多少钱?HUAWEI <b class='flag-5'>Vision</b> Glass价格2999元

    Transformer迎来强劲竞争者 新架构Mamba引爆AI圈!

    作为通用序列模型的骨干,Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transformer 模型相媲美
    发表于 12-07 14:14 488次阅读
    Transformer迎来强劲竞争者 新架构<b class='flag-5'>Mamba</b>引爆AI圈!

    什么是双重电源?双重电源和双电源区别

    什么是双重电源?双重电源和双电源区别 双重电源,也被称为双路电源或冗余电源,是指在电力供应系统中,使用两个独立的电源提供电能以确保设备的持续供电。双重电源通常用于对关键设备、系统或场所
    的头像 发表于 12-20 17:21 3309次阅读

    DDR内存与数据传输速度的关系

    在计算机系统中,内存是至关重要的组件之一,它直接影响到数据的处理速度和系统的响应时间。DDR内存作为一种高效的内存技术,其数据传输速度是衡量
    的头像 发表于 11-20 14:35 458次阅读