0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

地平线ViG基于视觉Mamba的通用视觉主干网络

地平线HorizonRobotics 来源:地平线HorizonRobotics 2025-01-08 09:33 次阅读

ViG基于视觉Mamba的通用视觉主干网络

Vision Mamba的成功预示着将视觉表征学习转换为线性复杂度视觉序列表征学习具有巨大的潜力。尽管以Vision Mamba为代表的线性视觉序列表征学习结构在高清图像上展示了显著的效率优势,但在更为常见的分辨率,仍略逊于Transformer和CNN。

为了进一步推进线性复杂度视觉序列表征学习的效率,我们结合当今时代计算设备的硬件特性去设计结构,将自然语言序列建模中硬件计算更为友好的门控线性注意力模块GLA引入到视觉表征学习中,进一步设计参数高效的双向建模、长短上下文的动态门控机制和硬件感知的双向算子设计。通过以上设计,我们提出的ViG模型在各种任务上,精度、参数量、效率均优于主流的Transformer和CNN模型。

论文链接:

https://arxiv.org/abs/2405.18425

本工作已被AAAI 2025收录。

Vision Mamba的成功预示着将视觉表征学习转换为线性复杂度视觉序列表征学习具有巨大的潜力。尽管以Vision Mamba为代表的线性视觉序列表征学习结构在高清图像上展示了显著的效率优势,但在更为常见的分辨率,仍略逊于Transformer和CNN。

为了进一步推进线性复杂度视觉序列表征学习的效率,我们结合当今时代计算设备的硬件特性去设计结构,将自然语言序列建模中对硬件计算更为友好的门控线性注意力模块(Gated Linear Attention, GLA)引入到视觉表征学习中,并且进一步设计参数高效的双向建模,长短上下文的动态门控机制和硬件感知的双向算子设计。通过以上设计,我们提出的ViG模型在各种任务上,精度、参数量、效率均优于主流的Transformer和CNN模型。

背景介绍

Transformer的自注意力(Self-Attention, SA)机制需要对历史所有的输入进行交互,导致计算量随着输入序列长度呈现二次方增长:

bb11340c-ccdf-11ef-9310-92fbcf53809c.png

bb2ab1a2-ccdf-11ef-9310-92fbcf53809c.png

而线性注意力(Linear Attention, LA)机制则将注意力机制中的softmax算子替换为简单的矩阵相乘,从而能够通过矩阵乘法的结合律,先进行KV的计算从而将计算量压缩为线性:

bb46be4c-ccdf-11ef-9310-92fbcf53809c.png

bb5eb38a-ccdf-11ef-9310-92fbcf53809c.pngbb76051c-ccdf-11ef-9310-92fbcf53809c.png   线性门控注意力(Gated Linear Attention, GLA)机制则进一步引入门控机制控制对历史信息的遗忘和更新从而提高了原有线性注意力机制的表征能力:  

bb9b95ca-ccdf-11ef-9310-92fbcf53809c.png

方法概述

双向门控注意力机制

bbb23dde-ccdf-11ef-9310-92fbcf53809c.png

bbcdaf2e-ccdf-11ef-9310-92fbcf53809c.png

GLA原是用于处理一维时序信号如文本,图片作为二维信号,在一维序列表达上具有多向的特点,针对这一特点,我们在原GLA的设计中,通过仅仅引入双向门控设计bbd8d124-ccdf-11ef-9310-92fbcf53809c.png,便能够极大地提升对视觉信号的空间表征能力。   我们提出的BiGLA算子将前向和反向的视觉序列压缩到固定大小的隐状态bbf1f5fa-ccdf-11ef-9310-92fbcf53809c.pngbbf1f5fa-ccdf-11ef-9310-92fbcf53809c.png中去。  

硬件感知的双向算子设计

为了进一步提升效率,我们设计了一个硬件感知的双向实现,将BiGLA的前向扫描和后向扫描合并到一个Triton算子中,无需实例化反向序列,只需要维护一个单向视觉序列,便能够进行多向扫描和融合,从而大幅减小显存占用,并提升硬件运行速度。

bc1e3bec-ccdf-11ef-9310-92fbcf53809c.png

长短上下文的动态门控制机

BiGLA算子中双向隐状态bbf1f5fa-ccdf-11ef-9310-92fbcf53809c.pngbbf1f5fa-ccdf-11ef-9310-92fbcf53809c.png是沿着一维视觉序列进行长上下文全局压缩,为了进一步加强对图片二维空间细节的感知,我们引入了短上下文的卷积门控设计:  

bc5e0f42-ccdf-11ef-9310-92fbcf53809c.png

结构设计

围绕上述的基础ViG模块我们进一步搭建两个结构变种:类似于Vision Transformer的朴素直筒结构ViG和类似于CNN的层次化金字塔结构ViG-H。

bc6f5248-ccdf-11ef-9310-92fbcf53809c.png

实验结果

bc8511c8-ccdf-11ef-9310-92fbcf53809c.png

上图显示我们提出的ViG和ViG-H在参数量和精度的权衡上打败了先进的基于Transformer和CNN的模型。特别值得注意的是,我们基础ViG模块同时具备全局感受野和线性复杂度,这是之前CNN,基于原始注意力机制Transformer和基于窗口化注意力机制Transformer所达不到的。

bc9c0f36-ccdf-11ef-9310-92fbcf53809c.png

上图两个表格也是显示我们在速度上能够和当前先进模型在224x224的图片输入上匹配。通过综合对比我们可以看到,ViG-S 与 DeiT-B精度相当并且速度快了一倍,但只用了其27%的参数和20%的计算量。当分辨率增加到1024时,ViG-T相较于基于Transformer的DeiT-T将计算量缩减5.2倍,GPU显存节省90%,速度快了3.8倍,精度更是高了20.7%。这些结果证实了ViG作为一个高效且可缩放的基础视觉骨干网络的广阔潜力。

下图则是进一步显示了,我们随着分辨率增大而凸显的性能优势,即随着输入图片分辨率的增大,ViG计算量更低,显存占用更少,速度更快,精度更高。

bcc17514-ccdf-11ef-9310-92fbcf53809c.png

路线图也充分展示了设计的有效性。

bccca628-ccdf-11ef-9310-92fbcf53809c.png

我们的双向设计只引入了2%的参数量便得到了11.1精度的提升,同时我们设计的硬件感知实现减少了19%的推理代价和13%的显存占用,使其更加适合低算力场景的部署运行。

总结和展望

本工作提出的 ViG 方法在高效视觉序列建模领域展现了重要的创新性和实际应用价值。通过引入双向门控线性注意力 (BiGLA) 和二维门控局部注入机制,ViG 有效弥补了现有方法在全局感知能力和局部细节捕获上的不足,实现了兼具高效性与准确性的视觉表示学习。这一方法不仅在图像分类、目标检测和语义分割等任务中表现卓越,还显著提升了模型在高分辨率场景下的性能与资源利用效率。

尤其值得注意的是,ViG 的硬件感知优化设计充分结合了计算设备的硬件特性,大幅降低了内存占用和计算成本。通过在多种任务中的验证,ViG 展现了出色的精度、参数效率、显存优化和推理速度,为未来高清视觉信号处理以及基于大型语言模型 (LLM) 的多模态序列表征学习提供了强有力的技术支撑。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络
    +关注

    关注

    14

    文章

    7580

    浏览量

    88941
  • 模型
    +关注

    关注

    1

    文章

    3267

    浏览量

    48922
  • cnn
    cnn
    +关注

    关注

    3

    文章

    353

    浏览量

    22250
  • 地平线
    +关注

    关注

    0

    文章

    346

    浏览量

    14969

原文标题:更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    地平线杨铭:从无形视觉到有形芯片

    本文中,地平线联合创始人、美国西北大学杨铭博士,来和大家分享“在芯片上加速神经网络用于视觉任务的挑战”。
    的头像 发表于 07-20 09:31 4285次阅读

    地平线RDK系列再升级,NodeHub惊喜发布

    7月25日,“地平线2023机器人开发者创享日”在深圳成功举办。活动现场,地平线官宣了一系列重要发布:全新地平线RDK系列机器人开发者套件正式上线,机器人操作系统TogetheROS.Bot™2.0版发布,应用中心NodeHub
    发表于 07-26 09:01 965次阅读
    <b class='flag-5'>地平线</b>RDK系列再升级,NodeHub惊喜发布

    地平线发布中国首款嵌入式人工智能视觉芯片

    地平线终于发布了AI 芯片,两颗面向计算机视觉的处理器,分别用于无人驾驶和智能摄像头
    的头像 发表于 12-21 09:33 4734次阅读

    地平线旭日X3派试用体验】开箱篇硬件介绍

    地平线旭日X3是梦寐以求的开发板,上图,地平线是一家细心的公司,包装都做得这么精致。还带个散热片。接口:一个CSI的相机接口,板载USB有3个,包含1个USB3.0和2个USB2.0,这里是一个板载
    发表于 07-26 19:13

    主干网,主干网系统结构是什么?

    主干网,主干网系统结构是什么? 主干网是通过桥接器与路由器把不同的子网或LAN连接起来形成单个总线或环型拓扑结构,这种网通常采用光纤做主干
    发表于 03-20 14:38 6393次阅读

    地平线发布中国首款嵌入式AI视觉芯片

    地平线发布了中国第一代嵌入式AI视觉芯片,人工智能已上升为国家战略,成为了国际科技竞争的制高点。国务院曾提出到2020年,中国AI技术将大世界一级水平,2025年AI将成为中国产业的主要驱动力。在人工智能发展过程中数据、场景、人才和计算力会是核心。
    发表于 12-16 11:28 1379次阅读

    基于主干网的DNS流量检测设计

    面对ISP主干网,为了检测威胁其管理域内用户安全的僵尸网络、钓鱼网站以及垃圾邮件等恶意活动,实时监测流经主干网边界的DNS交互报文。并从域名的依赖性和使用位置两个方面刻画DNS活动行为模式,而后
    发表于 12-26 19:13 0次下载
    基于<b class='flag-5'>主干网</b>的DNS流量检测设计

    地平线发布了首款嵌入式人工智能视觉芯片,助力人工智能应用的加速落地

    20日下午,地平线发布了中国首款嵌入式人工智能视觉芯片,它的两个系列“征程”和“旭日”将围绕智能驾驶、智慧城市、智能商业三大应用场景落地。
    发表于 07-03 09:14 786次阅读

    地平线携手全志科技助推AI视觉边缘计算商用落地

    2018安博会上,地平线与全志科技宣布达成战略合作,联合推出了面向行业应用开发的集成了AI芯片与算法的嵌入式视觉人工智能一站式解决方案,该解决方案基于双方共同推出的旭日X1600系列智能识别模组。
    的头像 发表于 10-25 15:11 4971次阅读

    比亚迪与地平线正式宣布达成定点合作

    比亚迪与地平线正式宣布达成定点合作,比亚迪将在其部分车型上搭载地平线高性能、大算力自动驾驶芯片征程5,打造更具竞争力的行泊一体方案,实现高等级自动驾驶功能。按照计划,搭载地平线征程5的比亚迪车型最早
    的头像 发表于 05-07 17:16 2859次阅读

    地平线GitLab使用指导

    地平线开发者社区致力于连接地平线和开发者,为大家提供前沿技术内容和丰富的技术活动,打造更好的开发者文化和氛围,共建开源生态
    的头像 发表于 11-04 14:18 788次阅读
    <b class='flag-5'>地平线</b>GitLab使用指导

    旭日,从地平线升起——地平线旭日X3派开箱试用

    地平线旭日X3派,开启你的嵌入式开发之旅
    的头像 发表于 11-08 15:22 1675次阅读
    旭日,从<b class='flag-5'>地平线</b>升起——<b class='flag-5'>地平线</b>旭日X3派开箱试用

    地平线正式开源Sparse4D算法

    地平线将业内领先的纯视觉自动驾驶算法——Sparse4D系列算法开源,推动行业更多开发者共同参与到端到端自动驾驶、稀疏感知等前沿技术方向的探索中。目前,Sparse4D算法已在GitHub平台上线,开发者可关注地平线GitHub
    的头像 发表于 01-23 10:18 799次阅读

    地平线科研论文入选国际计算机视觉顶会ECCV 2024

    近日,地平线两篇论文入选国际计算机视觉顶会ECCV 2024,自动驾驶算法技术再有新突破。
    的头像 发表于 07-27 11:10 940次阅读
    <b class='flag-5'>地平线</b>科研论文入选国际计算机<b class='flag-5'>视觉</b>顶会ECCV 2024

    地平线Journey 3的电源设计

    电子发烧友网站提供《地平线Journey 3的电源设计.pdf》资料免费下载
    发表于 09-04 10:48 0次下载
    <b class='flag-5'>地平线</b>Journey 3的电源设计