0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 2025-01-15 09:30 次阅读

背景简介

随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影可分为语义和非语义特征。因此目前几乎所有的图像篡改检测模型(IML)都遵循“语义分割主干网络”与“精心制作的手工制作非语义特征提取”相结合的设计,这种方法严重限制了模型在未知场景的伪影提取能力。

b60b7928-d0b2-11ef-9310-92fbcf53809c.png

论文标题: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer

作者单位:

四川大学(吕建成团队),澳门大学

论文链接:

https://arxiv.org/abs/2412.14598

代码链接:

https://github.com/scu-zjz/SparseViT

研究内容

利用非语义信息往往在局部和全局之间保持一致性,同时相较于语义信息在图像不同区域表现出更大的独立性,SparseViT 提出了以稀疏自注意力为核心的架构,取代传统 Vision Transformer(ViT)的全局自注意力机制,通过稀疏计算模式,使得模型自适应提取图像篡改检测中的非语义特征。

研究团队在统一的评估协议下复现并对比多个现有的最先进方法,系统验证了 SparseViT 的优越性。同时,框架采用模块化设计,用户可以灵活定制或扩展模型的核心模块,并通过可学习的多尺度监督机制增强模型对多种场景的泛化能力。

此外,SparseViT 极大地降低了计算量(最高减少 80% 的 FLOPs),实现了参数效率与性能的兼顾,展现了其在多基准数据集上的卓越表现。SparseViT 有望为图像篡改检测领域的理论与应用研究提供新视角,为后续研究奠定基础。

SparseViT 总体架构的设计概览图如下所示:

b633e8ae-d0b2-11ef-9310-92fbcf53809c.png

▲ 图1:SparseViT 总体架构

主要的组件包含:

1. 负责高效特征捕获的 Sparse Self-Attention

Sparse Self-Attention 是 SparseViT 框架的核心组件,专注于在减少计算复杂度的同时高效捕获篡改图像中的关键特征即非语义特征。传统的自注意力机制由于 patch 进行 token-to-token 的注意力计算,导致模型对语义信息过度拟合,使得非语义信息在受到篡改后表现出的局部不一致性被忽视。 为此,Sparse Self-Attention 提出了基于稀疏编码的自注意力机制,如图 2 所示,通过对输入特征图施加稀疏性约束,设输入的特征图 ,我们不是对 的整个特征上应用注意力,而是将特征分成形状为的张量块,表示将特征图分解为 个大小为的不重叠的张量块,分别在这些张量块上进行自注意力计算。

b6460c3c-d0b2-11ef-9310-92fbcf53809c.png

▲ 图2:稀疏自注意力

这一机制通过对特征图进行区域划分,使模型在训练中专注于非语义特征的提取,提升了对图像篡改伪影的捕捉能力。相比传统自注意力,Sparse Self-Attention 减少了约 80% 的 FLOPs,同时保留了高效的特征捕获能力,特别是在复杂场景中表现卓越。模块化的实现方式还允许用户根据需求对稀疏策略进行调整,从而满足不同任务的需求。

2. 负责多尺度特征融合的 Learnable Feature Fusion(LFF)

Learnable Feature Fusion(LFF)是 SparseViT 中的重要模块,旨在通过多尺度特征融合机制提高模型的泛化能力和对复杂场景的适应性。不同于传统的固定规则特征融合方法,LFF 模块通过引入可学习参数,动态调整不同尺度特征的重要性,从而增强了模型对图像篡改伪影的敏感度。

LFF 通过从稀疏自注意力模块输出的多尺度特征中学习特定的融合权重,优先强化与篡改相关的低频特征,同时保留语义信息较强的高频特征。模块设计充分考虑了 IML 任务的多样化需求,既能针对微弱的非语义伪影进行细粒度处理,又能适应大尺度的全局特征提取。

LFF 的引入显著提升了 SparseViT 在跨场景、多样化数据集上的性能,同时减少了无关特征对模型的干扰,为进一步优化 IML 模型性能提供了灵活的解决方案。

研究总结

简而言之,SparseViT 具有以下四个贡献:

1. 我们揭示了篡改图像的语义特征需要连续的局部交互来构建全局语义,而非语义特征由于其局部独立性,可以通过稀疏编码实现全局交互。

2. 基于语义和非语义特征的不同行为,我们提出使用稀疏自注意机制自适应地从图像中提取非语义特征。

3. 为了解决传统多尺度融合方法的不可学习性,我们引入了一种可学习的多尺度监督机制。

4. 我们提出的 SparseViT 在不依赖手工特征提取器的情况下保持了参数效率,并在四个公共数据集上实现了最先进的(SoTA)性能和出色的模型泛化能力。

SparseViT 通过利用语义特征和非语义特征之间的差异性,使模型能够自适应地提取在图像篡改定位中更为关键的非语义特征,为篡改区域的精准定位提供了全新的研究思路。

相关代码和操作文档、使用教程已完全开源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。该代码有着完善的更新计划,仓库将被长期维护,欢迎全球研究者使用和提出改进意见。

SparseViT 的主要科研成员来自四川大学吕建成团队,合作方为澳门大学潘治文教授团队。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1089

    浏览量

    40531
  • IML
    IML
    +关注

    关注

    0

    文章

    14

    浏览量

    11411
  • Transformer
    +关注

    关注

    0

    文章

    145

    浏览量

    6030

原文标题:AAAI 2025 | SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    王欣然教授团队提出基于二维材料的高效稀疏神经网络硬件方案

    。   稀疏性 (Sparsity) 是人脑中的神经突触的本征属性。在大脑发育过程中,超过一半的突触会细粒度和结构的方式被剪枝 (Pruning),这是人脑具有高能效的关键因素。
    的头像 发表于 01-13 10:41 102次阅读
    王欣然教授团队提出基于二维材料的<b class='flag-5'>高效</b><b class='flag-5'>稀疏</b>神经网络硬件方案

    地平线ViG基于视觉Mamba的通用视觉主干网络

    Vision Mamba的成功预示着将视觉表征学习转换为线性复杂度视觉序列表征学习具有巨大的潜力。尽管Vision Mamba代表的线性视觉
    的头像 发表于 01-08 09:33 101次阅读
    地平线ViG基于<b class='flag-5'>视觉</b>Mamba的通用<b class='flag-5'>视觉</b>主干网络

    港大提出SparX:强化Vision Mamba和Transformer稀疏跳跃连接机制

    本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——SparX,一种强化 Vision Mamba 和 Transformer稀疏跳跃连接机制,性能强大
    的头像 发表于 01-03 09:28 123次阅读
    港大提出SparX:强化Vision Mamba和<b class='flag-5'>Transformer</b>的<b class='flag-5'>稀疏</b>跳跃连接机制

    利用VLM和MLLMs实现SLAM语义增强

    语义同步定位与建图(SLAM)系统在对邻近的语义相似物体进行建图时面临困境,特别是在复杂的室内环境中。本文提出了一种面向对象SLAM的语义增强(SEO-SLAM)的新型SLAM系统,借助视觉
    的头像 发表于 12-05 10:00 247次阅读
    利用VLM和MLLMs实现SLAM<b class='flag-5'>语义</b>增强

    使用ReMEmbR实现机器人推理与行动能力

    视觉语言模型(VLM)通过将文本和图像投射到同一个嵌入空间,将基础大语言模型(LLM)强大的语言理解能力与视觉 transformer(ViT)的视觉能力相结合。VLM 可以处理
    的头像 发表于 11-19 15:37 311次阅读
    使用ReMEmbR实现机器人推理与行动能力

    使用语义线索增强局部特征匹配

    视觉匹配是关键计算机视觉任务中的关键步骤,包括摄像机定位、图像配准和运动结构。目前最有效的匹配关键点的技术包括使用经过学习的稀疏或密集匹配器,这需要成对的图像。这些神经网络对两幅图像的特征有很好的总体理解,但它们经常难以匹配不同
    的头像 发表于 10-28 09:57 309次阅读
    使用<b class='flag-5'>语义</b>线索增强局部特征匹配

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义分割的基
    的头像 发表于 07-17 09:56 497次阅读

    图像分割与语义分割中的CNN模型综述

    图像分割与语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型,在图像分割与语义分割中发挥着至关重要的
    的头像 发表于 07-09 11:51 1098次阅读

    机器视觉检测技术在工业自动中的应用

    随着科技的飞速发展,工业自动已成为现代工业生产的核心动力。在这个背景下,机器视觉检测技术作为工业自动中的关键技术之一,以其高精度、高效率、高可靠性的优势,在工业自动
    的头像 发表于 06-07 12:06 911次阅读

    DDS重要特性之--数据中心#DDS

    数据中心DDS
    北汇信息POLELINK
    发布于 :2024年05月20日 18:18:28

    一图看懂星河AI园区网络,体验中心,企业数智升级首选

    一图看懂星河AI园区网络,体验中心,企业数智升级首选
    的头像 发表于 05-19 11:10 522次阅读
    一图看懂星河AI园区网络,<b class='flag-5'>以</b>体验<b class='flag-5'>为</b><b class='flag-5'>中心</b>,企业数智升级首选

    【大语言模型:原理与工程实践】大语言模型的基础技术

    不同语境下的不同语义。而动态词向量语言模型中对词的表示随着上下文语境的不同而动态变化,依赖当前所在的句子或段落等的语境。ELMo例,将词序列输入经过预训练的ELMo模型,该模型可以输出序列中每个词
    发表于 05-05 12:17

    视觉Transformer基本原理及目标检测应用

    视觉Transformer的一般结构如图2所示,包括编码器和解码器两部分,其中编码器每一层包括一个多头自注意力模块(self-attention)和一个位置前馈神经网络(FFN)。
    发表于 04-03 10:32 3807次阅读
    <b class='flag-5'>视觉</b><b class='flag-5'>Transformer</b>基本原理及目标检测应用

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 691次阅读
    基于<b class='flag-5'>Transformer</b>模型的压缩方法

    机器视觉软件有哪些 机器视觉软件的优点

    机器视觉软件是一种利用计算机视觉技术来模拟和弥补人眼视觉功能的软件系统。它可以通过对图像和视频进行分析,识别和理解目标物体,实现自动和智
    的头像 发表于 02-02 10:53 1671次阅读