0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于可变形卷积的大规模视觉基础模型

CVer 来源:机器之心 作者:机器之心 2022-11-21 11:28 次阅读

来自浦江实验室、清华等机构的研究人员提出了一种新的基于卷积的基础模型,称为 InternImage,与基于 Transformer 的网络不同,InternImage 以可变形卷积作为核心算子,使模型不仅具有检测和分割等下游任务所需的动态有效感受野,而且能够进行以输入信息和任务为条件的自适应空间聚合。InternImage-H 在 COCO 物体检测上达到 65.4 mAP,ADE20K 达到 62.9,刷新检测分割新纪录。

近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人工智能实验室、清华、南大、商汤和港中文的研究人员总结了卷积神经网络和视觉 Transformer 之间的差距。从算子层面看,传统的 CNNs 算子缺乏长距离依赖和自适应空间聚合能力;从结构层面看,传统 CNNs 结构缺乏先进组件。

针对上述技术问题,来自浦江实验室、清华等机构的研究人员创新地提出了一个基于卷积神经网络的大规模模型,称为 InternImage,它将稀疏动态卷积作为核心算子,通过输入相关的信息为条件实现自适应空间聚合。InternImage 通过减少传统 CNN 的严格归纳偏置实现了从海量数据中学习到更强大、更稳健的大规模参数模式。其有效性在包括图像分类、目标检测和语义分割等视觉任务上得到了验证。并在 ImageNet、COCO 和 ADE20K 在内的挑战性基准数据集中取得了具有竞争力的效果,在同参数量水平的情况下,超过了视觉 Transformer 结构,为图像大模型提供了新的方向。

2c37a85e-68ed-11ed-8abf-dac502259ad0.png

InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions

论文链接:https://arxiv.org/abs/2211.05778

开源代码:https://github.com/OpenGVLab/InternImage

2c4c0fd8-68ed-11ed-8abf-dac502259ad0.png

2c81da46-68ed-11ed-8abf-dac502259ad0.png

传统卷积神经网络的局限

扩大模型的规模是提高特征表示质量的重要策略,在计算机视觉领域,模型参数量的扩大不仅能够有效加强深度模型的表征学习能力,而且能够实现从海量数据中进行学习和知识获取。ViT 和 Swin Transformer 首次将深度模型扩大到 20 亿和 30 亿参数级别,其单模型在 ImageNet 数据集的分类准确率也都突破了 90%,远超传统 CNN 网络和小规模模型,突破了技术瓶颈。但是,传统的 CNN 模型由于缺乏长距离依赖和空间关系建模能力,无法实现同 Transformer 结构相似的模型规模扩展能力。研究者总结了传统卷积神经网络与视觉 Transformer 的不同之处:

(1)从算子层面来看,视觉 Transformer 的多头注意力机制具有长距离依赖和自适应空间聚合能力,受益于此,视觉 Transformer 可以从海量数据中学到比 CNN 网络更加强大和鲁棒的表征。

(2)从模型架构层面来看,除了多头注意力机制,视觉 Transformer 拥有 CNN 网络不具有的更加先进的模块,例如 Layer Normalization (LN), 前馈神经网络 FFN, GELU 等。

尽管最近的一些工作尝试使用大核卷积来获取长距离依赖,但是在模型尺度和精度方面都与最先进的视觉 Transformer 有着一定距离。

可变形卷积网络的进一步拓展

InternImage 通过重新设计算子和模型结构提升了卷积模型的可扩展性并且缓解了归纳偏置,包括(1)DCNv3 算子,基于 DCNv2 算子引入共享投射权重、多组机制和采样点调制。(2)基础模块,融合先进模块作为模型构建的基本模块单元(3)模块堆叠规则,扩展模型时规范化模型的宽度、深度、组数等超参数。

该工作致力于构建一个能够有效地扩展到大规模参数的 CNN 模型。首先,重新设计的可变形卷积算子 DCNv2 以适应长距离依赖和弱化归纳偏置;然后,将调整后的卷积算子与先进组件相结合,建立了基础单元模块;最后,探索并实现模块的堆叠和缩放规则,以建立一个具有大规模参数的基础模型,并且可以从海量数据中学习到强大的表征。

2cbcc4ee-68ed-11ed-8abf-dac502259ad0.png

算子层面,该研究首先总结了卷积算子与其他主流算子的主要区别。当前主流的 Transformer 系列模型主要依靠多头自注意力机制实现大模型构建,其算子具有长距离依赖性,足以构建远距离特征间的连接关系,还具有空间的自适应聚合能力以实现构建像素级别的关系。但这种全局的注意力机制其计算和存储需求量巨大,很难实现高效训练和快速收敛。同样的,局部注意力机制缺乏远距离特征依赖。大核密集卷积由于没有空间聚合能力,而难以克服卷积天然的归纳偏置,不利于扩大模型。因此,InternImage 通过设计动态稀疏卷积算子,达到实现全局注意力效果的同时不过多浪费计算和存储资源,实现高效训练。

研究者基于 DCNv2 算子,重新设计调整并提出 DCNv3 算子,具体改进包括以下几个部分。

(1)共享投射权重。与常规卷积类似,DCNv2 中的不同采样点具有独立的投射权重,因此其参数大小与采样点总数呈线性关系。为了降低参数和内存复杂度,借鉴可分离卷积的思路,采用与位置无关的权重代替分组权重,在不同采样点之间共享投影权重,所有采样位置依赖性都得以保留。

(2)引入多组机制。多组设计最早是在分组卷积中引入的,并在 Transformer 的多头自注意力中广泛使用,它可以与自适应空间聚合配合,有效地提高特征的多样性。受此启发,研究者将空间聚合过程分成若干组,每个组都有独立的采样偏移量。自此,单个 DCNv3 层的不同组拥有不同的空间聚合模式,从而产生丰富的特征多样性。

(3)采样点调制标量归一化。为了缓解模型容量扩大时的不稳定问题,研究者将归一化模式设定为逐采样点的 Softmax 归一化,这不仅使大规模模型的训练过程更加稳定,而且还构建了所有采样点的连接关系。

2d10f4d8-68ed-11ed-8abf-dac502259ad0.png

构建 DCNv3 算子之后,接下来首先需要规范化模型的基础模块和其他层的整体细节,然后通过探索这些基础模块的堆叠策略,构建 InternImage。最后,根据所提出模型的扩展规则,构建不同参数量的模型。

基础模块。与传统 CNN 中广泛使用的瓶颈结构不同,该研究采用了更接近 ViTs 的基础模块,配备了更先进的组件,包括 GELU、层归一化(LN)和前馈网络(FFN),这些都被证明在各种视觉任务中更有效率。基础模块的细节如上图所示,其中核心算子是 DCNv3,通过将输入特征通过一个轻量级的可分离卷积来预测采样偏置和调制尺度。对于其他组件,遵循与普通 Transformer 相同的设计。

叠加规则。为了明确区块堆叠过程,该研究提出两条模块堆叠规则,其中第一条规则是后三个阶段的通道数2d59db1c-68ed-11ed-8abf-dac502259ad0.png,由第一阶段的通道数2d6c067a-68ed-11ed-8abf-dac502259ad0.png决定,即2d785876-68ed-11ed-8abf-dac502259ad0.png;第二条规则是各模块组号与各阶段的通道数对应,即2d856d0e-68ed-11ed-8abf-dac502259ad0.png;第三,堆叠模式固定为 “AABA”,即第 1、2 和 4 阶段的模块堆叠数是相同的2d941656-68ed-11ed-8abf-dac502259ad0.png,并且不大于第 3 阶段2da0103c-68ed-11ed-8abf-dac502259ad0.png。由此选择将参数量为 30M 级别的模型作为基础,其具体参数为:Steam 输出通道数2dae0ec6-68ed-11ed-8abf-dac502259ad0.png为 64;分组数为每个阶段输入通道数的 1/16,第 1、2、4 阶段的模块堆叠数2dbbec94-68ed-11ed-8abf-dac502259ad0.png为 4,第 3 阶段的模块堆叠数2dc93ab6-68ed-11ed-8abf-dac502259ad0.png为 18,模型参数为 30M。

模型缩放规则。基于上述约束条件下的最优模型,该研究规范化了网络模型的两个缩放维度:即深度 D(模块堆叠数)和宽度 C(通道数),利用限制因子2dd62cbc-68ed-11ed-8abf-dac502259ad0.png2de3ae1e-68ed-11ed-8abf-dac502259ad0.png沿着复合系数2df24a46-68ed-11ed-8abf-dac502259ad0.png对深度和宽度进行缩放,即,2e01bc42-68ed-11ed-8abf-dac502259ad0.png,其中2e12e260-68ed-11ed-8abf-dac502259ad0.png,根据实验其最佳设置为2e20a0f8-68ed-11ed-8abf-dac502259ad0.png

按照此规则,该研究构建了不同尺度的模型,即 InternImage-T、S、B、L、XL。具体参数为:

2e2d0df2-68ed-11ed-8abf-dac502259ad0.png

实验结果

图像分类实验:通过使用 427M 的公共数据集合:Laion-400M,YFCC15M,CC12M,InternImage-H 在 ImageNet-1K 的精度达到了 89.2%。

2e428ef2-68ed-11ed-8abf-dac502259ad0.png

目标检测:以最大规模的 InternImage-H 为骨干网络,并使用 DINO 作为基础检测框架,在 Objects365 数据集上预训练 DINO 检测器,然后在 COCO 上进行微调。该模型在目标检测任务中达到了 65.4% 的最优结果,突破了 COCO 目标检测的性能边界。

2e9077f2-68ed-11ed-8abf-dac502259ad0.png

语义分割:在语义分割上,InternImage-H 同样取得了很好的性能,结合 Mask2Former 在 ADE20K 上取得了当前最高的 62.9%。

2ebae5be-68ed-11ed-8abf-dac502259ad0.png

结论

该研究提出了 InternImage,这是一种新的基于 CNN 的大规模基础模型,可以为图像分类、对象检测和语义分割等多功能视觉任务提供强大的表示。研究者调整灵活的 DCNv2 算子以满足基础模型的需求,并以核心算子为核心开发了一系列的 block、stacking 和 scaling 规则。目标检测和语义分割基准的大量实验验证了 InternImage 可以获得与经过大量数据训练、且精心设计的大规模视觉 Transformer 相当或更好的性能,这表明 CNN 也是大规模视觉基础模型研究的一个相当大的选择。尽管如此,大规模的 CNN 仍处于早期发展阶段,研究人员希望 InternImage 可以作为一个很好的起点。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4733

    浏览量

    100410
  • 计算机视觉
    +关注

    关注

    8

    文章

    1694

    浏览量

    45894

原文标题:65.4 AP!刷新COCO目标检测新记录!InternImage:基于可变形卷积的大规模视觉基础模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用EMBark进行大规模推荐系统训练Embedding加速

    推荐系统是互联网行业的核心系统,如何高效训练推荐系统是各公司关注的核心问题。目前,推荐系统基本上都是基于深度学习的大规模 ID 类模型模型包含数十亿甚至数百亿级别的 ID 特征,典型结构如图 1 所示。
    的头像 发表于 10-31 14:46 95次阅读
    使用EMBark进行<b class='flag-5'>大规模</b>推荐系统训练Embedding加速

    电压放大器在可变形机翼缩比模型主动变形实验中的应用

    实验名称:可变形机翼缩比模型主动变形实验验证研究方向:介绍了可用于低速风洞实验要求的可变形缩比模型的设计方案,以及粘接MFC致动器之后,
    的头像 发表于 09-30 14:45 1618次阅读
    电压放大器在<b class='flag-5'>可变形</b>机翼缩比<b class='flag-5'>模型</b>主动<b class='flag-5'>变形</b>实验中的应用

    计算机视觉技术的AI算法模型

    计算机视觉技术作为人工智能领域的一个重要分支,旨在使计算机能够像人类一样理解和解释图像及视频中的信息。为了实现这一目标,计算机视觉技术依赖于多种先进的AI算法模型。以下将详细介绍几种常见的计算机
    的头像 发表于 07-24 12:46 536次阅读

    经典卷积网络模型介绍

    经典卷积网络模型在深度学习领域,尤其是在计算机视觉任务中,扮演着举足轻重的角色。这些模型通过不断演进和创新,推动了图像处理、目标检测、图像生成、语义分割等多个领域的发展。以下将详细探讨
    的头像 发表于 07-11 11:45 412次阅读

    卷积神经网络分类方法有哪些

    卷积神经网络(Convolutional Neural Networks,CNN)是一种深度学习模型,广泛应用于图像分类、目标检测、语义分割等计算机视觉任务。本文将详细介绍卷积神经网络
    的头像 发表于 07-03 09:40 366次阅读

    卷积神经网络的基本结构和工作原理

    和工作原理。 1. 引言 在深度学习领域,卷积神经网络是一种非常重要的模型。它通过模拟人类视觉系统,能够自动学习图像中的特征,从而实现对图像的识别和分类。与传统的机器学习方法相比,CNN具有更强的特征提取能力,能够处理更复杂的数
    的头像 发表于 07-03 09:38 377次阅读

    卷积神经网络训练的是什么

    卷积神经网络(Convolutional Neural Networks,简称CNN)是一种深度学习模型,广泛应用于图像识别、视频分析、自然语言处理等领域。本文将详细介绍卷积神经网络的基本概念、结构
    的头像 发表于 07-03 09:15 311次阅读

    卷积神经网络cnn模型有哪些

    卷积神经网络(Convolutional Neural Networks,简称CNN)是一种深度学习模型,广泛应用于图像识别、视频分析、自然语言处理等领域。 CNN的基本概念 1.1 卷积
    的头像 发表于 07-02 15:24 633次阅读

    大规模语言模型:从理论到实践】- 阅读体验

    注意力机制提高了模型在处理长序列数据时的性能,但在某些任务上,传统的循环神经网络(RNN)或卷积神经网络(CNN)可能仍然具有优势。此外,注意力机制本身也可能存在某些性能瓶颈,需要进一步的研究和优化
    发表于 06-07 14:44

    大规模语言模型:从理论到实践】- 每日进步一点点

    非常推荐大家去读 【大规模语言模型:从理论到实践】这本书,系统的讲解了大模型的前世今生,对各个环节知识进行了普及。 今天跟我一起学习归一化的部分。 大模型训练中的归一化是一个关键步骤
    发表于 05-31 19:54

    【大语言模型:原理与工程实践】大语言模型的基础技术

    概率推断,利用共现矩阵学习每个词的主题分布,进而将其作为词的表示向量。在大规模语料库中进行模型训练,使语义相似的词具有相似的主题分布。然而,这类方法存在一个问题,即模型一旦训练完成,词的分布式表示
    发表于 05-05 12:17

    利用卷积神经网络实现SAR目标分类的研究

    卷积神经网络(CNN)是一种在图像处理和计算机视觉领域广泛应用的深度学习模型,因其能够自动学习图像的层次化特征表示而成为SAR目标分类的理想选择。
    发表于 04-08 09:39 385次阅读
    利用<b class='flag-5'>卷积</b>神经网络实现SAR目标分类的研究

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    ,在大模型实践和理论研究的过程中,历时8个月完成 《大规模语言模型:从理论到实践》 一书的撰写。希望这本书能够帮助读者快速入门大模型的研究和应用,并解决相关技术问题。 本书一经上市,
    发表于 03-11 15:16

    大规模神经网络优化:超参最佳实践与规模

    从理论分析入手把握大规模神经网络优化的规律,可以指导实践中的超参数选择。反过来,实践中的超参数选择也可以指导理论分析。本篇文章聚焦于大语言模型,介绍从 GPT 以来大家普遍使用的训练超参数的变化
    的头像 发表于 12-10 21:45 941次阅读

    大规模语言模型的基本概念、发展历程和构建流程

    大规模语言模型(Large Language Models,LLM),也称大规模语言模型或大型语言模型,是一种由包含数百亿以上参数的深度神经
    的头像 发表于 12-07 11:40 3571次阅读
    <b class='flag-5'>大规模</b>语言<b class='flag-5'>模型</b>的基本概念、发展历程和构建流程