0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在不增加额外参数量的前提下把模型的表达能力挖掘到极致

电子工程师 来源:机器之心 作者:机器之心 2022-08-08 16:25 次阅读

今天跟大家分享一篇来自CMU等机构的论文《Sliced Recursive Transformer》,该论文已被 ECCV 2022 接收。

目前 vision transformer 在不同视觉任务上如分类、检测等都展示出了强大的性能,但是其巨大的参数量和计算量阻碍了该模型进一步在实际场景中的应用。基于这个考虑,本文重点研究了如何在不增加额外参数量的前提下把模型的表达能力挖掘到极致,同时还要保证模型计算量在合理范围内,从而可以在一些存储容量小,计算能力弱的嵌入式设备上部署。

基于这个动机,Zhiqiang Shen、邢波等研究者提出了一个 SReT 模型,通过循环递归结构来强化每个 block 的特征表达能力,同时又提出使用多个局部 group self-attention 来近似 vanilla global self-attention,在显著降低计算量 FLOPs 的同时,模型没有精度的损失。

6f84e69e-16c2-11ed-ba43-dac502259ad0.png

论文地址:https://arxiv.org/abs/2111.05297

代码和模型:https://github.com/szq0214/SReT

总结而言,本文主要有以下两个创新点:

使用类似 RNN 里面的递归结构(recursive block)来构建 ViT 主体,参数量不涨的前提下提升模型表达能力;

使用 CNN 中 group-conv 类似的 group self-attention 来降低 FLOPs 的同时保持模型的高精度

此外,本文还有其他一些小的改动:

网络最前面使用三层连续卷积,卷积核为 3x3,结构直接使用了研究者之前 DSOD 里面的 stem 结构;

Knowledge distillation 只使用了单独的 soft label,而不是 DeiT 里面 hard 形式的 label 加 one-hot ground-truth,因为研究者认为 soft label 包含的信息更多,更有利于知识蒸馏;

使用可学习的 residual connection 来提升模型表达能力;

如下图所示,本文所提出的模型在参数量(Params)和计算量(FLOPs)方面相比其他模型都有明显的优势:

6f9bf410-16c2-11ed-ba43-dac502259ad0.png

下面我们来解读这篇文章: 1.ViT 中的递归模块 递归操作的基本组成模块如下图:

6fac3848-16c2-11ed-ba43-dac502259ad0.png

该模块非常简单明了,类似于 RNN 结构,将模块当前 step 的输出作为下个 step 的输入重新输进该模块,从而增强模型特征表达能力。 研究者展示了将该设计直接应用在 DeiT 上的结果,如下所示:

6fb76088-16c2-11ed-ba43-dac502259ad0.png

可以看到在加入额外一次简单递归操作之后就可以得到将近 2% 的精度提升。 当然具体到全局网络结构层面还有不同的递归构建方法,如下图:

6fcb1b1e-16c2-11ed-ba43-dac502259ad0.png

其中 NLL 层(Non-linear Projection Layer)是用来保证每个递归模块输入输出不完全一致。论文提出使用这个模块的主要原因是发现在上述 Table 1 里面更多次数的递归操作并没有进一步提升性能,说明网络可能学到了一个比较简单的状态,而 NLL 层可以强制模型输入输出不一致从而缓解这种情况。同时,研究者从实验结果发现上图 (1) internal loop 相比 external loop 设计拥有更好的 accuracy-FLOPs 结果。 2. 分组的 Group Self-attention 模块 如下图所示,研究者提出了一种分组的 group self-attention 策略来降低模型的 FLOPs,同时保证 self-attention 的全局注意力,从而使得模型没有明显精度损失:

6fd2573a-16c2-11ed-ba43-dac502259ad0.png

Group Self-attention 模块具体形式如下:

6fe58ecc-16c2-11ed-ba43-dac502259ad0.png

Group self-attention 的缺点是只有局部区域会相互作用,研究者提出通过使用 Permutation 操作来近似全局 self-attention 的机制,同时通过 Inverse Permutation 来复原和保留 tokens 的次序信息,针对这个部分的消融实验如下所示:

6fee80d6-16c2-11ed-ba43-dac502259ad0.png

其中 P 表示加入 Permutation,I 表示加入 Inverse Permutation,-L 表示如果 group 数为 1,就不使用 P 和 I(比如模型最后一个 stage)。根据上述表格的结果,研究者最后采用了 [8, 2][4,1][1,1] 这种分组设计。 3. 其他设计 可学习的残差结构 (LRC):

6ffd0804-16c2-11ed-ba43-dac502259ad0.png

研究者尝试了上图三种结构,图(3)结果最佳。具体而言,研究者在每个模块里面添加了 6 个额外参数(4+2,2 个在 NLL 层),这些参数会跟模型其他参数一起学习,从而使网络拥有更强的表达能力,参数初始化都为 1,在训练过程 6 个参数的数值变化情况如下所示:

7009c85a-16c2-11ed-ba43-dac502259ad0.png

Stem 结构组成:

702da22a-16c2-11ed-ba43-dac502259ad0.png

如上表所示,Stem 由三个 3x3 的连续卷积组成,每个卷积 stride 为 2。 整体网络结构: 研究者进一步去掉了 class token 和 distillation token,并且发现精度有少量提升。

70388b2c-16c2-11ed-ba43-dac502259ad0.png

消融实验:

7045dea8-16c2-11ed-ba43-dac502259ad0.png

模型混合深度训练: 研究者进一步发现分组递归设计还有一个好处就是:可以支持模型混合深度训练,这种训练方式可以大大降低深度网络结构优化复杂度,研究者展示了 108 层不同模型结构优化过程的 landscape 可视化,如下图所示,可以很明显的看到混合深度结构优化过程困难程度显著低于另外两种结构。

7050dbc8-16c2-11ed-ba43-dac502259ad0.png

最后,分组 group self-attention 算法 PyTorch 伪代码如下:

705f16ca-16c2-11ed-ba43-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3253

    浏览量

    48874
  • 递归
    +关注

    关注

    0

    文章

    28

    浏览量

    9030
  • cnn
    cnn
    +关注

    关注

    3

    文章

    352

    浏览量

    22237

原文标题:ECCV 2022 | 视觉Transformer上进行递归!SReT:不增参数,计算量还少!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI时代,华天科技热仿真分析为芯片散热保驾护航

    在AI时代,面对封装产品小型化、集成度和可靠性要求的提高,如何在牺牲性能的前提下有效解决散热问题,已成为业界亟需解决的紧迫任务。
    的头像 发表于 11-28 09:29 253次阅读
    AI时代,华天科技热仿真分析为芯片散热保驾护航

    PCB层数增加对成本有哪些影响

    :设计工程师需要在保证设计信号质量的前提下,尽量使用较少的层数来完成PCB的设计,以此来控制成本。 PCB层数增加的其他影响因素 制造难度与成本 :随着层数的增加,PCB的制造难度也会相应
    的头像 发表于 11-07 09:12 323次阅读

    PCB层数增加对成本的影响分析

    还会导致制造难度的提升,如最小线宽、最小线间距、最小钻孔等参数的设置更为严格,这些都可能增加生产成本。 PCB尺寸与层数的关系 在层数一定的情况下,PCB的尺寸越小,价格就会越低。设计工程师在PCB设计中,在不影响电气性能的前提下
    的头像 发表于 09-04 19:11 580次阅读
    PCB层数<b class='flag-5'>增加</b>对成本的影响分析

    PCB上在拆掉集成块的前提下怎么能测其好坏?

    想请问一下,PCB上在拆掉集成块的前提下怎么能测其好坏,谢谢了
    发表于 09-02 07:56

    OPA320与OPA320S在确保运放精度能达到稳定的前提下尽量做到低功耗应该如何选择?

    OPA320与OPA320S主要区别在于是否有使能引脚,如果用于低功耗电路中,需要快速切换运放的开关工作状态,是选择增加外部供电切换电路好还是使用带有使能引脚的运放好?在确保运放精度能达到稳定的前提下尽量做到低功耗应该如何选择?
    发表于 08-21 06:14

    USB频谱分析仪在满足低成本预算的前提下能够提供出色的性能

    USB频谱分析仪在满足低成本预算的前提下能够提供出色的性能,USB频谱分析仪紧凑的设计,本身不自带电源,USB频谱分析仪体积非常小,是因为电源、处理、显示都依附于PC。
    的头像 发表于 08-08 10:51 303次阅读

    安宝特产品 3D Evolution : 基于特征实现无损CAD格式转换

    安宝特3D Evolution具有强大的3D CAD模型转换功能,可在保留模型特征参数、注释、约束的前提下,完成不同格式3D CAD模型的无
    的头像 发表于 08-06 17:26 343次阅读
    安宝特产品   3D Evolution : 基于特征实现无损CAD格式转换

    科普讲座 | 让AIGC提高你的专业表达和创作能力

    的专题讲座,激发工程师专业文章创作灵感,提高个人的专业表达能力,从而在电力电子领域展现更加卓越的才华!举办时间7月2日1900讲座内容:技术:AIGC时代到来方法:让A
    的头像 发表于 06-23 08:14 332次阅读
    科普讲座 | 让AIGC提高你的专业<b class='flag-5'>表达</b>和创作<b class='flag-5'>能力</b>

    微软发布MatterSim模型,精准预测材料性能与行为

    材料创新对于诸如纳米电子学、能源储存以及医学健康等关键领域的技术进步有着重大影响。而材料设计中的难点在于如何在无需实际合成和测试的前提下预测其特性。
    的头像 发表于 05-15 16:01 761次阅读

    STM32跟wifi模块通过USB在没有host的前提下如何交互呢?

    后不需要再插拔。是不是可以通过USB简单的进行设备与设备的连接,不用考虑是否是host? 2. 如果1假设成立,那STM32跟wifi模块通过USB在没有host的前提下如何交互呢?
    发表于 05-13 08:25

    【大语言模型:原理与工程实践】大语言模型的应用

    。 关于大语言模型是否具备与人类“系统2”相似的能力,存在广泛的争议。然而,随着模型参数量增加和大规模预训练的实施,大语言
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的预训练

    大语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    丰富的常识知识,能够基于常识进行推理,填补信息空白,并作出合理推断。随着训练规模和参数量增加,大语言模型的推理能力将持续提升,为解决实际问题和推动人工智能发展提供有力支持。 大语言
    发表于 05-04 23:55

    NTT、NEC联手完成首个跨洋7280千米光网络传输实验,提升带宽

    市面上主流的海底光缆大多采用单个核心(single-core fiber),即每个光纤仅具有一个传输光束的能力。然而,这次实验的最大突破就在于如何在保持现有的光缆直径不变的前提下增加
    的头像 发表于 03-26 16:43 627次阅读

    5G RedCap通信标准化工作进程

    RedCap技术是在确保应用需求和性能的前提下,通过减少带宽、收发天线数量、降低速率、调整调制方式、引入半双工模式等方式削减设备的能力,降低终端设备的复杂度。
    的头像 发表于 02-01 14:09 1790次阅读
    5G RedCap通信标准化工作进程