0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Swin Transformer在MIM中的应用

OpenCV学堂 来源:量子位 作者:量子位 2022-05-31 10:15 次阅读

自何恺明MAE横空出世以来,MIM(Masked Image Modeling)这一自监督预训练表征越来越引发关注。

但与此同时, 研究人员也不得不思考它的局限性。

MAE论文中只尝试了使用原版ViT架构作为编码器,而表现更好的分层设计结构(以Swin Transformer为代表),并不能直接用上MAE方法。

于是,一场整合的范式就此在研究团队中上演。

代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了Swin Transformer在MIM中的应用。

但与MAE相比,它在可见和掩码图块均有操作,且计算量过大。有研究人员发现,即便是SimMIM的基本尺寸模型,也无法在一台配置8个32GB GPU的机器上完成训练。

基于这样的背景,东京大学&商汤&悉尼大学的研究员,提供一个新思路。

cf3dbdfe-e030-11ec-ba43-dac502259ad0.png

不光将Swin Transformer整合到了MAE框架上,既有与SimMIM相当的任务表现,还保证了计算效率和性能——

将分层ViT的训练速度提高2.7倍,GPU内存使用量减少70%。

来康康这是一项什么研究?

当分层设计引入MAE

这篇论文提出了一种面向MIM的绿色分层视觉Transformer。

即允许分层ViT丢弃掩码图块,只对可见图块进行操作。

cf59a7ee-e030-11ec-ba43-dac502259ad0.png

具体实现,由两个关键部分组成。

首先,设计了一种基于分治策略的群体窗口注意力方案。

将具有不同数量可见图块的局部窗口聚集成几个大小相等的组,然后在每组内进行掩码自注意力。

cf7baa60-e030-11ec-ba43-dac502259ad0.png

其次,把上述分组任务视为有约束动态规划问题,受贪心算法的启发提出了一种分组算法。

cf9d5566-e030-11ec-ba43-dac502259ad0.png

它可以自适应选择最佳分组大小,并将局部窗口分成最少的一组,从而使分组图块上的注意力整体计算成本最小。

表现相当,训练时间大大减少

结果显示,在ImageNet-1K和MS-COCO数据集上实验评估表明,与基线SimMIM性能相当的同时,效率提升2倍以上。

cfbce552-e030-11ec-ba43-dac502259ad0.png

而跟SimMIM相比,这一方法在所需训练时间大大减少,消耗GPU内存也小得多。具体而言,在相同的训练次数下,在Swin-B上提高2倍的速度和减少60%的内存。

d00b726c-e030-11ec-ba43-dac502259ad0.png

值得一提的是,该研究团队在有8个32GB V100 GPU的单机上进行评估的,而SimMIM是在2或4台机器上进行评估。

研究人员还发现,效率的提高随着Swin-L的增大而变大,例如,与SimMIM192相比,速度提高了2.7倍。

实验的最后,提到了算法的局限性。其中之一就是需要分层次掩码来达到最佳的效率,限制了更广泛的应用。这一点就交给未来的研究。

d050031e-e030-11ec-ba43-dac502259ad0.png

而谈到这一研究的影响性,研究人员表示,主要就是减轻了MIM的计算负担,提高了MIM的效率和有效性。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3633

    浏览量

    134400
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24683

原文标题:何恺明MAE局限性被打破,与Swin Transformer结合,训练速度大大提升 | 东大&商汤&悉大

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Transformer是机器人技术的基础吗

    生成式预训练Transformer(GPT)被吹捧为将彻底改变机器人技术。但实际应用,GPT需要庞大且昂贵的计算资源、冗长的训练时间以及(通常)非机载无线控制,诸多限制之下,GPT技术真的
    的头像 发表于 12-05 10:54 208次阅读
    <b class='flag-5'>Transformer</b>是机器人技术的基础吗

    Transformer模型的具体应用

    如果想在 AI 领域引领一轮新浪潮,就需要使用到 Transformer
    的头像 发表于 11-20 09:28 393次阅读
    <b class='flag-5'>Transformer</b>模型的具体应用

    Transformer模型能够做什么

    尽管名为 Transformer,但它们不是电视银幕上的变形金刚,也不是电线杆上垃圾桶大小的变压器。
    的头像 发表于 11-20 09:27 271次阅读
    <b class='flag-5'>Transformer</b>模型能够做什么

    自动驾驶中一直说的BEV+Transformer到底是个啥?

    很多车企的自动驾驶介绍,都会听到一个关键技术,那就是BEV+Transformer,那BEV+Transformer到底是个啥?为什么很多车企
    的头像 发表于 11-07 11:19 360次阅读
    自动驾驶中一直说的BEV+<b class='flag-5'>Transformer</b>到底是个啥?

    Transformer能代替图神经网络吗

    Transformer作为一种处理序列数据方面表现出色的深度学习模型,自其提出以来,已经自然语言处理(NLP)、时间序列分析等领域取得了显著的成果。然而,关于Transformer
    的头像 发表于 07-12 14:07 428次阅读

    Transformer语言模型简介与实现过程

    自然语言处理(NLP)领域,Transformer模型以其卓越的性能和广泛的应用前景,成为了近年来最引人注目的技术之一。Transformer模型由谷歌2017年提出,并首次应用于
    的头像 发表于 07-10 11:48 1585次阅读

    Transformer架构自然语言处理的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著的进步。其中,Transformer架构的提出,为NLP领域带来了革命性的变革。本文将深入探讨Transformer架构的核心思想、组成部分以及自然语言处理领域的
    的头像 发表于 07-09 11:42 746次阅读

    Transformer模型语音识别和语音生成的应用优势

    自然语言处理、语音识别、语音生成等多个领域展现出强大的潜力和广泛的应用前景。本文将从Transformer模型的基本原理出发,深入探讨其语音识别和语音生成的应用优势,并展望其未来发展趋势。
    的头像 发表于 07-03 18:24 1061次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型,包括模型的结构、训
    的头像 发表于 07-02 11:41 1570次阅读

    Transformer 能代替图神经网络吗?

    Transformer模型发布时,它彻底革新了机器翻译领域。虽然最初是为特定任务设计的,但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准,甚至用于它最
    的头像 发表于 07-02 08:27 348次阅读
    <b class='flag-5'>Transformer</b> 能代替图神经网络吗?

    基于xLSTM和Transformer的模型评估:xLSTM“语言能力”的表现

    近期,HochreiterarXiv平台发表论文,推出了一款新型的XLSTM(扩展LSTM)架构,有效克服了传统LSTM互联网结构“仅能按时间顺序处理信息”的局限性,有望挑战当前热门的Transformer架构。
    的头像 发表于 05-13 10:31 786次阅读

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型人工智能领域中发挥着日益重要的作用,特别是自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 645次阅读
    基于<b class='flag-5'>Transformer</b>模型的压缩方法

    一文详解Transformer神经网络模型

    Transformer模型强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器与环境互动的过程,通过试错来学习最优的行为策略。
    发表于 02-20 09:55 1.4w次阅读
    一文详解<b class='flag-5'>Transformer</b>神经网络模型

    Transformer压缩部署的前沿技术:RPTQ与PB-LLM

    随着人工智能技术的迅速发展,Transformer自然语言处理、机器翻译、问答系统等领域取得了显著的性能提升。
    的头像 发表于 01-24 14:05 1172次阅读
    <b class='flag-5'>Transformer</b>压缩部署的前沿技术:RPTQ与PB-LLM

    MIM金属注射成型工艺介绍 哪些零件适合MIM工艺

    MIM的工艺过程MIM工艺主要分为四个阶段,包括制粒、注射、脱脂和烧结,以及随后的机械加工或拉丝,如果需要的话、电镀等二次加工技术。
    的头像 发表于 12-26 14:53 5137次阅读
    <b class='flag-5'>MIM</b>金属注射成型工艺介绍 哪些零件适合<b class='flag-5'>MIM</b>工艺