Swin Transformer在MIM中的应用-电子发烧友网

自何恺明MAE横空出世以来，MIM（Masked Image Modeling）这一自监督预训练表征越来越引发关注。

但与此同时，研究人员也不得不思考它的局限性。

MAE论文中只尝试了使用原版ViT架构作为编码器，而表现更好的分层设计结构（以Swin Transformer为代表），并不能直接用上MAE方法。

于是，一场整合的范式就此在研究团队中上演。

代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM，它探索了Swin Transformer在MIM中的应用。

但与MAE相比，它在可见和掩码图块均有操作，且计算量过大。有研究人员发现，即便是SimMIM的基本尺寸模型，也无法在一台配置8个32GB GPU的机器上完成训练。

基于这样的背景，东京大学&商汤&悉尼大学的研究员，提供一个新思路。

不光将Swin Transformer整合到了MAE框架上，既有与SimMIM相当的任务表现，还保证了计算效率和性能——

将分层ViT的训练速度提高2.7倍，GPU内存使用量减少70%。

来康康这是一项什么研究？

当分层设计引入MAE

这篇论文提出了一种面向MIM的绿色分层视觉Transformer。

即允许分层ViT丢弃掩码图块，只对可见图块进行操作。

具体实现，由两个关键部分组成。

首先，设计了一种基于分治策略的群体窗口注意力方案。

将具有不同数量可见图块的局部窗口聚集成几个大小相等的组，然后在每组内进行掩码自注意力。

其次，把上述分组任务视为有约束动态规划问题，受贪心算法的启发提出了一种分组算法。

它可以自适应选择最佳分组大小，并将局部窗口分成最少的一组，从而使分组图块上的注意力整体计算成本最小。

表现相当，训练时间大大减少

结果显示，在ImageNet-1K和MS-COCO数据集上实验评估表明，与基线SimMIM性能相当的同时，效率提升2倍以上。

而跟SimMIM相比，这一方法在所需训练时间大大减少，消耗GPU内存也小得多。具体而言，在相同的训练次数下，在Swin-B上提高2倍的速度和减少60%的内存。

值得一提的是，该研究团队在有8个32GB V100 GPU的单机上进行评估的，而SimMIM是在2或4台机器上进行评估。

研究人员还发现，效率的提高随着Swin-L的增大而变大，例如，与SimMIM192相比，速度提高了2.7倍。

实验的最后，提到了算法的局限性。其中之一就是需要分层次掩码来达到最佳的效率，限制了更广泛的应用。这一点就交给未来的研究。

而谈到这一研究的影响性，研究人员表示，主要就是减轻了MIM的计算负担，提高了MIM的效率和有效性。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3701

浏览量
135690
数据集

数据集

+关注

关注
4

文章
1212

浏览量
24964

原文标题：何恺明MAE局限性被打破，与Swin Transformer结合，训练速度大大提升 | 东大&商汤&悉大

文章出处：【微信号：CVSCHOOL，微信公众号：OpenCV学堂】欢迎添加关注！文章转载请注明出处。

如何使用MATLAB构建Transformer模型

Transformer 模型在 2017 年由 Vaswani 等人在论文《Attentionis All You Need》中首次提出。其设计初衷是为了解决自然语言处理（Nature

发表于 02-06 10:21 •1445次阅读

如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

transformer专用ASIC芯片Sohu说明

2022年，我们打赌说transformer会统治世界。我们花了两年时间打造Sohu，这是世界上第一个用于transformer（ChatGPT中的“T”）的专用芯片。将transform

发表于 01-06 09:13 •510次阅读

Transformer是机器人技术的基础吗

生成式预训练Transformer（GPT）被吹捧为将彻底改变机器人技术。但实际应用中，GPT需要庞大且昂贵的计算资源、冗长的训练时间以及（通常）非机载无线控制，诸多限制之下，GPT技术真的

发表于 12-05 10:54 •369次阅读

Transformer模型的具体应用

如果想在 AI 领域引领一轮新浪潮，就需要使用到 Transformer。

发表于 11-20 09:28 •881次阅读

Transformer模型能够做什么

尽管名为 Transformer，但它们不是电视银幕上的变形金刚，也不是电线杆上垃圾桶大小的变压器。

发表于 11-20 09:27 •546次阅读

自动驾驶中一直说的BEV+Transformer到底是个啥？

在很多车企的自动驾驶介绍中，都会听到一个关键技术，那就是BEV+Transformer，那BEV+Transformer到底是个啥？为什么很多车企在

发表于 11-07 11:19 •685次阅读

英伟达推出归一化Transformer，革命性提升LLM训练速度

了新的突破。相较于传统的Transformer架构，nGPT在保持原有精度的同时，直接将大型语言模型(LLM)的训练速度提升了高达20倍。这一显著的性能提升，无疑将极大地推动AI技术的发展和应用。在nGPT

发表于 10-23 11:30 •514次阅读

Transformer能代替图神经网络吗

Transformer作为一种在处理序列数据方面表现出色的深度学习模型，自其提出以来，已经在自然语言处理（NLP）、时间序列分析等领域取得了显著的成果。然而，关于Transformer

发表于 07-12 14:07 •606次阅读

Transformer语言模型简介与实现过程

在自然语言处理（NLP）领域，Transformer模型以其卓越的性能和广泛的应用前景，成为了近年来最引人注目的技术之一。Transformer模型由谷歌在2017年提出，并首次应用于

发表于 07-10 11:48 •2357次阅读

Transformer架构在自然语言处理中的应用

随着人工智能技术的飞速发展，自然语言处理（NLP）领域取得了显著的进步。其中，Transformer架构的提出，为NLP领域带来了革命性的变革。本文将深入探讨Transformer架构的核心思想、组成部分以及在自然语言处理领域的

发表于 07-09 11:42 •1081次阅读

Transformer模型在语音识别和语音生成中的应用优势

自然语言处理、语音识别、语音生成等多个领域展现出强大的潜力和广泛的应用前景。本文将从Transformer模型的基本原理出发，深入探讨其在语音识别和语音生成中的应用优势，并展望其未来发展趋势。

发表于 07-03 18:24 •1489次阅读

使用PyTorch搭建Transformer模型

Transformer模型自其问世以来，在自然语言处理（NLP）领域取得了巨大的成功，并成为了许多先进模型（如BERT、GPT等）的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型，包括模型的结构、训

发表于 07-02 11:41 •2025次阅读

Transformer 能代替图神经网络吗？

当Transformer模型发布时，它彻底革新了机器翻译领域。虽然最初是为特定任务设计的，但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准，甚至用于它最

发表于 07-02 08:27 •428次阅读

基于xLSTM和Transformer的模型评估：xLSTM在“语言能力”的表现

近期，Hochreiter在arXiv平台发表论文，推出了一款新型的XLSTM（扩展LSTM）架构，有效克服了传统LSTM互联网结构“仅能按时间顺序处理信息”的局限性，有望挑战当前热门的Transformer架构。

发表于 05-13 10:31 •998次阅读

视觉Transformer基本原理及目标检测应用

视觉Transformer的一般结构如图2所示，包括编码器和解码器两部分，其中编码器每一层包括一个多头自注意力模块（self-attention）和一个位置前馈神经网络(FFN)。

发表于 04-03 10:32 •4098次阅读