0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个LSTM被分解成垂直和水平的LSTM

OpenCV学堂 来源:OpenCV学堂 作者:OpenCV学堂 2022-05-07 16:29 次阅读

在最近的计算机视觉研究中,ViT的出现迅速改变了各种架构设计工作:ViT利用自然语言处理中的Self-Attention实现了最先进的图像分类性能,MLP-Mixer利用简单的多层感知器也实现了具有竞争性的结果。相比之下,一些研究也表明,精心设计的卷积神经网络(CNNs)可以实现媲美ViT的先进性能,而无需借助这些新想法。在这种背景下,人们对什么是适合于计算机视觉的归纳偏差越来越感兴趣。

在这里,作者提出Sequencer,一个全新且具有竞争性的架构,可以替代ViT,为分类问题提供了一个全新的视角。与ViT不同,Sequencer使用LSTM(而不是Self-Attention)对远程依赖关系进行建模。

作者还提出了一个二维的Sequencer模块,其中一个LSTM被分解成垂直和水平的LSTM,以提高性能。

虽然结构简单,但是经过实验表明,Sequencer的表现令人印象深刻:Sequencer2D-L在ImageNet-1K上仅使用54M参数,实现84.6%的top-1精度。不仅如此,作者还证明了它在双分辨率波段上具有良好的可迁移性和稳健性。

1背景

Vision Transformer成功的原因被认为是由于Self-Attention建模远程依赖的能力。然而,Self-Attention对于Transformer执行视觉任务的有效性有多重要还不清楚。事实上,只基于多层感知器(MLPs)的MLP-Mixer被提议作为ViTs的一个有吸引力的替代方案。

此外,一些研究表明,精心设计的CNN在计算机视觉方面仍有足够的竞争力。因此,确定哪些架构设计对计算机视觉任务具有内在的有效性是当前研究的一大热点。本文通过提出一种新颖的、具有竞争力的替代方案,为这一问题提供了一个新的视角。

本文提出了Sequencer体系结构,使用LSTM(而不是Self-Attention)进行序列建模。Sequencer的宏观架构设计遵循ViTs,迭代地应用Token Mixing和Channel Mixing,但Self-Attention被基于LSTMs的Self-Attention层取代。特别是,Sequencer使用BiLSTM作为一个构建块。简单的BiLSTM表现出一定的性能水平,而Sequencer可以通过使用类似Vision Permutator(ViP)的思想进一步提高。ViP的关键思想是平行处理垂直轴和水平轴。

作者还引入了2个BiLSTM,用于并行处理上/下和左/右方向。这种修改提高了Sequencer的效率和准确性,因为这种结构减少了序列的长度,并产生一个有空间意义的感受野。

在ImageNet-1K数据集上进行预训练时,新的Sequencer架构的性能优于类似规模的Swin和ConvNeXt等高级架构。它还优于其他无注意力和无CNN的架构,如MLP-Mixer和GFNet,使Sequencer在视觉任务中的Self-Attention具有吸引力的新替代方案。

值得注意的是,Sequencer还具有很好的领域稳健性以及尺度稳定性,即使在推理过程中输入的分辨率增加了一倍,也能强烈防止精度退化。此外,对高分辨率数据进行微调的Sequencer可以达到比Swin-B更高的精度。在峰值内存上,在某些情况下,Sequencer往往比ViTs和cnn更经济。虽然由于递归,Sequencer需要比其他模型更多的FLOPs,但更高的分辨率提高了峰值内存的相对效率,提高了在高分辨率环境下的精度/成本权衡。因此,Sequencer作为一种实用的图像识别模型也具有吸引人的特性。

2全新范式

2.1 LSTM的原理

LSTM是一种特殊的递归神经网络(RNN),用于建模序列的长期依赖关系。Plain LSTM有一个输入门,它控制存储输入,一个控制前单元状态的遗忘的遗忘门,以及一个输出门,它控制当前单元状态的单元输出。普通LSTM的公式如下:

3c0deb4a-cd29-11ec-bce3-dac502259ad0.png

其中σ是logistic sigmoid function,是Hadamard product。

BiLSTM对于预期相互依赖的序列是有利的。一个BiLSTM由2个普通的LSTM组成。设为输入,为反向重排。和分别是用相应的LSTM处理和得到的输出。设为按原顺序重新排列的输出,BiLSTM的输出如下:

3c1be47a-cd29-11ec-bce3-dac502259ad0.png

假设和具有相同的隐藏维数D,这是BiLSTM的超参数。因此,向量h的维数为二维。

2.2 Sequencer架构

1、架构总览

本文用LSTM取代Self-Attention层:提出了一种新的架构,旨在节省内存和参数,同时具有学习远程建模的能力。

3c276110-cd29-11ec-bce3-dac502259ad0.png

图2a显示了Sequencer体系结构的整体结构。Sequencer架构以不重叠的Patches作为输入,并将它们投影到特征图上。Sequencer Block是Sequencer的核心组件,由以下子组件组成:

BiLSTM层可以经济、全局地Mixing空间信息

MLP用于Channel Mixing

当使用普通BiLSTM层时,Sequencer Block称为Vanilla Sequencer block;当使用BiLSTM2D层作为Sequencer Block时,Sequencer Block称为Sequencer2D block。最后一个块的输出通过全局平均池化层送到线性分类器。

2、BiLSTM2D layer

作者提出了BiLSTM2D层作为一种有效Mixing二维空间信息的技术。它有2个普通的BiLSTM,一个垂直的BiLSTM和一个水平的BiLSTM。

对于输入被视为一组序列,其中是垂直方向上的Token数量,W是水平方向上的序列数量,C是通道维度。所有序列都输入到垂直BiLSTM中,共享权重和隐藏维度D:

3c57b7de-cd29-11ec-bce3-dac502259ad0.png

用与上述相似的方式,被视为一组序列,所有序列被输入到水平BiLSTM中,共享权重和隐藏维度D:

3c664416-cd29-11ec-bce3-dac502259ad0.png

然后将合并到中,同时将合并到。最后送入FC层。这些流程制定如下:

3c766bca-cd29-11ec-bce3-dac502259ad0.png

伪代码如下:

3c82a8b8-cd29-11ec-bce3-dac502259ad0.png

3、架构变体

为了比较由Sequencer 2D组成的不同深度的模型,本文准备了3种不同深度的模型:18、24和36。模型的名称分别为Sequencer2D-S、Sequencer2D-M和Sequencer2D-L。隐藏维度设置为D=C/4。

3c913946-cd29-11ec-bce3-dac502259ad0.png

3ca309c8-cd29-11ec-bce3-dac502259ad0.png

3实验

3.1 ImageNet-1K

3cdadf06-cd29-11ec-bce3-dac502259ad0.png

3.2 迁移学习

3cf029b0-cd29-11ec-bce3-dac502259ad0.png

3.3 稳健性实验

3cff1d58-cd29-11ec-bce3-dac502259ad0.png

3.4 可视化分析

一般来说,CNN具有局部化的、逐层扩展的感受野,而没有移动窗口的ViT捕获的是全局依赖。相比之下,作者Sequencer不清楚信息是如何处理的。因此作者计算了ResNet-50、DeiT-S和Sequencer2D-S的ERF,如图5所示。

3d10d2c8-cd29-11ec-bce3-dac502259ad0.png

Sequencer2D-S的ERFs在所有层中形成十字形。这一趋势使其不同于DeiT-S和ResNet-50等著名模型。更值得注意的是,在浅层中,Sequencer2D-S比ResNet-50的ERF更宽,尽管没有DeiT那么宽。这一观察结果证实了Sequencer中的lstm可以像预期的那样建模长期依赖关系,并且Sequencer可以识别足够长的垂直或水平区域。因此,可以认为,Sequencer识别图像的方式与CNN或ViT非常不同。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1696

    浏览量

    45929
  • LSTM
    +关注

    关注

    0

    文章

    59

    浏览量

    3738

原文标题:CV全新范式 | LSTM在CV领域杀出一条血路,完美超越Swin与ConvNeXt等前沿算法

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    RNN与LSTM模型的比较分析

    RNN(循环神经网络)与LSTM(长短期记忆网络)模型在深度学习领域都具有处理序列数据的能力,但它们在结构、功能和应用上存在显著的差异。以下是对RNN与LSTM模型的比较分析: 、基本原理与结构
    的头像 发表于 11-15 10:05 236次阅读

    LSTM神经网络与其他机器学习算法的比较

    随着人工智能技术的飞速发展,机器学习算法在各个领域中扮演着越来越重要的角色。长短期记忆网络(LSTM)作为种特殊的循环神经网络(RNN),因其在处理序列数据方面的优势而受到广泛关注。 LSTM
    的头像 发表于 11-13 10:17 353次阅读

    深度学习框架中的LSTM神经网络实现

    处理、语音识别和时间序列预测等领域,LSTM已经成为种流行的选择。 LSTM的基本原理 LSTM网络的核心是三门控机制:输入门(Inpu
    的头像 发表于 11-13 10:16 250次阅读

    LSTM神经网络在图像处理中的应用

    长短期记忆(LSTM)神经网络是种特殊的循环神经网络(RNN),它能够学习长期依赖关系。虽然LSTM最初是为处理序列数据设计的,但近年来,它在图像处理领域也展现出了巨大的潜力。 LSTM
    的头像 发表于 11-13 10:12 193次阅读

    如何使用Python构建LSTM神经网络模型

    构建LSTM(长短期记忆)神经网络模型是涉及多个步骤的过程。以下是使用Python和Keras库构建
    的头像 发表于 11-13 10:10 167次阅读

    如何优化LSTM神经网络的性能

    LSTM种特殊的循环神经网络(RNN),它能够学习长期依赖关系,因此在序列数据处理中非常有效。然而,LSTM网络的训练可能面临梯度消失或爆炸的问题,需要采取特定的策略来优化其性能。 1. 数据
    的头像 发表于 11-13 10:09 226次阅读

    LSTM神经网络的训练数据准备方法

    LSTM(Long Short-Term Memory,长短期记忆)神经网络的训练数据准备方法是关键步骤,它直接影响到模型的性能和效果。以下是些关于
    的头像 发表于 11-13 10:08 215次阅读

    LSTM神经网络的结构与工作机制

    的结构与工作机制的介绍: LSTM神经网络的结构 LSTM神经网络的结构主要包括以下几个部分: 记忆单元(Memory Cell) : 记忆单元是LSTM网络的核心,负责在整个序列
    的头像 发表于 11-13 10:05 139次阅读

    LSTM神经网络在语音识别中的应用实例

    语音识别技术是人工智能领域的重要分支,它使计算机能够理解和处理人类语言。随着深度学习技术的发展,特别是长短期记忆(LSTM)神经网络的引入,语音识别的准确性和效率得到了显著提升。 LSTM
    的头像 发表于 11-13 10:03 293次阅读

    LSTM神经网络的调参技巧

    长短时记忆网络(Long Short-Term Memory, LSTM)是种特殊的循环神经网络(RNN),它能够学习长期依赖信息。在实际应用中,LSTM网络的调参是
    的头像 发表于 11-13 10:01 319次阅读

    LSTM神经网络的优缺点分析

    长短期记忆(Long Short-Term Memory, LSTM)神经网络是种特殊的循环神经网络(RNN),由Hochreiter和Schmidhuber在1997年提出。LSTM因其在处理
    的头像 发表于 11-13 09:57 493次阅读

    使用LSTM神经网络处理自然语言处理任务

    自然语言处理(NLP)是人工智能领域的重要分支,它旨在使计算机能够理解、解释和生成人类语言。随着深度学习技术的发展,特别是循环神经网络(RNN)及其变体——长短期记忆(LSTM)网络的出现
    的头像 发表于 11-13 09:56 285次阅读

    LSTM神经网络在时间序列预测中的应用

    时间序列预测是数据分析中的重要领域,它涉及到基于历史数据预测未来值。随着深度学习技术的发展,长短期记忆(LSTM)神经网络因其在处理序列数据方面的优势而受到广泛关注。 LSTM神经
    的头像 发表于 11-13 09:54 389次阅读

    LSTM神经网络的基本原理 如何实现LSTM神经网络

    LSTM(长短期记忆)神经网络是种特殊的循环神经网络(RNN),它能够学习长期依赖信息。在处理序列数据时,如时间序列分析、自然语言处理等,LSTM因其能够有效地捕捉时间序列中的长期依赖关系而受到
    的头像 发表于 11-13 09:53 209次阅读

    LSTM模型的基本组成

    的梯度消失或梯度爆炸问题。LSTM通过引入三“门”控制结构——遗忘门、输入门和输出门,以及记忆细胞(memory cell),实现了对信息的有效存储和更新。本文将对
    的头像 发表于 07-10 17:01 1015次阅读