0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

单个CNN就能够在多个数据集上实现SOTA

OpenCV学堂 来源:机器之心 作者:机器之心 2022-07-21 10:15 次阅读

在 VGG、U-Net、TCN 网络中... CNN 虽然功能强大,但必须针对特定问题、数据类型、长度和分辨率进行定制,才能发挥其作用。我们不禁会问,可以设计出一个在所有这些网络中都运行良好的单一 CNN 吗? 本文中,来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN,单个 CNN 就能够在多个数据集(例如 LRA)上实现 SOTA !

1eb82160-083d-11ed-ba43-dac502259ad0.png

1998 年 LeCun 等人提出卷积神经网络 (CNN),这是一类广泛用于机器学习深度学习模型。由于 CNN 具有高性能和高效率等特点,使其在跨序列、视觉和高维数据的多个应用程序中实现 SOTA 性能。然而,CNN(以及一般的神经网络)存在一个严重缺陷,这些架构必须针对特定应用进行定制,以便处理不同的数据长度、分辨率和维度。这反过来又导致大量特定于任务的 CNN 架构出现。 数据可以有许多不同的长度,例如图像可以是 32x32 或 1024x1024。标准 CNN 存在的问题是,它们的卷积核是局部的,这需要为每个长度定制一个精心选择的步长和池化层来捕获整个上下文自定义架构。此外,许多数据本质上是连续的,在不同的分辨率下具有相同的语义,例如图像可以在任意分辨率下捕获,并具有相同的语义内容,音频可以在 16kHz 或 44.1kHz 采样,但人耳听起来仍然是相同的。 然而,由于卷积核的离散性,传统的 CNN 不能跨分辨率使用。当考虑具有相同 CNN 的不同维度数据时,这两个问题会进一步加剧,例如序列(1D)、视觉(2D)和高维数据(3D、4D),因为不同的维度以不同的特征长度和分辨率运行,例如一秒音频的长度很容易达到 16000,这与基准数据集中的图像大小形成强烈对比。 在本文中,研究者提出了迈向通用 CNN 架构。其目标是构建一个单一的 CNN 架构,可以用于任意分辨率、长度和维度的数据。标准 CNN 需要特定于任务的架构,因为其卷积核的离散性将内核绑定到特定的数据分辨率,并且由于构建大型离散卷积核所需的大量参数,它们不适合对全局上下文进行建模。 因此,为了构建一个通用的 CNN 架构,关键是开发一个分辨率不可知的卷积层,该卷积层能够以参数有效的方式对远程依赖关系进行建模。该研究入选 ICML 2022 。

1ed26bce-083d-11ed-ba43-dac502259ad0.png

  • 论文地址:https://arxiv.org/pdf/2206.03398.pdf
  • 代码地址:https://github.com/david-knigge/ccnn
本文的贡献如下:
  • 该研究提出 Continuous CNN(CCNN):一个简单、通用的 CNN,可以跨数据分辨率和维度使用,而不需要结构修改。CCNN 在序列 (1D)、视觉 (2D) 任务、以及不规则采样数据和测试时间分辨率变化的任务上超过 SOTA;
  • 该研究对现有的 CCNN 方法提供了几种改进,使它们能够匹配当前 SOTA 方法,例如 S4。主要改进包括核生成器网络的初始化、卷积层修改以及 CNN 的整体结构。
连续核卷积 连续核卷积将小型神经网络1ee43fde-083d-11ed-ba43-dac502259ad0.png作为核生成器网络,同时将卷积核参数化为连续函数。该网络将坐标1eedaba0-083d-11ed-ba43-dac502259ad0.png映射到该位置的卷积核值:1ef62e42-083d-11ed-ba43-dac502259ad0.png(图 1a)。通过将 K 个坐标1f020b40-083d-11ed-ba43-dac502259ad0.png向量通过 G_Kernel,可以构造一个大小相等的卷积核 K,即1f0bdcce-083d-11ed-ba43-dac502259ad0.png随后,在输入信号1f1556e6-083d-11ed-ba43-dac502259ad0.png和生成的卷积核1f1ee8fa-083d-11ed-ba43-dac502259ad0.png间进行卷积运算,以构造输出特征表示1f2b7dae-083d-11ed-ba43-dac502259ad0.png,即1f374efe-083d-11ed-ba43-dac502259ad0.png

1f42603c-083d-11ed-ba43-dac502259ad0.png

任意数据维度的一般操作。通过改变输入坐标 c_i 的维数 D,核生成器网络 G_Kernel 可用于构造任意维数的卷积核。因此可以使用相同的操作来处理序列 D=1、视觉 D=2 和更高维数据 D≥3。 不同输入分辨率的等效响应。如果输入信号 x 有分辨率变化,例如最初在 8KHz 观察到的音频现在在 16KHz 观察到,则与离散卷积核进行卷积以产生不同的响应,因为核将在每个分辨率下覆盖不同的输入子集。另一方面,连续核是分辨率无关的,因此无论输入的分辨率如何,它都能够识别输入。 当以不同的分辨率(例如更高的分辨率)呈现输入时,通过核生成器网络传递更精细的坐标网格就足够了,以便以相应的分辨率构造相同的核。对于以分辨率 r (1) 和 r (2) 采样的信号 x 和连续卷积核 K,两种分辨率下的卷积大约等于与分辨率变化成比例的因子:

1f574fa6-083d-11ed-ba43-dac502259ad0.jpg

CCNN:在 ND 中建模远程依赖关系 具有连续核卷积的残差块改进。该研究对 FlexNet 架构进行了修改 ,其残差网络由类似于 S4 网络的块组成。CCNN 架构如下图 2 所示。

1f61fc3a-083d-11ed-ba43-dac502259ad0.png

基于这些观察,该研究构建了 FlexConv 的深度(depth-wise)可分离版本,其中通道(channel-wise)卷积是使用核生成器网络1f750168-083d-11ed-ba43-dac502259ad0.png生成的核计算的,之后是从 N_in 到 N_out 进行逐点卷积。这种变化允许构建更广泛的 CCNN—— 从 30 到 110 个隐藏通道,而不会增加网络参数或计算复杂度。

正确初始化核生成器网络 G_Kernel。该研究观察到,在以前的研究中核生成器网络没有正确初始化。在初始化前,人们希望卷积层的输入和输出的方差保持相等,以避免梯度爆炸和消失,即 Var (x)=Var (y)。因此,卷积核被初始化为具有方差 Var (K)=gain^2 /(in channels ⋅ kernel size) 的形式,其增益取决于所使用的非线性。 然而,神经网络的初始化使输入的 unitary 方差保留在输出。因此,当用作核生成器网络时,标准初始化方法导致核具有 unitary 方差,即 Var (K)=1。结果,使用神经网络作为核生成器网络的 CNN 经历了与通道⋅内核大小成比例的特征表示方差的逐层增长。例如,研究者观察到 CKCNNs 和 FlexNets 在初始化时的 logits 大约为 1e^19。这是不可取的,这可能导致训练不稳定和需要低学习率。 为了解决这个问题,该研究要求 G_Kernel 输出方差等于 gain^2 /(in_channels⋅kernel_size)而不是 1。他们通过、1f83ab5a-083d-11ed-ba43-dac502259ad0.png重新加权核生成器网络的最后一层。因此,核生成器网络输出的方差遵循传统卷积核的初始化,而 CCNN 的 logits 在初始化时呈现单一方差。

实验结果 如下表 1-4 所示,CCNN 模型在所有任务中都表现良好。 首先是 1D 图像分类 CCNN 在多个连续基准上获得 SOTA,例如 Long Range Arena、语音识别、1D 图像分类,所有这些都在单一架构中实现的。CCNN 通常比其他方法模型更小架构更简单。 然后是 2D 图像分类:通过单一架构,CCNN 可以匹配并超越更深的 CNN。

1f9235e4-083d-11ed-ba43-dac502259ad0.jpg

对 ND 进行远程依赖建模的重要性。原则上可以将所有任务视为不考虑 2D 结构的序列任务,该研究只需改变进入核生成器网络的坐标维数,就可以在多维空间上轻松定义 CCNN。有趣的是,该研究观察到,通过在 LRA 基准测试中考虑图像和 Pathfinder 任务的 2D 特性,可以获得更好的结果(上表 3)。 在具有 2D 图像的 PathFinder 中,最大的 CCNN 获得了 96.00% 的准确率,比之前 SOTA 高出近 10 个点,并在扁平图像上的表现明显优于 CCNN。 此外,在原始 2D 数据上训练的模型显示出比它们的序列对应物更快的收敛(图 3)。具有小卷积核的 2D CNN,例如 ResNet-18,由于中间池化层缺乏细粒度的全局上下文建模,无法解决 Pathfinder。

1fa137ec-083d-11ed-ba43-dac502259ad0.png

审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 架构
    +关注

    关注

    1

    文章

    510

    浏览量

    25448
  • 深度学习
    +关注

    关注

    73

    文章

    5493

    浏览量

    120985
  • cnn
    cnn
    +关注

    关注

    3

    文章

    351

    浏览量

    22173

原文标题:解决CNN固有缺陷, CCNN凭借单一架构,实现多项SOTA

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    CISC(复杂指令)与RISC(精简指令)的区别  

    的例子如果要在RISC架构实现,将ADDRA, ADDRB中的数据读入寄 存器,相乘和将结果写回内存的操作都必须由软件来实现,比如:MOV A, ADDRA; MOV B, ADDR
    发表于 07-30 17:21

    请问如何使用AT CIPSEND或AT CIPSENDBUF发送多个数据包?

    我可以使用 AT CIPSEND 发送单个数据包。但是我必须发送一系列二进制数据包。如何使用AT CISEND或AT CIPSENDBUF发送多个数据包,什么是正确的算法? 到目前为止,我尝试
    发表于 07-15 07:37

    CNN多个领域中的应用

    ,通过多层次的非线性变换,能够捕捉到数据中的隐藏特征;而卷积神经网络(CNN),作为神经网络的一种特殊形式,更是图像识别、视频处理等领域展现出了卓越的性能。本文旨在深入探究深度学习、
    的头像 发表于 07-08 10:44 1001次阅读

    CNN的定义和优势

    CNN是模型还是算法的问题,实际它兼具了两者的特性,但更侧重于作为一种模型存在。本文将从CNN的定义、结构、原理、应用等多个方面进行深入探讨,旨在全面解析
    的头像 发表于 07-05 17:37 4162次阅读

    如何利用CNN实现图像识别

    卷积神经网络(CNN)是深度学习领域中一种特别适用于图像识别任务的神经网络结构。它通过模拟人类视觉系统的处理方式,利用卷积、池化等操作,自动提取图像中的特征,进而实现高效的图像识别。本文将从CNN的基本原理、构建过程、训练策略以
    的头像 发表于 07-03 16:16 1140次阅读

    卷积神经网络cnn模型有哪些

    (Convolutional Layer) 卷积层是CNN的核心,用于提取图像的局部特征。卷积操作通过滑动窗口(滤波器或卷积核)输入数据上进行计算,生成特征图(Feature Map)。卷积核的权重在训练
    的头像 发表于 07-02 15:24 666次阅读

    NB81是否支持OneNet SOTA功能?应该如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,应该如何激活SOTA
    发表于 06-04 06:14

    旋变位置不变的情况下,当使能SOTA功能与关闭SOTA功能时,APP中DSADC采样得到的旋变sin和cos两者值不一样,为什么?

    旋变位置不变的情况下,当使能SOTA功能与关闭SOTA功能时,APP中DSADC采样得到的旋变sin和cos两者值不一样,用示波器采的输入到MCU端的差分电压是一样的,难道是SOTA使能后影响了MCU芯片内部的等效阻抗吗,有专家
    发表于 05-17 08:13

    stm32读sd卡单个数据块最后80个字节全是0,怎么crc还校验正确?

    stm32 读sd卡单个数据块最后80个字节全是0,怎么crc还校验正确。PS. 用的是SDIO口,4bit总线,1M的SDIO_CK.
    发表于 04-25 07:19

    eX700M系列HMI实现港口设备数据

    eX700M系列HMI帮助国内某信息化公司实现港口设备的数据采集、处理和云,推动港口设备信息化。
    的头像 发表于 04-17 11:03 356次阅读
    宏<b class='flag-5'>集</b>eX700M系列HMI<b class='flag-5'>实现</b>港口设备<b class='flag-5'>数据</b><b class='flag-5'>上</b>云

    使用Jenkins和单个模板部署多个Kubernetes组件

    持续集成和部署中,我们通常需要部署多个实例或组件到Kubernetes集群中。通过Jenkins的管道脚本,我们可以自动化这个过程。本文中,我将演示如何使用Jenkins Pipeline及
    的头像 发表于 01-02 11:40 713次阅读
    使用Jenkins和<b class='flag-5'>单个</b>模板部署<b class='flag-5'>多个</b>Kubernetes组件

    语音数据智能客服系统中的应用与挑战

    一、引言 随着互联网和移动设备的普及,客户与企业的交互方式正在发生深刻变化。智能客服系统作为连接客户与企业的桥梁,发挥着越来越重要的作用。语音数据智能客服系统中具有广泛的应用,能够
    的头像 发表于 12-25 09:46 439次阅读

    语音数据人工智能中的应用与挑战

    人工智能中的应用、面临的挑战以及未来的发展趋势。 二、语音数据人工智能中的应用 语音识别:语音数据
    的头像 发表于 12-14 15:00 651次阅读

    什么是SIMT和SIMD?SIMT和SMID硬件实现主要的区别有哪些

    ,计算机处理器可以同时对多个数据元素执行相同的操作,从而能够单个时钟周期内完成多个计算操作。这种并行计算方式
    的头像 发表于 12-07 14:31 2852次阅读

    低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

    下图展示了Monkey的卓越性能, 18 个不同的数据上进行测试的结果表明,Monkey能够很好地胜任图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务,
    的头像 发表于 12-04 15:33 1295次阅读
    低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型