单个CNN就能够在多个数据集上实现SOTA-电子发烧友网

在 VGG、U-Net、TCN 网络中... CNN 虽然功能强大，但必须针对特定问题、数据类型、长度和分辨率进行定制，才能发挥其作用。我们不禁会问，可以设计出一个在所有这些网络中都运行良好的单一 CNN 吗？本文中，来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN，单个 CNN 就能够在多个数据集（例如 LRA）上实现 SOTA ！

1998 年 LeCun 等人提出卷积神经网络 (CNN)，这是一类广泛用于机器学习的深度学习模型。由于 CNN 具有高性能和高效率等特点，使其在跨序列、视觉和高维数据的多个应用程序中实现 SOTA 性能。然而，CNN（以及一般的神经网络）存在一个严重缺陷，这些架构必须针对特定应用进行定制，以便处理不同的数据长度、分辨率和维度。这反过来又导致大量特定于任务的 CNN 架构出现。数据可以有许多不同的长度，例如图像可以是 32x32 或 1024x1024。标准 CNN 存在的问题是，它们的卷积核是局部的，这需要为每个长度定制一个精心选择的步长和池化层来捕获整个上下文自定义架构。此外，许多数据本质上是连续的，在不同的分辨率下具有相同的语义，例如图像可以在任意分辨率下捕获，并具有相同的语义内容，音频可以在 16kHz 或 44.1kHz 采样，但人耳听起来仍然是相同的。然而，由于卷积核的离散性，传统的 CNN 不能跨分辨率使用。当考虑具有相同 CNN 的不同维度数据时，这两个问题会进一步加剧，例如序列（1D）、视觉（2D）和高维数据（3D、4D），因为不同的维度以不同的特征长度和分辨率运行，例如一秒音频的长度很容易达到 16000，这与基准数据集中的图像大小形成强烈对比。在本文中，研究者提出了迈向通用 CNN 架构。其目标是构建一个单一的 CNN 架构，可以用于任意分辨率、长度和维度的数据。标准 CNN 需要特定于任务的架构，因为其卷积核的离散性将内核绑定到特定的数据分辨率，并且由于构建大型离散卷积核所需的大量参数，它们不适合对全局上下文进行建模。因此，为了构建一个通用的 CNN 架构，关键是开发一个分辨率不可知的卷积层，该卷积层能够以参数有效的方式对远程依赖关系进行建模。该研究入选 ICML 2022 。

论文地址：https://arxiv.org/pdf/2206.03398.pdf
代码地址：https://github.com/david-knigge/ccnn

本文的贡献如下：

该研究提出 Continuous CNN（CCNN）：一个简单、通用的 CNN，可以跨数据分辨率和维度使用，而不需要结构修改。CCNN 在序列 (1D)、视觉 (2D) 任务、以及不规则采样数据和测试时间分辨率变化的任务上超过 SOTA；
该研究对现有的 CCNN 方法提供了几种改进，使它们能够匹配当前 SOTA 方法，例如 S4。主要改进包括核生成器网络的初始化、卷积层修改以及 CNN 的整体结构。

连续核卷积 连续核卷积将小型神经网络

作为核生成器网络，同时将卷积核参数化为连续函数。该网络将坐标

映射到该位置的卷积核值：

（图 1a）。通过将 K 个坐标

的向量通过 G_Kernel，可以构造一个大小相等的卷积核 K，即

。随后，在输入信号

和生成的卷积核

之间进行卷积运算，以构造输出特征表示

，即

。

任意数据维度的一般操作。通过改变输入坐标 c_i 的维数 D，核生成器网络 G_Kernel 可用于构造任意维数的卷积核。因此可以使用相同的操作来处理序列 D=1、视觉 D=2 和更高维数据 D≥3。不同输入分辨率的等效响应。如果输入信号 x 有分辨率变化，例如最初在 8KHz 观察到的音频现在在 16KHz 观察到，则与离散卷积核进行卷积以产生不同的响应，因为核将在每个分辨率下覆盖不同的输入子集。另一方面，连续核是分辨率无关的，因此无论输入的分辨率如何，它都能够识别输入。当以不同的分辨率（例如更高的分辨率）呈现输入时，通过核生成器网络传递更精细的坐标网格就足够了，以便以相应的分辨率构造相同的核。对于以分辨率 r (1) 和 r (2) 采样的信号 x 和连续卷积核 K，两种分辨率下的卷积大约等于与分辨率变化成比例的因子：

CCNN：在 ND 中建模远程依赖关系 具有连续核卷积的残差块改进。该研究对 FlexNet 架构进行了修改，其残差网络由类似于 S4 网络的块组成。CCNN 架构如下图 2 所示。

基于这些观察，该研究构建了 FlexConv 的深度（depth-wise）可分离版本，其中通道（channel-wise）卷积是使用核生成器网络

生成的核计算的，之后是从 N_in 到 N_out 进行逐点卷积。这种变化允许构建更广泛的 CCNN—— 从 30 到 110 个隐藏通道，而不会增加网络参数或计算复杂度。

正确初始化核生成器网络 G_Kernel。该研究观察到，在以前的研究中核生成器网络没有正确初始化。在初始化前，人们希望卷积层的输入和输出的方差保持相等，以避免梯度爆炸和消失，即 Var (x)=Var (y)。因此，卷积核被初始化为具有方差 Var (K)=gain^2 /(in channels ⋅ kernel size) 的形式，其增益取决于所使用的非线性。然而，神经网络的初始化使输入的 unitary 方差保留在输出。因此，当用作核生成器网络时，标准初始化方法导致核具有 unitary 方差，即 Var (K)=1。结果，使用神经网络作为核生成器网络的 CNN 经历了与通道⋅内核大小成比例的特征表示方差的逐层增长。例如，研究者观察到 CKCNNs 和 FlexNets 在初始化时的 logits 大约为 1e^19。这是不可取的，这可能导致训练不稳定和需要低学习率。为了解决这个问题，该研究要求 G_Kernel 输出方差等于 gain^2 /（in_channels⋅kernel_size）而不是 1。他们通过、

重新加权核生成器网络的最后一层。因此，核生成器网络输出的方差遵循传统卷积核的初始化，而 CCNN 的 logits 在初始化时呈现单一方差。

实验结果 如下表 1-4 所示，CCNN 模型在所有任务中都表现良好。首先是 1D 图像分类 CCNN 在多个连续基准上获得 SOTA，例如 Long Range Arena、语音识别、1D 图像分类，所有这些都在单一架构中实现的。CCNN 通常比其他方法模型更小架构更简单。然后是 2D 图像分类：通过单一架构，CCNN 可以匹配并超越更深的 CNN。

对 ND 进行远程依赖建模的重要性。原则上可以将所有任务视为不考虑 2D 结构的序列任务，该研究只需改变进入核生成器网络的坐标维数，就可以在多维空间上轻松定义 CCNN。有趣的是，该研究观察到，通过在 LRA 基准测试中考虑图像和 Pathfinder 任务的 2D 特性，可以获得更好的结果（上表 3）。在具有 2D 图像的 PathFinder 中，最大的 CCNN 获得了 96.00% 的准确率，比之前 SOTA 高出近 10 个点，并在扁平图像上的表现明显优于 CCNN。此外，在原始 2D 数据上训练的模型显示出比它们的序列对应物更快的收敛（图 3）。具有小卷积核的 2D CNN，例如 ResNet-18，由于中间池化层缺乏细粒度的全局上下文建模，无法解决 Pathfinder。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

架构

架构

+关注

关注
1

文章
516

浏览量
25497
深度学习

深度学习

+关注

关注
73

文章
5508

浏览量
121295
cnn

cnn

+关注

关注
3

文章
353

浏览量
22251

原文标题：解决CNN固有缺陷， CCNN凭借单一架构，实现多项SOTA

文章出处：【微信号：CVSCHOOL，微信公众号：OpenCV学堂】欢迎添加关注！文章转载请注明出处。

Mamba入局图像复原,达成新SOTA

MambaIRv2，更高性能、更高效率！另外还有ACM MM 2024上的Freqmamba方法，在图像去雨任务中取得了SOTA性能！显然，这种基于Mamba的方法在图像复原领域，比

发表于 12-30 18:09 •149次阅读

Mamba入局图像复原,达成新<b class='flag-5'>SOTA</b>

在单个C2000™MCU上使用FCL和SFRA进行双轴电机控制

电子发烧友网站提供《在单个C2000™MCU上使用FCL和SFRA进行双轴电机控制.pdf》资料免费下载

发表于 09-14 09:40 •0次下载

<b class='flag-5'>在</b><b class='flag-5'>单个</b>C2000™MCU<b class='flag-5'>上</b>使用FCL和SFRA进行双轴电机控制

CISC（复杂指令集）与RISC（精简指令集）的区别　　

的例子如果要在RISC架构上实现，将ADDRA, ADDRB中的数据读入寄存器，相乘和将结果写回内存的操作都必须由软件来实现，比如：MOV A, ADDRA; MOV B, ADDR

发表于 07-30 17:21

请问如何使用AT CIPSEND或AT CIPSENDBUF发送多个数据包？

我可以使用 AT CIPSEND 发送单个数据包。但是我必须发送一系列二进制数据包。如何使用AT CISEND或AT CIPSENDBUF发送多个数据包，什么是正确的算法？到目前为止，我尝试

发表于 07-15 07:37

20个数据可以训练神经网络吗

当然可以，20个数据点对于训练一个神经网络来说可能非常有限，但这并不意味着它们不能用于训练。实际上，神经网络可以训练在非常小的数据集

发表于 07-11 10:29 •965次阅读

CNN在多个领域中的应用

，通过多层次的非线性变换，能够捕捉到数据中的隐藏特征；而卷积神经网络（CNN），作为神经网络的一种特殊形式，更是在图像识别、视频处理等领域展现出了卓越的性能。本文旨在深入探究深度学习、

发表于 07-08 10:44 •2008次阅读

CNN的定义和优势

CNN是模型还是算法的问题，实际上它兼具了两者的特性，但更侧重于作为一种模型存在。本文将从CNN的定义、结构、原理、应用等多个方面进行深入探讨，旨在全面解析

发表于 07-05 17:37 •4305次阅读

如何利用CNN实现图像识别

卷积神经网络（CNN）是深度学习领域中一种特别适用于图像识别任务的神经网络结构。它通过模拟人类视觉系统的处理方式，利用卷积、池化等操作，自动提取图像中的特征，进而实现高效的图像识别。本文将从CNN的基本原理、构建过程、训练策略以

发表于 07-03 16:16 •1438次阅读

cnn卷积神经网络三大特点是什么

（Local Connectivity）局部连接是CNN的核心特点之一，它允许网络在处理图像时只关注局部区域的特征。与传统的全连接神经网络不同，CNN的卷积层只对输入数据的局部区域进

发表于 07-03 09:26 •1412次阅读

卷积神经网络cnn模型有哪些

（Convolutional Layer）卷积层是CNN的核心，用于提取图像的局部特征。卷积操作通过滑动窗口（滤波器或卷积核）在输入数据上进行计算，生成特征图（Feature Map）。卷积核的权重在训练

发表于 07-02 15:24 •746次阅读

NB81是否支持OneNet SOTA功能？应该如何激活SOTA？

NB81是否支持OneNet SOTA功能？可以支持，应该如何激活SOTA？

发表于 06-04 06:14

基于毫米波雷达的手势识别神经网络

出的网络的有效性，我们将其与其他四种常用于动作识别的深度学习网络进行了比较：CNN、3D-CNN、CNNLSTM和CNN-GRU。我们在收集的手势数

发表于 05-23 12:12

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，为什么？

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，用示波器采的输入到MCU端的差分电压是一样的，难道是SOTA使能后影响了MCU芯片内部的等效阻抗吗，有专家

发表于 05-17 08:13

stm32读sd卡单个数据块最后80个字节全是0，怎么crc还校验正确？

stm32 读sd卡单个数据块最后80个字节全是0，怎么crc还校验正确。PS. 用的是SDIO口，4bit总线，1M的SDIO_CK.

发表于 04-25 07:19

宏集eX700M系列HMI实现港口设备数据上云

宏集eX700M系列HMI帮助国内某信息化公司实现港口设备的数据采集、处理和上云，推动港口设备信息化。

发表于 04-17 11:03 •383次阅读

搜索历史

单个CNN就能够在多个数据集上实现SOTA

评论