比CNN表现更好,CV领域全新卷积操作OctConv厉害在哪里?-电子发烧友网

CNN卷积神经网络问世以来，在计算机视觉领域备受青睐，与传统的神经网络相比，其参数共享性和平移不变性，使得对于图像的处理十分友好，然而，近日由Facebook AI、新家坡国立大学、360人工智能研究院的研究人员提出的一种新的卷积操作OctConv使得在图像处理性能方面得到了重大突破与提升，OctConv和CNN中的卷积有什么不同呢？

论文下载地址：

https://arxiv.org/pdf/1904.05049.pdf

CNN网络中的卷积层主要用来提取图像特征，如下图所示，利用卷积核（也称滤波器）对输入图像的每个像素进行卷积操作得到特征图，由于图像中相邻像素的特征相似性，卷积核横扫每个位置，独立的存储自己的特征描述符，忽略空间上的一致性，使得特征图在空间维度上存在大量的冗余。

图1 普通卷积操作示意图

OctConv主要基于于处理多空间频率的特征映射并减少空间冗余的问题提出的。

原文地址：

https://export.arxiv.org/pdf/1904.05049

下面文摘菌将从论文的四个部分展开对OctConv原理的阐述。

Why?—OctConv之诞生

文章摘要（Abstract)部分指出，在自然图像中，信息以不同的频率传输，其中高频率通常以细节进行编码，而较低频率通常以总体结构进行编码，同理卷积层的输出可以看做不同频率的信息混合，在论文中，研究者提出通过频率对特征融合图进行分解，并设计出了一种新的Octave卷积（OctConv）操作，旨在存储和处理在空间上变化缓慢的较低分辨率的特征图，从而降低内存和计算成本。与现存的多尺度方法不同，OctConv是一种单一、通用、即插即用的卷积单元，可以直接代替普通卷积，而无需调整网络结构。

OctConv与那些用于构建更优拓扑或者减少分组或深度卷积中信道冗余的方法是正交和互补的。

实验表明，通过使用OctConv替代普通卷积，能很好的提高语音和图像识别任务中的精度，同时降低内存和计算成本，一个配备有OctConv的ResNet-152能够以仅仅22.2 GFLOP在ImageNet数据集上达到82.5%的top-1分类准确率。

What?—初探OctConv

论文Introduction（介绍）部分基于CNN现存的空间维度冗余问题引出了下图：

图2 论文思路阐述图

（a）动机：研究表明，自然图像可以分解为低空间频率和高空间频率两部分；

（b）卷积层的输出图也可以根据空间频率进行分解和分组；

（c）所提出的多频特征表示将平滑变化的低频映射存储字低分辨率张量中，以减少空间冗余；

（d）所提出的OctConv直接作用于这个表示。它会更新每个组的信息，并进一步支持组之间的信息交换。

具体解释为：如图 2(a) 所示，自然图像可以分解为描述平稳变化结构的低空间频率分量和描述快速变化的精细细节的高空间频率分量。类似地，我们认为卷积层的输出特征映射也可以分解为不同空间频率的特征，并提出了一种新的多频特征表示方法，将高频和低频特征映射存储到不同的组中，如图 2(b) 所示。因此，通过相邻位置间的信息共享，可以安全地降低低频组的空间分辨率，减少空间冗余，如图 2(c) 所示。

How?—再探OctConv

论文Method（方法）部分：octave feature 减少了空间冗余，比原始表示更加紧凑。然而，由于输入特征的空间分辨率不同，传统卷积不能直接对这种表示进行操作。避免这个问题的一种简单方法是将低频部分上采样到原始的空间分辨率，将它与连接起来，然后进行卷积，这将导致额外的计算和内存开销。为了充分利用紧凑的多频特征表示，我们提出 Octave Convolution，它可以直接在分解张量X={XH，XL}上运行，而不需要任何额外的计算或内存开销。

Octave Convolution的设计目标是有效地处理相应张量中的低频和高频分量，同时使得Octave特征表示的高频分量和低频分量之间能够有效通信。设X,Y为分解输入和输出张量，那么输出的高频和低频信号将由下式给出：

其中H→H，L→L表示自身的更新，L→H，H→L表示高频与低频分量之间的通信，如图3所示绿色箭头表示信息更新，红色箭头表示两个频率之间的信息交换。

图3 Octave Convolution示意图

同理，我们将卷积核分解为高频和低频W={WH,WL}，WH=WH→H+WL→H；WL=WL→L+WH→L，如图4所示：

图3 Octave Convolution kernel示意图

对于低频特征所使用的低频所占比例a的不同，当a=0时（即没有低频成分），OctConv就会退化为普通卷积。经过实验评估k×k Octave 卷积核与普通卷积核等价，即二者具有完全相同的参数量。

To do—Just do it

论文的实验部分：研究人员验证了提出的Octave卷积对于2D和3D网络的效能和效率，首先展示了ImageNet图像分类的控制变量研究，然后将其与当前最优的方法进行了比较。之后研究人员使用Kinetics-400和Kinetics-600数据集，展示了提出的OctConv也适用于3D CNN。

图4 ImageNet上的控制变量结果图

上表为论文中的表8，视频中的动作识别、控制变量研究结果统计。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
45985
cnn

cnn

+关注

关注
3

文章
352

浏览量
22206

原文标题：比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

文章出处：【微信号：BigDataDigest，微信公众号：大数据文摘】欢迎添加关注！文章转载请注明出处。

卷积神经网络有何用途卷积神经网络通常运用在哪里

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理、生物信息学等领域。本文将介绍卷积神

发表于 07-11 14:43 •2323次阅读

卷积神经网络的基本概念、原理及特点

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习算法，它在图像识别、视频分析、自然语言处理等领域有着广泛的应用。本文将详细介绍卷积神

发表于 07-11 14:38 •1033次阅读

卷积神经网络的卷积操作

卷积神经网络（Convolutional Neural Network, CNN）中的卷积操作是其核心组成部分，对于图像识别、语音识别、自然语言处理等

发表于 07-04 16:10 •1290次阅读

如何利用CNN实现图像识别

卷积神经网络（CNN）是深度学习领域中一种特别适用于图像识别任务的神经网络结构。它通过模拟人类视觉系统的处理方式，利用卷积、池化等操作，自动

发表于 07-03 16:16 •1341次阅读

卷积神经网络实现示例

分类。 1. 卷积神经网络的基本概念 1.1 卷积层（Convolutional Layer）卷积层是CNN中的核心组件，用于提取图像特征。卷积

发表于 07-03 10:51 •434次阅读

卷积神经网络的实现原理

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。本文将详细介绍卷积神经网络的

发表于 07-03 10:49 •543次阅读

卷积神经网络计算过程和步骤

卷积神经网络（Convolutional Neural Network, CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。本文将详细介绍卷积神经网络的计算

发表于 07-03 09:36 •562次阅读

卷积神经网络的组成部分有哪些

卷积层、池化层、激活函数、全连接层、损失函数、优化算法等，并探讨它们在CNN中的作用和应用。卷积层（Convolutional Layer）卷积层是

发表于 07-03 09:31 •985次阅读

cnn卷积神经网络分类有哪些

卷积神经网络（CNN）是一种深度学习模型，广泛应用于图像分类、目标检测、语义分割等领域。本文将详细介绍CNN在分类任务中的应用，包括基本结构、关键技术、常见网络架构以及实际应用案例。

发表于 07-03 09:28 •616次阅读

cnn卷积神经网络三大特点是什么

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。CNN具有以下三大特点：局

发表于 07-03 09:26 •1004次阅读

卷积神经网络可以通过输出反推到输入吗

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。CNN通过

发表于 07-03 09:17 •635次阅读

卷积神经网络的原理与实现

1.卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。卷积神经网络是一种前馈

发表于 07-02 16:47 •566次阅读

CNN模型的基本原理、结构、训练过程及应用领域

卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。CNN模型的核心是

发表于 07-02 15:26 •3485次阅读

卷积神经网络cnn模型有哪些

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。 CNN的基本概念 1.1

发表于 07-02 15:24 •717次阅读

卷积神经网络cnn中池化层的主要作用

卷积神经网络（Convolutional Neural Network，CNN）是深度学习领域中一种重要的神经网络结构，广泛应用于图像识别、语音识别、自然语言处理等领域。在

发表于 07-02 14:50 •1196次阅读

搜索历史

比CNN表现更好,CV领域全新卷积操作OctConv厉害在哪里?

评论

卷积神经网络有何用途卷积神经网络通常运用在哪里

卷积神经网络的基本概念、原理及特点

卷积神经网络的卷积操作

如何利用CNN实现图像识别

卷积神经网络实现示例

卷积神经网络的实现原理

卷积神经网络计算过程和步骤

卷积神经网络的组成部分有哪些

cnn卷积神经网络分类有哪些

cnn卷积神经网络三大特点是什么

卷积神经网络可以通过输出反推到输入吗

卷积神经网络的原理与实现

CNN模型的基本原理、结构、训练过程及应用领域

卷积神经网络cnn模型有哪些

卷积神经网络cnn中池化层的主要作用