深度学习模型压缩与加速综述-电子发烧友网

目前在深度学习领域分类两个派别，一派为学院派，研究强大、复杂的模型网络和实验方法，为了追求更高的性能；另一派为工程派，旨在将算法更稳定、高效的落地在硬件平台上，效率是其追求的目标。复杂的模型固然具有更好的性能，但是高额的存储空间、计算资源消耗是使其难以有效的应用在各硬件平台上的重要原因。所以，卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战，深度学习模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。本文主要介绍深度学习模型压缩和加速算法的三个方向，分别为加速网络结构设计、模型裁剪与稀疏化、量化加速。

I. 加速网络设计

分组卷积

分组卷积即将输入的feature maps分成不同的组（沿channel维度进行分组），然后对不同的组分别进行卷积操作，即每一个卷积核至于输入的feature maps的其中一组进行连接，而普通的卷积操作是与所有的feature maps进行连接计算。分组数k越多，卷积操作的总参数量和总计算量就越少（减少k倍）。然而分组卷积有一个致命的缺点就是不同分组的通道间减少了信息流通，即输出的feature maps只考虑了输入特征的部分信息，因此在实际应用的时候会在分组卷积之后进行信息融合操作，接下来主要讲两个比较经典的结构，ShuffleNet[1]和MobileNet[2]结构。

1) ShuffleNet结构：

如上图所示，图a是一般的group convolution的实现效果，其造成的问题是，输出通道只和输入的某些通道有关，导致全局信息流通不畅，网络表达能力不足。图b就是shufflenet结构，即通过均匀排列，把group convolution后的feature map按通道进行均匀混合，这样就可以更好的获取全局信息了。图c是操作后的等价效果图。在分组卷积的时候，每一个卷积核操作的通道数减少，所以可以大量减少计算量。

2)MobileNet结构：

如上图所示，mobilenet采用了depthwise separable convolutions的思想，采用depthwise (或叫channelwise)和1x1 pointwise的方法进行分解卷积。其中depthwise separable convolutions即对每一个通道进行卷积操作，可以看成是每组只有一个通道的分组卷积，最后使用开销较小的1x1卷积进行通道融合，可以大大减少计算量。

分解卷积

分解卷积，即将普通的kxk卷积分解为kx1和1xk卷积，通过这种方式可以在感受野相同的时候大量减少计算量，同时也减少了参数量，在某种程度上可以看成是使用2k个参数模拟k*k个参数的卷积效果，从而造成网络的容量减小，但是可以在较少损失精度的前提下，达到网络加速的效果。

右图是在图像语义分割任务上取得非常好的效果的ERFNet[3]的主要模块，称为NonBottleNeck结构借鉴自ResNet[4]中的Non-Bottleneck结构，相应改进为使用分解卷积替换标准卷积，这样可以减少一定的参数和计算量，使网络更趋近于efficiency。

Bottleneck结构

右图为ENet[5]中的Bottleneck结构，借鉴自ResNet中的Bottleneck结构，主要是通过1x1卷积进行降维和升维，能在一定程度上能够减少计算量和参数量。其中1x1卷积操作的参数量和计算量少，使用其进行网络的降维和升维操作（减少或者增加通道数）的开销比较小，从而能够达到网络加速的目的。

C.ReLU[7]结构

C.ReLU来源于CNNs中间激活模式引发的。输出节点倾向于是"配对的"，一个节点激活是另一个节点的相反面，即其中一半通道的特征是可以通过另外一半通道的特征生成的。根据这个观察，C.ReLU减少一半输出通道(output channels)的数量，然后通过其中一半通道的特征生成另一半特征，这里使用 negation使其变成双倍，最后通过scale操作使得每个channel(通道)的斜率和激活阈值与其相反的channel不同。

SqueezeNet[8]结构

SqueezeNet思想非常简单，就是将原来简单的一层conv层变成两层:squeeze层+expand层，各自带上Relu激活层。在squeeze层里面全是1x1的卷积kernel，数量记为S11;在expand层里面有1x1和3x3的卷积kernel，数量分别记为E11和E33，要求S11 < input map number。expand层之后将 1x1和3x3的卷积output feature maps在channel维度拼接起来。

神经网络搜索[18]

神经结构搜索（Neural Architecture Search，简称NAS）是一种自动设计神经网络的技术，可以通过算法根据样本集自动设计出高性能的网络结构，在某些任务上甚至可以媲美人类专家的水准，甚至发现某些人类之前未曾提出的网络结构，这可以有效的降低神经网络的使用和实现成本。

NAS的原理是给定一个称为搜索空间的候选神经网络结构集合，用某种策略从中搜索出最优网络结构。神经网络结构的优劣即性能用某些指标如精度、速度来度量，称为性能评估，可以通过NAS自动搜索出高效率的网络结构。

本节主要介绍了模型模型设计的思路，同时对模型的加速设计以及相关缺陷进行分析。总的来说，加速网络模型设计主要是探索最优的网络结构，使得较少的参数量和计算量就能达到类似的效果。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3406

浏览量
49457
深度学习

深度学习

+关注

关注
73

文章
5526

浏览量
121832

原文标题：深度学习模型压缩与加速综述

文章出处：【微信号：Imgtec，微信公众号：Imagination Tech】欢迎添加关注！文章转载请注明出处。

在OpenVINO™工具套件的深度学习工作台中无法导出INT8模型怎么解决？

无法在 OpenVINO™ 工具套件的深度学习（DL）工作台中导出 INT8 模型

发表于 03-06 07:54

深度学习模型的鲁棒性优化

深度学习模型的鲁棒性优化是一个复杂但至关重要的任务，它涉及多个方面的技术和策略。以下是一些关键的优化方法：一、数据预处理与增强数据清洗：去除数据中的噪声和异常值，这是提高模型鲁棒

发表于 11-11 10:25 •491次阅读

GPU深度学习应用案例

GPU在深度学习中的应用广泛且重要，以下是一些GPU深度学习应用案例：一、图像识别图像识别是深度学习

发表于 10-27 11:13 •615次阅读

FPGA加速深度学习模型的案例

FPGA（现场可编程门阵列）加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速

发表于 10-25 09:22 •538次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大

发表于 10-23 15:25 •1889次阅读

深度学习GPU加速效果如何

图形处理器（GPU）凭借其强大的并行计算能力，成为加速深度学习任务的理想选择。

发表于 10-17 10:07 •325次阅读

深度学习模型有哪些应用场景

深度学习模型作为人工智能领域的重要分支，已经在多个应用场景中展现出其巨大的潜力和价值。这些应用不仅改变了我们的日常生活，还推动了科技进步和产业升级。以下将详细探讨深度

发表于 07-16 18:25 •2705次阅读

深度神经网络模型量化的基本方法

尽量保持模型的性能。这一技术通过降低模型参数的位数来显著减小模型的大小，加速推理过程，并降低能耗，从而有助于将深度

发表于 07-15 11:26 •927次阅读

深度学习模型量化方法

深度学习模型量化是一种重要的模型轻量化技术，旨在通过减少网络参数的比特宽度来减小模型大小和加速推

发表于 07-15 11:01 •681次阅读

深度学习中的时间序列分类方法

的发展，基于深度学习的TSC方法逐渐展现出其强大的自动特征提取和分类能力。本文将从多个角度对深度学习在时间序列分类中的应用进行综述，探讨常用

发表于 07-09 15:54 •1346次阅读

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音识别、自然语言处理等领域。然而，深度学习

发表于 07-09 10:50 •1110次阅读

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型学习的基石，更是

发表于 07-04 11:49 •2732次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型

发表于 07-01 16:13 •1756次阅读

深度学习的模型优化与调试方法

深度学习模型在训练过程中，往往会遇到各种问题和挑战，如过拟合、欠拟合、梯度消失或爆炸等。因此，对深度学习

发表于 07-01 11:41 •1163次阅读

【大语言模型：原理与工程实践】核心技术综述

的具体需求，这通常需要较少量的标注数据。多任务学习和迁移学习: LLMs利用在预训练中积累的知识，可以通过迁移学习在相关任务上快速适应，有时还可以在一个模型中同时处理多个任务。

发表于 05-05 10:56

搜索历史

深度学习模型压缩与加速综述

评论

在OpenVINO™工具套件的深度学习工作台中无法导出INT8模型怎么解决？

深度学习模型的鲁棒性优化

GPU深度学习应用案例

FPGA加速深度学习模型的案例

AI大模型与深度学习的关系

深度学习GPU加速效果如何

深度学习模型有哪些应用场景

深度神经网络模型量化的基本方法

深度学习模型量化方法

深度学习中的时间序列分类方法

深度学习中的无监督学习方法综述

深度学习中的模型权重

深度学习模型训练过程详解

深度学习的模型优化与调试方法

【大语言模型：原理与工程实践】核心技术综述