CNN模型思路、加速算法设计及其实验样例 - 全文

自从AlexNet一举夺得ILSVRC 2012 ImageNet图像分类竞赛的冠军后，卷积神经网络（CNN）的热潮便席卷了整个计算机视觉领域。CNN模型火速替代了传统人工设计（hand-crafted）特征和分类器，不仅提供了一种端到端的处理方法，还大幅度地刷新了各个图像竞赛任务的精度，更甚者超越了人眼的精度（LFW人脸识别任务）。CNN模型在不断逼近计算机视觉任务的精度极限的同时，其深度和尺寸也在成倍增长。

表1 几种经典模型的尺寸，计算量和参数数量对比

Model Model Size(MB) Million
Mult-Adds Million
Parameters
AlexNet[1] >200 720 60
VGG16[2] >500 15300 138
GoogleNet[3] ~50 1550 6.8
Inception-v3[4] 90-100 5000 23.2

随之而来的是一个很尴尬的场景：如此巨大的模型只能在有限的平台下使用，根本无法移植到移动端和嵌入式芯片当中。就算想通过网络传输，但较高的带宽占用也让很多用户望而生畏。另一方面，大尺寸的模型也对设备功耗和运行速度带来了巨大的挑战。因此这样的模型距离实用还有一段距离。

在这样的情形下，模型小型化与加速成了亟待解决的问题。其实早期就有学者提出了一系列CNN模型压缩方法，包括权值剪值（prunning）和矩阵SVD分解等，但压缩率和效率还远不能令人满意。

近年来，关于模型小型化的算法从压缩角度上可以大致分为两类：从模型权重数值角度压缩和从网络架构角度压缩。另一方面，从兼顾计算速度方面，又可以划分为：仅压缩尺寸和压缩尺寸的同时提升速度。

本文主要讨论如下几篇代表性的文章和方法，包括SqueezeNet[5]、Deep Compression[6]、XNorNet[7]、Distilling[8]、MobileNet[9]和ShuffleNet[10]，也可按照上述方法进行大致分类：

表2 几种经典压缩方法及对比

Method Compression Approach Speed Consideration
SqueezeNet architecture No
Deep Compression weights No
XNorNet weights Yes
Distilling architecture No
MobileNet architecture Yes
ShuffleNet architecture Yes

一、SqueezeNet

1.1 设计思想

SqueezeNet是F. N. Iandola,S.Han等人于2016年的论文《SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and < 0.5MB model size》中提出的一个小型化的网络模型结构，该网络能在保证不损失精度的同时，将原始AlexNet压缩至原来的510倍左右（< 0.5MB）。

SqueezeNet的核心指导思想是——在保证精度的同时使用最少的参数。

而这也是所有模型压缩方法的一个终极目标。

基于这个思想，SqueezeNet提出了3点网络结构设计策略：

策略 1.将3x3卷积核替换为1x1卷积核。

这一策略很好理解，因为1个1x1卷积核的参数是3x3卷积核参数的1/9，这一改动理论上可以将模型尺寸压缩9倍。

策略 2.减小输入到3x3卷积核的输入通道数。

我们知道，对于一个采用3x3卷积核的卷积层，该层所有卷积参数的数量（不考虑偏置）为：

式中，N是卷积核的数量，也即输出通道数，C是输入通道数。

因此，为了保证减小网络参数，不仅仅需要减少3x3卷积核的数量，还需减少输入到3x3卷积核的输入通道数量，即式中C的数量。

策略 3.尽可能的将降采样放在网络后面的层中。

在卷积神经网络中，每层输出的特征图（feature map）是否下采样是由卷积层的步长或者池化层决定的。而一个重要的观点是：分辨率越大的特征图（延迟降采样）可以带来更高的分类精度，而这一观点从直觉上也可以很好理解，因为分辨率越大的输入能够提供的信息就越多。

上述三个策略中，前两个策略都是针对如何降低参数数量而设计的，最后一个旨在最大化网络精度。

1.2 网络架构

基于以上三个策略，作者提出了一个类似inception的网络单元结构，取名为fire module。一个fire module 包含一个squeeze 卷积层（只包含1x1卷积核）和一个expand卷积层（包含1x1和3x3卷积核）。其中，squeeze层借鉴了inception的思想，利用1x1卷积核来降低输入到expand层中3x3卷积核的输入通道数。如图1所示。

图1 Fire module结构示意图

其中，定义squeeze层中1x1卷积核的数量是s1x1，类似的，expand层中1x1卷积核的数量是e1x1， 3x3卷积核的数量是e3x3。令s1x1 < e1x1+ e3x3从而保证输入到3x3的输入通道数减小。SqueezeNet的网络结构由若干个 fire module 组成，另外文章还给出了一些架构设计上的细节：

为了保证1x1卷积核和3x3卷积核具有相同大小的输出，3x3卷积核采用1像素的zero-padding和步长
squeeze层和expand层均采用RELU作为激活函数
在fire9后采用50%的dropout
由于全连接层的参数数量巨大，因此借鉴NIN[11]的思想，去除了全连接层而改用global average pooling。

1.3 实验结果

表3 不同压缩方法在ImageNet上的对比实验结果[5]

CNN模型思路、加速算法设计及其实验样例

上表显示，相比传统的压缩方法，SqueezeNet能在保证精度不损（甚至略有提升）的情况下，达到最大的压缩率，将原始AlexNet从240MB压缩至4.8MB，而结合Deep Compression后更能达到0.47MB，完全满足了移动端的部署和低带宽网络的传输。

此外，作者还借鉴ResNet思想，对原始网络结构做了修改，增加了旁路分支，将分类精度提升了约3%。

1.4 速度考量

尽管文章主要以压缩模型尺寸为目标，但毋庸置疑的一点是，SqueezeNet在网络结构中大量采用1x1和3x3卷积核是有利于速度的提升的，对于类似caffe这样的深度学习框架，在卷积层的前向计算中，采用1x1卷积核可避免额外的im2col操作，而直接利用gemm进行矩阵加速运算，因此对速度的优化是有一定的作用的。然而，这种提速的作用仍然是有限的，另外，SqueezeNet采用了9个fire module和两个卷积层，因此仍需要进行大量常规卷积操作，这也是影响速度进一步提升的瓶颈。

二、Deep Compression

Deep Compression出自S.Han 2016 ICLR的一篇论文《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》。该文章获得了ICLR 2016的最佳论文奖，同时也具有里程碑式的意义，引领了CNN模型小型化与加速研究方向的新狂潮，使得这一领域近两年来涌现出了大量的优秀工作与文章。

2.1 算法流程

与前面的“架构压缩派”的SqueezeNet不同，Deep Compression是属于“权值压缩派”的。而两篇文章均出自S.Han团队，因此两种方法结合，双剑合璧，更是能达到登峰造极的压缩效果。这一实验结果也在上表中得到验证。

Deep Compression的算法流程包含三步，如图2所示：

图2 Deep Compression Pipeline

1、Pruning(权值剪枝)

剪枝的思想其实早已在早期论文中可以窥见，LeCun等人曾经就利用剪枝来稀疏网络，减小过拟合的风险，提升网络泛化性。

图3是MNIST上训练得到的LeNet conv1卷积层中的参数分布，可以看出，大部分权值集中在0处附近，对网络的贡献较小，在剪值中，将0值附近的较小的权值置0，使这些权值不被激活，从而着重训练剩下的非零权值，最终在保证网络精度不变的情况下达到压缩尺寸的目的。

实验发现模型对剪枝更敏感，因此在剪值时建议逐层迭代修剪，另外每层的剪枝比例如何自动选取仍然是一个值得深入研究的课题。

图3 LeNet conv1层权值分布图

2、Quantization (权值量化)

此处的权值量化基于权值聚类，将连续分布的权值离散化，从而减小需要存储的权值数量。

初始化聚类中心，实验证明线性初始化效果最好；

利用k-means算法进行聚类，将权值划分到不同的cluster中；

在前向计算时，每个权值由其聚类中心表示；

在后向计算时，统计每个cluster中的梯度和将其反传。

图4 权值量化前向和后向计算过程

3、Huffman encoding(霍夫曼编码)

霍夫曼编码采用变长编码将平均编码长度减小，进一步压缩模型尺寸。

2.2 模型存储

前述的剪枝和量化都是为了实现模型的更紧致的压缩，以实现减小模型尺寸的目的。

对于剪枝后的模型，由于每层大量参数为0，后续只需将非零值及其下标进行存储，文章中采用CSR（Compressed Sparse Row）来进行存储，这一步可以实现9x~13x的压缩率。

对于量化后的模型，每个权值都由其聚类中心表示（对于卷积层，聚类中心设为256个，对于全连接层，聚类中心设为32个），因此可以构造对应的码书和下标，大大减少了需要存储的数据量，此步能实现约3x的压缩率。

最后对上述压缩后的模型进一步采用变长霍夫曼编码，实现约1x的压缩率。

2.3 实验结果

表4 不同网络采用Deep Compression后的压缩率

CNN模型思路、加速算法设计及其实验样例

通过SqueezeNet+Deep Compression,可以将原始240M的AlexNet压缩至0.47M，实现约510x的压缩率。

2.4 速度考量

可以看出，Deep Compression的主要设计是针对网络存储尺寸的压缩，但在前向时，如果将存储模型读入展开后，并没有带来更大的速度提升。因此Song H.等人专门针对压缩后的模型设计了一套基于FPGA的硬件前向加速框架EIE[12]，有兴趣的可以研究一下。

三、XNorNet

二值网络一直是模型压缩和加速领域经久不衰的研究课题之一。将原始32位浮点型的权值压缩到1比特，如何最大程度地减小性能损失就成为了研究的关键。

此篇论文主要有以下几个贡献：

提出了一个BWN（Binary-Weight-Network）和XNOR-Network，前者只对网络参数做二值化，带来约32x的存储压缩和2x的速度提升，而后者对网络输入和参数都做了二值化，在实现32x存储压缩的同时带了58x的速度提升；
提出了一个新型二值化权值的算法；
第一个在大规模数据集如ImageNet上提交二值化网络结果的工作；
无需预训练，可实现training from scratch。

3.1 BWN

CNN模型思路、加速算法设计及其实验样例

即最优的二值化滤波器张量B即为原始参数的符号函数，最优的尺度因子为每个滤波器权值的绝对值的均值。

训练算法如图5所示，值得注意的是，只有在前向计算和后向传播时使用二值化后的权值，在更新参数时依然使用原始参数，这是因为如果使用二值化后的参数会导致很小的梯度下降，从而使得训练无法收敛。

3.2 XNOR-Net

在XNOR网络中，优化的目标是将两个实数向量的点乘近似到两个二值向量的点乘，即

CNN模型思路、加速算法设计及其实验样例

在卷积计算中，输入和权值均量化成了二值，因此传统的乘法计算变成了异或操作，而非二值化数据的计算只占了很小一部分。

XNOR-Net中一个典型的卷积单元如图6所示，与传统单元不同，各模块的顺序有了调整。为了减少二值化带来的精度损失，对输入数据首先进行BN归一化处理，BinActiv层用于对输入做二值化，接着进行二值化的卷积操作，最后进行pooling。

图5 BWN训练过程

图6 传统卷积单元与XNOR-Net卷积单元对比

3.3 实验结果

表5 ImageNet上二值网络与AlexNet结果对比

与ALexNet相比，BWN网络能够达到精度基本不变甚至略好，XNOR-Net由于对输入也做了二值化，性能稍降。

四、Distilling

Distilling算法是Hinton等人在论文Distilling the Knowledge in a Neural Network中提出的一种类似网络迁移的学习算法。

4.1 基本思想

Distilling直译过来即蒸馏，其基本思想是通过一个性能好的大网络来教小网络学习，从而使得小网络能够具备跟大网络一样的性能，但蒸馏后的小网络参数规模远远小于原始大网络，从而达到压缩网络的目的。

其中，训练小模型(distilled model)的目标函数由两部分组成

1) 与大模型(cumbersome model)的softmax输出的交叉熵(cross entropy)，称为软目标(soft target)。其中，softmax的计算加入了超参数温度T，用以控制输出，计算公式变为

温度T越大，输出的分布越缓和，概率zi/T越小，熵越大，但若T过大，会导致较大熵引起的不确定性增加，增加了不可区分性。

至于为何要以soft target来计算损失，作者认为，在分类问题中，真值(groundtruth)是一个确定性的，即one-hot vector。以手写数字分类来说，对于一个数字3，它的label是3的概率是1，而是其他数值的概率是0，而对于soft target，它能表征label是3的概率，假如这个数字写的像5，还可以给出label是5的一定概率，从而提供更多信息，如

数字 0 1 2 3 4 5 6 7 8 9
真值 0 0 0 1 0 0 0 0 0 0
软目标 0 0 0 0.95 0 0.048 0.002 0 0 0

2)与真值(groundtruth)的交叉熵(T=1)

训练的损失为上述两项损失的加权和，通常第二项要小很多。

4.2 实验结果

作者给出了在语音识别上的实验结果对比，如下表

表6 蒸馏模型与原始模型精度对比[8]

上表显示，蒸馏后的模型的精确度和单字错误率和用于产生软目标的10个模型的性能相当，小模型成功地学到了大模型的识别能力。

4.3 速度考量

Distilling的提出原先并非针对网络加速，而最终计算的效率仍然取决于蒸馏模型的计算规模，但理论上蒸馏后的小模型相对原始大模型的计算速度在一定程度上会有提升，但速度提升的比例和性能维持的权衡是一个值得研究的方向。

五、MobileNet

MobileNet是由Google提出的针对移动端部署的轻量级网络架构。考虑到移动端计算资源受限以及速度要求严苛，MobileNet引入了传统网络中原先采用的group思想，即限制滤波器的卷积计算只针对特定的group中的输入，从而大大降低了卷积计算量，提升了移动端前向计算的速度。

5.1 卷积分解

MobileNet借鉴factorized convolution的思想，将普通卷积操作分成两部分：

Depthwise Convolution

每个卷积核滤波器只针对特定的输入通道进行卷积操作，如下图所示，其中M是输入通道数，DK是卷积核尺寸：

图7 Depthwise Convolution

Depthwise convolution的计算复杂度为 DKDKMDFDF，其中DF是卷积层输出的特征图的大小。

Pointwise Convolution
采用1x1大小的卷积核将depthwise convolution层的多通道输出进行结合，如下图，其中N是输出通道数：

图8 Pointwise Convolution

图8 Pointwise Convolution[

Pointwise Convolution的计算复杂度为 MNDFDF

上面两步合称depthwise separable convolution

标准卷积操作的计算复杂度为DKDKMNDFDF

因此，通过将标准卷积分解成两层卷积操作，可以计算出理论上的计算效率提升比例：

对于3x3尺寸的卷积核来说，depthwise separable convolution在理论上能带来约8～9倍的效率提升。

5.2 模型架构

图9 普通卷积单元与MobileNet 卷积单元对比

MobileNet的卷积单元如上图所示，每个卷积操作后都接着一个BN操作和ReLU操作。在MobileNet中，由于3x3卷积核只应用在depthwise convolution中，因此95%的计算量都集中在pointwise convolution 中的1x1卷积中。而对于caffe等采用矩阵运算GEMM实现卷积的深度学习框架，1x1卷积无需进行im2col操作，因此可以直接利用矩阵运算加速库进行快速计算，从而提升了计算效率。

5.3 实验结果

表7 MobileNet与主流大模型在ImageNet上精度对比

CNN模型思路、加速算法设计及其实验样例

上表显示，MobileNet在保证精度不变的同时，能够有效地减少计算操作次数和参数量，使得在移动端实时前向计算成为可能。

六、ShuffleNet

ShuffleNet是Face++今年提出了一篇用于移动端前向部署的网络架构。ShuffleNet基于MobileNet的group思想，将卷积操作限制到特定的输入通道。而与之不同的是，ShuffleNet将输入的group进行打散，从而保证每个卷积核的感受野能够分散到不同group的输入中，增加了模型的学习能力。

6.1 设计思想

我们知道，卷积中的group操作能够大大减少卷积操作的计算次数，而这一改动带来了速度增益和性能维持在MobileNet等文章中也得到了验证。然而group操作所带来的另一个问题是：特定的滤波器仅对特定通道的输入进行作用，这就阻碍了通道之间的信息流传递，group数量越多，可以编码的信息就越丰富，但每个group的输入通道数量减少，因此可能造成单个卷积滤波器的退化，在一定程度上削弱了网络了表达能力。

6.2 网络架构

在此篇工作中，网络架构的设计主要有以下几个创新点：

提出了一个类似于ResNet的BottleNeck单元
借鉴ResNet的旁路分支思想，ShuffleNet也引入了类似的网络单元。不同的是，在stride=2的单元中，用concat操作代替了add操作，用average pooling代替了1x1stride=2的卷积操作，有效地减少了计算量和参数。单元结构如图10所示。

提出将1x1卷积采用group操作会得到更好的分类性能
在MobileNet中提过，1x1卷积的操作占据了约95%的计算量，所以作者将1x1也更改为group卷积，使得相比MobileNet的计算量大大减少。

提出了核心的shuffle操作将不同group中的通道进行打散，从而保证不同输入通道之间的信息传递。

ShuffleNet的shuffle操作如图11所示。

图10 ShuffleNet网络单元

图11 不同group间的shuffle操作

6.3 实验结果

表8 ShuffleNet与MobileNet在ImageNet上精度对比

CNN模型思路、加速算法设计及其实验样例

上表显示，相对于MobileNet，ShuffleNet的前向计算量不仅有效地得到了减少，而且分类错误率也有明显提升，验证了网络的可行性。

6.4 速度考量

作者在ARM平台上对网络效率进行了验证，鉴于内存读取和线程调度等因素，作者发现理论上4x的速度提升对应实际部署中约2.6x。作者给出了与原始AlexNet的速度对比，如下表。

表9 ShuffleNet与AlexNet在ARM平台上速度对比 [10]

CNN模型思路、加速算法设计及其实验样例

结束语

近几年来，除了学术界涌现的诸多CNN模型加速工作，工业界各大公司也推出了自己的移动端前向计算框架，如Google的Tensorflow、Facebook的caffe2以及苹果今年刚推出的CoreML。相信结合不断迭代优化的网络架构和不断发展的硬件计算加速技术，未来深度学习在移动端的部署将不会是一个难题。

参考文献

[1] ImageNet Classification with Deep Convolutional Neural Networks

[2] Very Deep Convolutional Networks for Large-Scale Image Recognition

[3] Going Deeper with Convolutions

[4] Rethinking the Inception Architecture for Computer Vision

[5] SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and < 0.5MB model size

[6] Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding

[7] Distilling the Knowledge in a Neural Network

[8] XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

[9] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

[10] ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

[11] Network in Network

[12] EIE: Efficient Inference Engine on Compressed Deep Neural Network

阅读全文

上一页 1 2 3 4 5全文

本文导航

计算机视觉(45543) 计算机视觉(45543)
cnn(21235) cnn(21235)

一种超级实用的步进电机调速算法

今天想分享一种超级实用的步进电机调速算法，这种算法在步进电机调速方案中可以说是一种非常优异的方案。

2022-07-20 09:39:59

2269

*的步进电机调速算法**~ 精选资料推荐

[导读] 大家好，我是逸珺。今天想分享一种超级实用的步进电机调速算法，这种算法在步进电机调速方案中可以说是一种非常优异的方案。梯形调速算法 为啥需要设计一个调速算法呢？步进电机不是给多少脉...

2021-09-01 07:53:17

加速度计和陀螺仪的数学模型和基本算法是什么？如何进行融合？

2021-11-12 07:15:08

ADC0804工作原理及其实现方式是什么

ADC分为哪几种？ADC的参数指标有哪些？ADC0804工作原理及其实现方式是什么？

2021-08-24 07:13:31

F407步进电机梯形加减速算法是如何实现的？

使用梯形/S形加减速算法。加减速算法的实现中，我没有采用之前的定时器主从模式的方式。因为没有想到如何消除在定时器中断服务程序中切换PWM波输出频率时产生的短暂延时。看来很多文章，还是试着用翻转电平的方法来产生PWM波。原理/思路...

2021-07-08 09:52:37

Github开源的数字手势识别CNN模型简析

2.概述一个简单的AI开发sampleGithub开源的数字手势识别CNN模型，识别数字0-10十一种手势类LeNet-5，两个卷积层，两个池化层，一个全连接层，一个Softmax输出层3.RKNN

2022-04-02 15:22:11

STM32：F407步进电机S形加减速算法的实现相关资料分享

项目中对步进电机运行速度有了新要求，所以尝试实现梯形加减速算法，S形加减速算法。本文主要实现S形加减速算法。原理/思路步进电机有启动频率这一概念。在启动时有一个最大启动频率，在低于最大启动频率的速度

2021-06-28 10:07:24

S型曲线加减速算法

一年前做过的S型曲线加减速算法，再次做的时候竟然犯错，在此总结记录一下，方便以后查阅，同时希望帮助初学者提供简单的参考资料（注：本项目采用的带细分的驱动器，MCU的OC比较输出模块产生50%的PWM

2021-08-31 08:55:42

S型曲线加减速算法

一年前做过的S型曲线加减速算法，再次做的时候竟然犯错，在此总结记录一下，方便以后查阅，同时希望帮助初学者提供简单的参考资料（注：本项目采用的带细分的驱动器，MCU的OC比较输出模块产生50%的PWM方波）。S型曲线的的方程，在[-5，5]的图形如下图所示：如要将此曲线应用在...

2021-09-03 06:52:10

TF之CNN：CNN实现mnist数据集预测

TF之CNN：CNN实现mnist数据集预测 96%采用placeholder用法+2层C及其max_pool法+隐藏层dropout法+输出层softmax法+目标函数cross_entropy法+

2018-12-19 17:02:40

一文详解CNN

1 CNN简介 CNN即卷积神经网络(Convolutional Neural Networks)，是一类包含卷积计算的神经网络，是深度学习（deep learning）的代表算法之一，在图像识别

2023-08-18 06:56:34

人脸检测算法及新的快速算法

人脸检测算法及新的快速算法人脸识别设备凭借着便捷的应用，以及更加新潮的技术，俘获了不少人的好感。于是，它的应用也在日益的变得更加的广泛。由中国电子学会主办的全国图形图像技术应用大会，行业专家将介绍

2013-09-26 15:13:24

介绍加速度计和陀螺仪的数学模型和基本算法

本帖翻译自IMU（加速度计和陀螺仪设备）在嵌入式应用中使用的指南。这篇文章主要介绍加速度计和陀螺仪的数学模型和基本算法，以及如何融合这两者，侧重算法、思想的讨论

2021-08-06 08:04:17

介绍加速度计和陀螺仪的数学模型和基本算法

本帖翻译自IMU（加速度计和陀螺仪设备）在嵌入式应用中使用的指南。这篇文章主要介绍加速度计和陀螺仪的数学模型和基本算法，以及如何融合这两者，侧重算法、思想的讨论介绍本指南旨在向兴趣者介绍惯性MEMS（微机电系统）传感器，特别是加速度计和陀螺仪以及其他整合IMU（惯性测量

2021-08-09 06:46:21

关于S型曲线加减速算法的知识点不看肯定后悔

关于S型曲线加减速算法的知识点不看肯定后悔

2021-10-28 08:52:37

分享一种超级实用的步进电机调速算法

[导读] 大家好，我是逸珺。今天想分享一种超级实用的步进电机调速算法，这种算法在步进电机调速方案中可以说是一种非常优异的方案。梯形调速算法为啥需要设计一个调速算法呢？步进电机不是给多少脉冲就动多少步

2021-09-03 09:05:44

加减速算法主要分为哪几种？

加减速算法是运动控制中的关键技术之一，也是实现高速、高效率的关键因素之一。在工业控制中，一方面要求加工的过程平滑、稳定，柔性冲击小；另一方面需要响应时间快，反应迅速。在保证控制精度的前提下来提高加工

2021-07-07 07:37:15

压缩模型会加速推理吗？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 将简单的 CNN 导入到 STM32L462RCT我发现压缩模型对推理时间没有影响。aiRun 程序在 8

2023-01-29 06:24:08

启动停止频繁步进电机加减速算法目的是什么

电机加减速算法目的：对于上述2、3的场合，步进电机容易出现丢步和过冲甚至无法启动的现象，所以加入该算法来解决这一问题。3. 算法实现3.1加减速期望曲线...

2021-07-07 07:58:50

基于 FPGA 的目标检测网络加速电路设计

CNN 更容易满足实际应用场景中的低功耗、实时性要求。而且目标检测算法发展迅速，针对 CNN 的硬件加速研究也大有可为。所以本项目计划使用 PYNQ-Z2 开发板设计一个硬件电路来加速目标检测算法

2023-06-20 19:45:12

基于LabVIEW的语音信号变速算法设计与实现

基于LabVIEW的语音信号变速算法设计与实现要做这样一个题目求大神指教最好有现成的可以加我q联系 690316376

2016-04-19 09:49:50

基于YOLOX目标检测算法的改进

基础的 AlexNet 算法框架，极大的提升了算法的速度和准确度。相比于传统目标检测算法，以CNN 为核心的目标检测算法具有准确率高、检测速度快等优点，发展潜力巨大。根据神经网络的结构不同，可以将目标检测算法

2023-03-06 13:55:27

基于数字CNN与生物视觉的仿生眼设计

建立视觉信号的并行、快速处理的数学模型和快速算法，实现图像信号和视神经纤维上动作电位的转换，是对信息科学中信号处理提出的一个新的挑战[2]。第一代视觉仿生眼的预期功能是让患者能进行慢速的阅读，识别一些

2009-09-19 09:35:15

大家是怎么压榨CNN模型的

【技术综述】为了压榨CNN模型，这几年大家都干了什么

2019-05-29 14:49:27

如何去实现一种4x4整数变换的快速算法？

本文提出一种基于TM1300的4x4整数变换的快速算法，使用了并行算是技术大大减少了计算量。

2021-06-04 06:41:35

如何将DS_CNN_S.pb转换为ds_cnn_s.tflite？

MIMRTX1064(SDK2.13.0)的KWS demo中放置了ds_cnn_s.tflite文件，提供demo中使用的模型示例。在 read.me 中，声明我可以找到脚本，但是，该文档中的脚本

2023-04-19 06:11:51

怎么实现STM32步进电机S型加减速算法？

怎么实现STM32步进电机S型加减速算法？

2021-10-11 07:57:55

怎么实现S形加减速算法？

怎么实现S形加减速算法？

2021-10-09 09:16:34

怎么实现步进电机S型曲线加减速算法？

怎么实现步进电机S型曲线加减速算法？

2021-10-12 10:02:51

梯形加减速算法实现

梯形加减速速度曲线采用“梯形”加减速算法，在运动过程中分成以下四个状态：空闲状态，加速状态，匀速状态与减速状态。图1 梯形加减速速度曲线加减速算法实现...

2022-01-11 08:25:05

步进电机S加减速算法与查表方式哪个更好？

步进电机S加减速算法与查表方式哪个更好，有谁用过，能否提供实例？

2023-11-08 08:10:26

步进电机S型曲线加减速算法与实现

年前做过的S型曲线加减速算法，再次做的时候竟然犯错，在此总结记录一下，方便以后查阅，同时希望帮助初学者提供简单的参考资料（注：本项目采用的带细分的驱动器，MCU的OC比较输出模块产生50%的PWM

2018-03-20 16:46:13

步进电机为啥需要设计一个调速算法？

步进电机为啥需要设计一个调速算法？

2021-10-29 07:29:16

步进电机加减速算法相关资料分享

步进电机加减速算法

2022-01-11 06:45:22

步进电机梯形加减速算法的原理是什么

目录步进电机梯形加减速梯形加减速算法原理分析算法实现步进电机梯形加减速电机的控制方式一般分为开环控制与闭环控制两种控制方式，其中开环控制原理框图如下：这种种控制方式的特点是：控制简单、实现容易、价格

2021-07-07 07:53:48

步进电机梯形匀加速算法是什么

最近公司的一个项目用带驱动器的步进电机，奈何，经理让我搞个匀加速的启动和停止。以前从来没考虑过算法的我，走了很多弯路，不过最后还是解决了这个问题。梯形加减速应该是指数加速算法和S型加速算法中最简单也

2021-07-08 06:49:48

步进电机的S型曲线加减速算法与实现

2021-06-28 08:41:08

步进电机驱动算法——S形加减速算法原理精选资料下载

目录步进电机S形加减速简介七段S形加减速算法原理分析五段S形加减速算法实现算法分析查表法编程实现思路及方法S曲线加减速流程图步进电机S形加减速简介一个物体从起点运动到终点要经历加速、匀速、减速的过程

2021-07-08 09:18:53

求一种基于嵌入式实时内核ARTXl66的电子差速算法

本文介绍一种基于嵌入式实时内核ARTXl66的电子差速算法

2021-05-13 06:46:56

虚拟实验室构建思路

我想做虚拟实验室，比如像物理实验、化学实验，目前没有太多的思路，有经验的朋友指导下，目前正在看电路算法。

2017-07-28 11:04:27

请问怎样去设计一种MPEG-4 加速器？

如何去选择并优化IDCT快速算法？怎样去设计一种MPEG-4加速器？如何对MPEG-4加速器进行仿真验证？

2021-06-04 07:20:42

量化算法介绍及其特点分析

推理。通过这篇文章你可以学习到以下内容：1）量化算法介绍及其特点分析，让你知其然并知其所以然； 2）Pytorch 量化实战，让你不再纸上谈兵；3）模型精度及性能的调优经验分享，让你面对问题不再束手无策...

2021-07-26 08:08:31

陀螺仪漂移测试原理及其实验技术

陀螺仪漂移测试原理及其实验技术

2016-08-17 12:09:47

离散傅里叶变换及其快速算法

离散傅里叶变换及其快速算法离散傅里叶变换 (Discrete Fourier Transform，DFT)是时间函数是离散的，而且频谱函数也是离散的变换。3. 1 讨论周期序列的傅里叶级数及其性质。

2008-10-30 12:54:54

三维表面粗糙度高斯滤波快速算法

三维表面粗糙度高斯滤波快速算法:研究了三维表面粗糙度评定基准的数学模型及采用高斯滤波器得到三维表面评定基准的数字算法,提出一种新的用于三维表面的快速高斯滤波卷积

2009-09-25 15:47:49

序列图像运动目标检测的一种快速算法

序列图像运动目标检测的一种快速算法:研究了序列视频图像中运动目标的检测与跟踪快速算法．研究基于Kalman滤波理论的渐消记忆最小二乘法，用该方法重建背景图像；采用图像差

2009-10-26 11:23:23

一种求解电大平台天线互耦的时域积分方程快速算法

一种求解电大平台天线互耦的时域积分方程快速算法:该文针对电大尺寸平台天线互耦问题，提出一种基于几何绕射理论加速的时域积分方程快速算法。在求解时域积分方程的经典时

2009-10-29 13:01:52

基于H.264 的子带DCT快速算法

DCT 快速算法是H.264 编码的关键问题之一。该文根据H.264 中4×4 块残差系数的分布特征及DCT 系数的能量分布特性，提出一种基于DCT 系数子带划分的子带DCT 快速算法。该算法在DCT 和量

2009-11-24 14:47:57

一种K分布杂波参数估计的快速算法

该文对K 分布杂波模型统计特性做了深入分析和推导，提出了一种新的运用样本算数平均和几何平均的高精度低运算量的K 分布杂波模型参数估计快速算法，并对算法的估计精度作了

2009-11-25 14:48:10

C51实现单片机CRC快速算法

摘要：本文介绍了CRC的基本原理和计算方法，给出了利用C51实现单片机CRC的快速算法关键字：CRC；C51；单片机；快速算法

2010-09-10 11:14:57

雷达成像近似二维模型及其超分辨算法

雷达成像近似二维模型及其超分辨算法现有的雷达成像超分辨算法是基于目标回波信号的二维正弦信号模型，所以模型误差，特别是距离走动误差，将使算法性能严重

2009-10-21 15:45:36

1888

匹配傅里叶变换快速算法及在雷达信号处理中应用

为了减小匹配傅里叶变换分析的计算量，提出了一种基于快速傅里叶变换的快速算法。根据匹配傅里叶变换的分解将积分形式转化为离散形式，推导出快速算法表达式。该算法与直接的

2013-07-26 11:48:36

简单实用的单片机CRC快速算法

本文提供两个实用的、能够在单片机上通过软件来实现CRC快速算法。

2016-03-22 16:40:31

三相多电平逆变器SVPWM的一种统一快速算法

三相多电平逆变器SVPWM的一种统一快速算法

2016-03-30 14:59:59

一种新型柔性加减速算法

一种新型柔性加减速算法，有需要的下来看看

2016-04-29 17:57:09

微段加工柔性加减速算法研究

微段加工柔性加减速算法研究，有需要的下来看看

2016-04-29 17:57:09

变加减速算法在位置伺服系统中的应用与分析

变加减速算法在位置伺服系统中的应用与分析

2016-05-04 14:37:01

S曲线加减速算法研究

S曲线加减速算法研究，又需要的朋友下来看看

2016-05-04 14:37:01

离散傅里叶变换(DFT)及其快速算法(FFT)

第2章-离散傅里叶变换(DFT)及其快速算法(FFT)

2016-12-28 14:23:30

一种改进的增维型双边滤波的快速算法

一种改进的增维型双边滤波的快速算法_李俊峰

2017-01-07 16:00:43

基于FPGA的ECC快速算法研究及设计

基于FPGA的ECC快速算法研究及设计_陈俊杰

2017-01-07 19:08:43

低频往复式微动磨损测试系统驱动频率影响及其实验研究_王仲楠

低频往复式微动磨损测试系统驱动频率影响及其实验研究_王仲楠

2017-01-08 13:26:49

基于光流的运动目标检测跟踪快速算法_关兴来

基于光流的运动目标检测跟踪快速算法_关兴来

2017-03-16 15:42:48

一种基于ImpulseC的素域椭圆曲线点乘快速算法_崔强强

一种基于ImpulseC的素域椭圆曲线点乘快速算法_崔强强

2017-03-19 11:46:35

基于查表的无乘法DCT快速算法 Jpeg压缩算法中的DCT快速算法

基于查表的无乘法DCT快速算法 Jpeg压缩算法中的DCT快速算法

2017-09-18 09:47:55

基于图像增强的去雾快速算法的介绍及其在FPGA中的实现

基于图像增强方法，本文提出了一种使用亮度映射的图像去雾快速算法。此算法通过调整室外多雾场景图像的对比度，提高了雾中物体的辨识度。算法的复杂度低、处理延迟小，实时性高，利于FPGA的实现。实现时不需外存储器，延时为ns级，并提供了强度调节接口，以适应较广的应用环境。

2017-10-11 18:39:38

DM6446的车牌定位快速算法实现与优化

DM6446的车牌定位快速算法实现与优化

2017-10-26 15:27:05

基于FPGA的通用CNN加速设计

基于FPGA的通用CNN加速器整体框架如下，通过Caffe/Tensorflow/Mxnet等框架训练出来的CNN模型，通过编译器的一系列优化生成模型对应的指令;同时，图片数据和模型权重数据按照优化规则进行预处理以及压缩后通过PCIe下发到FPGA加速器中

2017-10-27 14:09:58

9882

商汤联合提出基于FPGA的Winograd算法：改善FPGA上的CNN性能降低算法复杂度

商汤科技算法平台团队和北京大学高能效实验室联合提出一种基于 FPGA 的快速Winograd算法，可以大幅降低算法复杂度，改善 FPGA 上的 CNN 性能。

2018-02-07 11:52:06

8687

Kortiq小巧高效的CNN加速器，支持所有类型

Kortiq提供易于使用，可扩展且小巧的CNN加速器。该设备支持所有类型的CNN，并动态加速网络中的不同层类型。

2018-11-23 06:28:00

2957

如何结合改进主动学习的SVD-CNN进行弹幕文本分类算法资料说明

为解决传统卷积神经网络（CNN）模型使用池化层进行文本特征降维会损失较多文本语义信息的问题，提出一种基于奇异值分解（SVD）算法的卷积神经网络模型（SVD-CNN）。首先，采用改进的基于密度中心点

2019-05-06 11:42:47

深度学习模型压缩与加速综述

成为了学术界和工业界都重点关注的研究领域之一。本文主要介绍深度学习模型压缩和加速算法的三个方向，分别为加速网络结构设计、模型裁剪与稀疏化、量化加速。

2019-06-08 17:26:00

4836

基于MBNS滑动窗口的多标量乘快速算法

MENS）和交错MBNS滑动窗口（I-MBNS的多标量乘快速算法，分析并比较两种多标量乘快速算法在二元域和素域及不同窗口宽度下的平均运算量。实验结果表明，与 Shamir和交错非邻接形式算法相比， Sliding MBNS和I-MBNS算法在标量长度为160bit的二元域上的平均运算量分别减少了1

2021-03-11 11:17:42