用于多目标的检测与识别的YOLO卷积神经网络

一. R-CNN：Rich feature hierarchies for accurate object detection and semantic segmentation

技术路线：selective search + CNN + SVMs

Step1:候选框提取(selective search)

训练：给定一张图片，利用seletive search方法从中提取出2000个候选框。由于候选框大小不一，考虑到后续CNN要求输入的图片大小统一，将2000个候选框全部resize到227*227分辨率（为了避免图像扭曲严重，中间可以采取一些技巧减少图像扭曲）。

测试：给定一张图片，利用seletive search方法从中提取出2000个候选框。由于候选框大小不一，考虑到后续CNN要求输入的图片大小统一，将2000个候选框全部resize到227*227分辨率（为了避免图像扭曲严重，中间可以采取一些技巧减少图像扭曲）。

Step2:特征提取(CNN)

训练：提取特征的CNN模型需要预先训练得到。训练CNN模型时，对训练数据标定要求比较宽松，即SS方法提取的proposal只包含部分目标区域时，我们也将该proposal标定为特定物体类别。这样做的主要原因在于，CNN训练需要大规模的数据，如果标定要求极其严格（即只有完全包含目标区域且不属于目标的区域不能超过一个小的阈值），那么用于CNN训练的样本数量会很少。因此，宽松标定条件下训练得到的CNN模型只能用于特征提取。

测试：得到统一分辨率227*227的proposal后，带入训练得到的CNN模型，最后一个全连接层的输出结果---4096*1维度向量即用于最终测试的特征。

Step3:分类器(SVMs)

训练：对于所有proposal进行严格的标定（可以这样理解，当且仅当一个候选框完全包含ground truth区域且不属于ground truth部分不超过e.g,候选框区域的5%时认为该候选框标定结果为目标，否则位背景），然后将所有proposal经过CNN处理得到的特征和SVM新标定结果输入到SVMs分类器进行训练得到分类器预测模型。

测试：对于一副测试图像，提取得到的2000个proposal经过CNN特征提取后输入到SVM分类器预测模型中，可以给出特定类别评分结果。

结果生成：得到SVMs对于所有Proposal的评分结果，将一些分数较低的proposal去掉后，剩下的proposal中会出现候选框相交的情况。采用非极大值抑制技术，对于相交的两个框或若干个框，找到最能代表最终检测结果的候选框（非极大值抑制方法可以参考：http://blog.csdn.net/pb09013037/article/details/45477591）

R-CNN需要对SS提取得到的每个proposal进行一次前向CNN实现特征提取，因此计算量很大，无法实时。此外，由于全连接层的存在，需要严格保证输入的proposal最终resize到相同尺度大小，这在一定程度造成图像畸变，影响最终结果。

二. SPP-Net : Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）

传统CNN和SPP-Net流程对比如下图所示（引自http://www.image-net.org/challenges/LSVRC/2014/slides/sppnet_ilsvrc2014.pdf）

SPP-net具有以下特点：

1.传统CNN网络中，卷积层对输入图像大小不作特别要求，但全连接层要求输入图像具有统一尺寸大小。因此，在R-CNN中，对于selective search方法提出的不同大小的proposal需要先通过Crop操作或Wrap操作将proposal区域裁剪为统一大小，然后用CNN提取proposal特征。相比之下，SPP-net在最后一个卷积层与其后的全连接层之间添加了一个SPP (spatial pyramid pooling) layer，从而避免对propsal进行Crop或Warp操作。总而言之，SPP-layer适用于不同尺寸的输入图像，通过SPP-layer对最后一个卷积层特征进行pool操作并产生固定大小feature map,进而匹配后续的全连接层。

2.由于SPP-net支持不同尺寸输入图像，因此SPP-net提取得到的图像特征具有更好的尺度不变性，降低了训练过程中的过拟合可能性。

3.R-CNN在训练和测试是需要对每一个图像中每一个proposal进行一遍CNN前向特征提取，如果是2000个propsal,需要2000次前向CNN特征提取。但SPP-net只需要进行一次前向CNN特征提取，即对整图进行CNN特征提取，得到最后一个卷积层的feature map，然后采用SPP-layer根据空间对应关系得到相应proposal的特征。SPP-net速度可以比R-CNN速度快24~102倍，且准确率比R-CNN更高（下图引自SPP-net原作论文，可以看到SPP-net中spp-layer前有5个卷积层，第5个卷积层的输出特征在位置上可以对应到原来的图像，例如第一个图中左下角车轮在其conv5的图中显示为“^”的激活区域，因此基于此特性，SPP-net只需要对整图进行一遍前向卷积，在得到的conv5特征后，然后用SPP-net分别提取相应proposal的特征）。

SPP-Layer原理：

在RNN中，conv5后是pool5;在SPP-net中，用SPP-layer替代原来的pool5，其目标是为了使不同大小输入图像在经过SPP-Layer后得到的特征向量长度相同。其原理如图如下所示

SPP与金字塔pooling类似，即我们先确定最终pooling得到的featuremap大小，例如4*4 bins，3*3 bins，2*2 bins，1*1 bins。那么我们已知conv5输出的featuremap大小（例如，256个13*13的feature map）.那么，对于一个13*13的feature map,我们可以通过spatial pyramid pooling （SPP）的方式得到输出结果：当window=ceil(13/4)=4, stride=floor(13/4)=3,可以得到的4*4 bins；当window=ceil(13/3)=5, stride=floor(13/3)=4,可以得到的3*3 bins；当window=ceil(13/2)=7, stride=floor(13/2)=6,可以得到的2*2 bins；当window=ceil(13/1)=13, stride=floor(13/1)=13,可以得到的1*1 bins.因此SPP-layer后的输出是256*（4*4+3*3+2*2+1*1）=256*30长度的向量。不难看出，SPP的关键实现在于通过conv5输出的feature map宽高和SPP目标输出bin的宽高计算spatial pyramid pooling中不同分辨率Bins对应的pooling window和pool stride尺寸。

原作者在训练时采用两种不同的方式，即1.采用相同尺寸的图像训练SPP-net 2.采用不同尺寸的图像训练SPP-net。实验结果表明：使用不同尺寸输入图像训练得到的SPP-Net效果更好。

SPP-Net +SVM训练：

采用selective search可以提取到一系列proposals，由于已经训练完成SPP-Net,那么我们先将整图代入到SPP-Net中，得到的conv5的输出。接下来，区别于R-CNN，新方法不需要对不同尺寸的proposals进行Crop或Wrap，直接根据proposal在图中的相对位置关系计算得到proposal在整图conv5输出中的映射输出结果。这样，对于2000个proposal，我们事实上从conv1--->conv5只做了一遍前向，然后进行2000次conv5 featuremap的集合映射，再通过SPP-Layer，就可以得到的2000组长度相同的SPP-Layer输出向量，进而通过全连接层生成最终2000个proposal的卷积神经网络特征。接下来就和R-CNN类似，训练SVMs时对于所有proposal进行严格的标定（可以这样理解，当且仅当一个候选框完全包含ground truth区域且不属于ground truth部分不超过e.g,候选框区域的5%时认为该候选框标定结果为目标，否则位背景），然后将所有proposal经过CNN处理得到的特征和SVM新标定结果输入到SVMs分类器进行训练得到分类器预测模型。

当然，如果觉得SVM训练很麻烦，可以直接在SPP-Net后再加一个softmax层，用好的标定结果去训练最后的softmax层参数。

三. Fast-R-CNN

基于R-CNN和SPP-Net思想，RBG提出了Fast-R-CNN算法。如果选用VGG16网络进行特征提取，在训练阶段，Fast-R-CNN的速度相比RCNN和SPP-Net可以分别提升9倍和3倍；在测试阶段，Fast-R-CNN的速度相比RCNN和SPP-Net可以分别提升213倍和10倍。

R-CNN和SPP-Net缺点：

1.R-CNN和SPP-Net的训练过程类似，分多个阶段进行，实现过程较复杂。这两种方法首先选用Selective Search方法提取proposals,然后用CNN实现特征提取，最后基于SVMs算法训练分类器，在此基础上还可以进一步学习检测目标的boulding box。

2.R-CNN和SPP-Net的时间成本和空间代价较高。SPP-Net在特征提取阶段只需要对整图做一遍前向CNN计算，然后通过空间映射方式计算得到每一个proposal相应的CNN特征；区别于前者，RCNN在特征提取阶段对每一个proposal均需要做一遍前向CNN计算，考虑到proposal数量较多（~2000个），因此RCNN特征提取的时间成本很高。R-CNN和SPP-Net用于训练SVMs分类器的特征需要提前保存在磁盘，考虑到2000个proposal的CNN特征总量还是比较大，因此造成空间代价较高。

3.R-CNN检测速度很慢。RCNN在特征提取阶段对每一个proposal均需要做一遍前向CNN计算，如果用VGG进行特征提取，处理一幅图像的所有proposal需要47s。

4.特征提取CNN的训练和SVMs分类器的训练在时间上是先后顺序，两者的训练方式独立，因此SVMs的训练Loss无法更新SPP-Layer之前的卷积层参数，因此即使采用更深的CNN网络进行特征提取，也无法保证SVMs分类器的准确率一定能够提升。

Fast-R-CNN亮点：

1.Fast-R-CNN检测效果优于R-CNN和SPP-Net

2.训练方式简单，基于多任务Loss,不需要SVM训练分类器。

3.Fast-R-CNN可以更新所有层的网络参数（采用ROI Layer将不再需要使用SVM分类器，从而可以实现整个网络端到端训练）。

4.不需要将特征缓存到磁盘。

Fast-R-CNN架构：

Fast-R-CNN的架构如下图所示（https://github.com/rbgirshick/fast-rcnn/blob/master/models/VGG16/train.prototxt，可以参考此链接理解网络模型）：输入一幅图像和Selective Search方法生成的一系列Proposals，通过一系列卷积层和Pooling层生成feature map,然后用RoI（region of ineterst）层处理最后一个卷积层得到的feature map为每一个proposal生成一个定长的特征向量roi_pool5。RoI层的输出roi_pool5接着输入到全连接层产生最终用于多任务学习的特征并用于计算多任务Loss。全连接输出包括两个分支：1.SoftMax Loss:计算K+1类的分类Loss函数，其中K表示K个目标类别，1表示背景；2.Regression Loss:即K+1的分类结果相应的Proposal的Bounding Box四个角点坐标值。最终将所有结果通过非极大抑制处理产生最终的目标检测和识别结果。

3.1 RoI Pooling Layer

事实上，RoI Pooling Layer是SPP-Layer的简化形式。SPP-Layer是空间金字塔Pooling层，包括不同的尺度；RoI Layer只包含一种尺度，如论文中所述7*7。这样对于RoI Layer的输入（r,c,h,w），RoI Layer首先产生7*7个r*c*(h/7)*(w/7)的Block(块)，然后用Max-Pool方式求出每一个Block的最大值，这样RoI Layer的输出是r*c*7*7。

ROIs Pooling顾名思义，是Pooling层的一种，而且是针对RoIs的Pooling，他的特点是输入特征图尺寸不固定，但是输出特征图尺寸固定；

什么是ROI呢？ ROI是Region of Interest的简写，指的是在“特征图上的框”； 1）在Fast RCNN中， RoI是指Selective Search完成后得到的“候选框”在特征图上的映射，如下图所示； 2）在Faster RCNN中，候选框是经过RPN产生的，然后再把各个“候选框”映射到特征图上，得到RoIs。

3.2 预训练网络初始化

RBG复用了VGG训练ImageNet得到的网络模型，即VGG16模型以初始化Fast-R-CNN中RoI Layer以前的所有层。Fast R-CNN的网络结构整体可以总结如下：13个convolution layers + 4个pooling layers+RoI layer+2个fc layer+两个parrel层（即SoftmaxLoss layer和SmoothL1Loss layer）。在Fast R-CNN中，原来VGG16中第5个pooling layer被新的ROI layer替换掉。

3.3 Finetuning for detection

3.3.1 fast r-cnn在网络训练阶段采用了一些trick，每个minibatch是由N幅图片（N=2）中提取得到的R个proposal（R=128）组成的。这种minibatch的构造方式比从128张不同图片中提取1个proposal的构造方式快64倍。虽然minibatch的构造速度加快，但也在一定程度上造成收敛速度减慢。此外，fast-r-cnn摒弃了之前svm训练分类器的方式，而是选用softmax classifer和bounding-box regressors联合训练的方式更新cnn网络所有层参数。注意：在每2张图中选取128个proposals时，需要严格保证至少25%的正样本类（proposals与groundtruth的IoU超过0.5），剩下的可全部视作背景类。在训练网络模型时，不需要任何其他形式的数据扩增操作。

3.3.2 multi-task loss：fast r-cnn包括两个同等水平的sub-layer，分别用于classification和regression。其中，softmax loss对应于classification，smoothL1Loss对应于regression. 两种Loss的权重比例为1：1

3.3.3 SGD hyer-parameters：用于softmax分类任务和bounding-box回归的fc层参数用标准差介于0.01~0.001之间的高斯分布初始化。

3.4 Truncated SVD快速检测

在检测段，RBG使用truncated SVD优化较大的FC层，这样RoI数目较大时检测端速度会得到的加速。

Fast-R-CNN实验结论：

1.multi-task loss训练方式能提高算法准确度

2.multi-scale图像训练fast r-cnn相比较single-scale图像训练相比对mAP的提升幅度很小，但是却增加了很高的时间成本。因此，综合考虑训练时间和mAP，作者建议直接用single尺度的图像训练fast-r-cnn。

3.用于训练的图像越多，训练得到的模型准确率也会越高。

4.SoftmaxLoss训练方式比SVMs训练得到的结果略好一点，因此无法证明SoftmaxLoss在效果上一定比svm强，但是简化了训练流程，无需分步骤训练模型。

5.proposal并不是提取的越多效果越好，太多proposal反而导致mAP下降。

四. Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

在之前介绍的Fast-R-CNN中，第一步需要先使用Selective Search方法提取图像中的proposals。基于CPU实现的Selective Search提取一幅图像的所有Proposals需要约2s的时间。在不计入proposal提取情况下，Fast-R-CNN基本可以实时进行目标检测。但是，如果从端到端的角度考虑，显然proposal提取成为影响端到端算法性能的瓶颈。目前最新的EdgeBoxes算法虽然在一定程度提高了候选框提取的准确率和效率，但是处理一幅图像仍然需要0.2s。因此，Ren Shaoqing提出新的Faster-R-CNN算法，该算法引入了RPN网络（Region Proposal Network）提取proposals。RPN网络是一个全卷积神经网络，通过共享卷积层特征可以实现proposal的提取，RPN提取一幅像的proposal只需要10ms.

Faster-R-CNN算法由两大模块组成：1.PRN候选框提取模块 2.Fast R-CNN检测模块。其中，RPN是全卷积神经网络，用于提取候选框；Fast R-CNN基于RPN提取的proposal检测并识别proposal中的目标。

4.1 Region Proposal Network (RPN)

RPN网络的输入可以是任意大小（但还是有最小分辨率要求的，例如VGG是228*228）的图片。如果用VGG16进行特征提取，那么RPN网络的组成形式可以表示为VGG16+RPN。

VGG16：参考https://github.com/rbgirshick/py-faster-rcnn/blob/master/models/pascal_voc/VGG16/faster_rcnn_end2end/train.prototxt，可以看出VGG16中用于特征提取的部分是13个卷积层（conv1_1---->conv5.3），不包括pool5及pool5后的网络层次结构。

RPN：RPN是作者重点介绍的一种网络，如下图所示。RPN的实现方式：在conv5-3的卷积feature map上用一个n*n的滑窗（论文中作者选用了n=3，即3*3的滑窗）生成一个长度为256（对应于ZF网络）或512（对应于VGG网络）维长度的全连接特征。然后在这个256维或512维的特征后产生两个分支的全连接层：1.reg-layer,用于预测proposal的中心锚点对应的proposal的坐标x，y和宽高w，h；2.cls-layer，用于判定该proposal是前景还是背景。sliding window的处理方式保证reg-layer和cls-layer关联了conv5-3的全部特征空间。事实上，作者用全连接层实现方式介绍RPN层实现容易帮助我们理解这一过程，但在实现时作者选用了卷积层实现全连接层的功能。个人理解：全连接层本来就是特殊的卷积层，如果产生256或512维的fc特征，事实上可以用Num_out=256或512, kernel_size=3*3, stride=1的卷积层实现conv5-3到第一个全连接特征的映射。然后再用两个Num_out分别为2*9=18和4*9=36，kernel_size=1*1，stride=1的卷积层实现上一层特征到两个分支cls层和reg层的特征映射。注意：这里2*9中的2指cls层的分类结果包括前后背景两类，4*9的4表示一个Proposal的中心点坐标x，y和宽高w，h四个参数。采用卷积的方式实现全连接处理并不会减少参数的数量，但是使得输入图像的尺寸可以更加灵活。在RPN网络中，我们需要重点理解其中的anchors概念，Loss fucntions计算方式和RPN层训练数据生成的具体细节。

Anchors:字面上可以理解为锚点，位于之前提到的n*n的sliding window的中心处。对于一个sliding window,我们可以同时预测多个proposal，假定有k个。k个proposal即k个reference boxes，每一个reference box又可以用一个scale，一个aspect_ratio和sliding window中的锚点唯一确定。所以，我们在后面说一个anchor,你就理解成一个anchor box 或一个reference box.作者在论文中定义k=9，即3种scales和3种aspect_ratio确定出当前sliding window位置处对应的9个reference boxes， 4*k个reg-layer的输出和2*k个cls-layer的score输出。对于一幅W*H的feature map,对应W*H*k个锚点。所有的锚点都具有尺度不变性。

Loss functions:在计算Loss值之前，作者设置了anchors的标定方法。正样本标定规则：1.如果Anchor对应的reference box与ground truth的IoU值最大，标记为正样本；2.如果Anchor对应的reference box与ground truth的IoU>0.7，标记为正样本。事实上，采用第2个规则基本上可以找到足够的正样本，但是对于一些极端情况，例如所有的Anchor对应的reference box与groud truth的IoU不大于0.7,可以采用第一种规则生成。负样本标定规则：如果Anchor对应的reference box与ground truth的IoU<0.3，标记为负样本。剩下的既不是正样本也不是负样本，不用于最终训练。训练RPN的Loss是有classification loss （即softmax loss）和regression loss （即L1 loss）按一定比重组成的。计算softmax loss需要的是anchors对应的groundtruth标定结果和预测结果，计算regression loss需要三组信息：1.预测框，即RPN网络预测出的proposal的中心位置坐标x,y和宽高w,h；2.锚点reference box:之前的9个锚点对应9个不同scale和aspect_ratio的reference boxes，每一个reference boxes都有一个中心点位置坐标x_a,y_a和宽高w_a,h_a。3.ground truth:标定的框也对应一个中心点位置坐标x*,y*和宽高w*,h*。因此计算regression loss和总Loss方式如下：

RPN训练设置：在训练RPN时，一个Mini-batch是由一幅图像中任意选取的256个proposal组成的，其中正负样本的比例为1：1。如果正样本不足128，则多用一些负样本以满足有256个Proposal可以用于训练，反之亦然。训练RPN时，与VGG共有的层参数可以直接拷贝经ImageNet训练得到的模型中的参数；剩下没有的层参数用标准差=0.01的高斯分布初始化。

4.2 RPN与Faster-R-CNN特征共享

RPN在提取得到proposals后，作者选择使用Fast-R-CNN实现最终目标的检测和识别。RPN和Fast-R-CNN共用了13个VGG的卷积层，显然将这两个网络完全孤立训练不是明智的选择，作者采用交替训练阶段卷积层特征共享：

交替训练（Alternating training）: Step1:训练RPN;Step2:用RPN提取得到的proposal训练Fast R-CNN;Step3:用Faster R-CNN初始化RPN网络中共用的卷积层。迭代执行Step1,2,3，直到训练结束为止。论文中采用的就是这种训练方式，注意：第一次迭代时，用ImageNet得到的模型初始化RPN和Fast-R-CNN中卷积层的参数；从第二次迭代开始，训练RPN时，用Fast-R-CNN的共享卷积层参数初始化RPN中的共享卷积层参数，然后只Fine-tune不共享的卷积层和其他层的相应参数。训练Fast-RCNN时，保持其与RPN共享的卷积层参数不变，只Fine-tune不共享的层对应的参数。这样就可以实现两个网络卷积层特征共享训练。相应的网络模型请参考https://github.com/rbgirshick/py-faster-rcnn/tree/master/models/pascal_voc/VGG16/faster_rcnn_alt_opt

4.3 深度挖掘

1.由于Selective Search提取得到的Proposal尺度不一，因此Fast-RCNN或SPP-Net生成的RoI也是尺度不一，最后分别用RoI Pooling Layer或SPP-Layer处理得到固定尺寸金字塔特征，在这一过程中，回归最终proposal的坐标网络的权重事实上共享了整个FeatureMap，因此其训练的网络精度也会更高。但是，RPN方式提取的ROI由k个锚点生成，具有k种不同分辨率，因此在训练过程中学习到了k种独立的回归方式。这种方式并没有共享整个FeatureMap，但其训练得到的网络精度也很高。这，我竟然无言以对。有什么问题，请找Anchors同学。

2.采用不同分辨率图像在一定程度可以提高准确率，但是也会导致训练速度下降。采用VGG16训练RPN虽然使得第13个卷积层特征尺寸至少缩小到原图尺寸的1/16（事实上，考虑到kernel_size作用，会更小一些），然并卵，最终的检测和识别效果仍然好到令我无言以对。

3.三种scale(128*128，256*256，512*512),三种宽高比（1：2，1：1，2：1）,虽然scale区间很大，总感觉这样会很奇怪，但最终结果依然表现的很出色。

4.训练时（例如600*1000的输入图像），如果reference box （即anchor box）的边界超过了图像边界，这样的anchors对训练Loss不产生影响，即忽略掉这样的Loss.一幅600*1000的图经过VGG16大约为40*60，那么anchors的数量大约为40*60*9，约等于20000个anchor boxes.去除掉与图像边界相交的anchor boxes后，剩下约6000个anchor boxes,这么多数量的anchor boxes之间会有很多重叠区域，因此使用非极值抑制方法将IoU>0.7的区域全部合并，剩下2000个anchor boxes（同理，在最终检测端，可以设置规则将概率大于某阈值P且IoU大于某阈值T的预测框（注意，和前面不同，不是anchor boxes）采用非极大抑制方法合并）。在每一个epoch训练过程中，随机从一幅图最终剩余的这些anchors采样256个anchor box作为一个Mini-batch训练RPN网络。

4.3 实验

1.PASCAL VOC 2007：使用ZF-Net训练RPN和Fast-R-CNN,那么SelectiveSearch+Fast-R-CNN, EdgeBox+Fast-R-CNN, RPN+Fast-R-CNN的准确率分别为：58.7%，58.6%，59.9%. SeletiveSeach和EdgeBox方法提取2000个proposal，RPN最多提取300个proposal,因此卷积特征共享方式提取特征的RPN显然在效率是更具有优势。

2.采用VGG以特征不共享方式和特征共享方式训练RPN+Fast-R-CNN,可以分别得到68.5%和69.9%的准确率（VOC2007）。此外，采用VGG训练RCNN时，需要花320ms提取2000个proposal，加入SVD优化后需要223ms，而Faster-RCNN整个前向过程（包括RPN+Fast-R-CNN）总共只要198ms.

3.Anchors的scales和aspect_ratio的数量虽然不会对结果产生明显影响，但是为了算法稳定性，建议两个参数都设置为合适的数值。

4.当Selective Search和EdgeBox提取的proposal数目由2000减少到300时，Faste-R-CNN的Recall vs. IoU overlap ratio图中recall值会明显下降；但RPN提取的proposal数目由2000减少到300时，Recall vs. IoU overlap ratio图中recall值会比较稳定。

4.4 总结

特征共享方式训练RPN+Fast-R-CNN能够实现极佳的检测效果，特征共享训练实现了买一送一，RPN在提取Proposal时不仅没有时间成本，还提高了proposal质量。因此Faster-R-CNN中交替训练RPN+Fast-R-CNN方式比原来的SlectiveSeach+Fast-R-CNN更上一层楼。

5.YOLO: You Only Look Once：Unified, Real-Time Object Detection

YOLO是一个可以一次性预测多个Box位置和类别的卷积神经网络，能够实现端到端的目标检测和识别，其最大的优势就是速度快。事实上，目标检测的本质就是回归，因此一个实现回归功能的CNN并不需要复杂的设计过程。YOLO没有选择滑窗或提取proposal的方式训练网络，而是直接选用整图训练模型。这样做的好处在于可以更好的区分目标和背景区域，相比之下，采用proposal训练方式的Fast-R-CNN常常把背景区域误检为特定目标。当然,YOLO在提升检测速度的同时牺牲了一些精度。下图所示是YOLO检测系统流程：1.将图像Resize到448*448；2.运行CNN；3.非极大抑制优化检测结果。有兴趣的童鞋可以按照http://pjreddie.com/darknet/install/的说明安装测试一下YOLO的scoring流程，非常容易上手。接下来将重点介绍YOLO的原理。

5.1 一体化检测方案

YOLO的设计理念遵循端到端训练和实时检测。YOLO将输入图像划分为S*S个网络，如果一个物体的中心落在某网格(cell)内，则相应网格负责检测该物体。在训练和测试时，每个网络预测B个bounding boxes，每个bounding box对应5个预测参数，即bounding box的中心点坐标(x,y)，宽高（w,h），和置信度评分。这里的置信度评分(Pr(Object)*IOU(pred|truth))综合反映基于当前模型bounding box内存在目标的可能性Pr(Object)和bounding box预测目标位置的准确性IOU(pred|truth)。如果bouding box内不存在物体，则Pr(Object)=0。如果存在物体，则根据预测的bounding box和真实的bounding box计算IOU，同时会预测存在物体的情况下该物体属于某一类的后验概率Pr(Class_i|Object)。假定一共有C类物体，那么每一个网格只预测一次C类物体的条件类概率Pr(Class_i|Object), i=1,2,...,C;每一个网格预测B个bounding box的位置。即这B个bounding box共享一套条件类概率Pr(Class_i|Object), i=1,2,...,C。基于计算得到的Pr(Class_i|Object)，在测试时可以计算某个bounding box类相关置信度：Pr(Class_i|Object)*Pr(Object)*IOU(pred|truth)=Pr(Class_i)*IOU(pred|truth)。如果将输入图像划分为7*7网格（S=7），每个网格预测2个bounding box (B=2)，有20类待检测的目标（C=20），则相当于最终预测一个长度为S*S*(B*5+C)=7*7*30的向量，从而完成检测+识别任务，整个流程可以通过下图理解。

5.1.1 网络设计

YOLO网络设计遵循了GoogleNet的思想，但与之有所区别。YOLO使用了24个级联的卷积（conv）层和2个全连接（fc）层，其中conv层包括3*3和1*1两种Kernel，最后一个fc层即YOLO网络的输出，长度为S*S*(B*5+C)=7*7*30.此外，作者还设计了一个简化版的YOLO-small网络，包括9个级联的conv层和2个fc层，由于conv层的数量少了很多，因此YOLO-small速度比YOLO快很多。如下图所示我们给出了YOLO网络的架构。

5.1.2 训练

作者训练YOLO网络是分步骤进行的：首先，作者从上图网络中取出前20个conv层，然后自己添加了一个average pooling层和一个fc层，用1000类的ImageNet数据与训练。在ImageNet2012上用224*224d的图像训练后得到的top5准确率是88%。然后，作者在20个预训练好的conv层后添加了4个新的conv层和2个fc层，并采用随即参数初始化这些新添加的层，在fine-tune新层时，作者选用448*448图像训练。最后一个fc层可以预测物体属于不同类的概率和bounding box中心点坐标x,y和宽高w,h。Boundingbox的宽高是相对于图像宽高归一化后得到的，Bounding box的中心位置坐标是相对于某一个网格的位置坐标进行过归一化，因此x,y,w,h均介于0到1之间。

在设计Loss函数时，有两个主要的问题：1.对于最后一层长度为7*7*30长度预测结果，计算预测loss通常会选用平方和误差。然而这种Loss函数的位置误差和分类误差是1：1的关系。2.整个图有7*7个网格，大多数网格实际不包含物体（当物体的中心位于网格内才算包含物体），如果只计算Pr(Class_i),很多网格的分类概率为0，网格loss呈现出稀疏矩阵的特性，使得Loss收敛效果变差，模型不稳定。为了解决上述问题，作者采用了一系列方案：

1.增加bounding box坐标预测的loss权重，降低bounding box分类的loss权重。坐标预测和分类预测的权重分别是λcoord=5,λnoobj=0.5.

2.平方和误差对于大和小的bounding box的权重是相同的，作者为了降低不同大小bounding box宽高预测的方差，采用了平方根形式计算宽高预测loss，即sqrt(w)和sqrt(h)。

训练Loss组成形式较为复杂，这里不作列举，如有兴趣可以参考作者原文慢慢理解体会。

5.1.3 测试

作者选用PASAL VOC图像测试训练得到的YOLO网络，每幅图会预测得到98个（7*7*2）个bouding box及相应的类概率。通常一个cell可以直接预测出一个物体对应的bounding box,但是对于某些尺寸较大或靠近图像边界的物体，需要多个网格预测的结果通过非极大抑制处理生成。虽然YOLO对于非极大抑制的依赖不及R-CNN和DPM，但非极大抑制确实可以将mAP提高2到3个点。

5.2 方法对比

作者将YOLO目标检测与识别方法与其他几种经典方案进行比较可知：

DPM(Deformable parts models): DPM是一种基于滑窗方式的目标检测方法，基本流程包括几个独立的环节：特征提取，区域划分，基于高分值区域预测bounding box。YOLO采用端到端的训练方式，将特征提取、候选框预测，非极大抑制及目标识别连接在一起，实现了更快更准的检测模型。

R-CNN：R-CNN方案分需要先用SeletiveSearch方法提取proposal,然后用CNN进行特征提取，最后用SVM训练分类器。如此方案，诚繁琐也！YOLO精髓思想与其类似，但是通过共享卷积特征的方式提取proposal和目标识别。另外，YOLO用网格对proposal进行空间约束，避免在一些区域重复提取Proposal，相较于SeletiveSearch提取2000个proposal进行R-CNN训练，YOLO只需要提取98个proposal，这样训练和测试速度怎能不快？

Fast-R-CNN、Faster-R-CNN、Fast-DPM: Fast-R-CNN和Faster-R-CNN分别替换了SVMs训练和SelectiveSeach提取proposal的方式，在一定程度上加速了训练和测试速度，但其速度依然无法和YOLO相比。同理，将DPM优化在GPU上实现也无出YOLO之右。

5.3 实验

5.3.1 实时检测识别系统对比

5.3.2 VOC2007准确率比较

5.3.3 Fast-R-CNN和YOLO错误分析

如图所示，不同区域分别表示不同的指标：

Correct：正确检测和识别的比例，即分类正确且IOU>0.5

Localization:分类正确，但0.1

Similar:类别相似，IOU>0.1

Other:分类错误，IOU>0.1

Background: 对于任何目标IOU<0.1

可以看出，YOLO在定位目标位置时准确度不及Fast-R-CNN。YOLO的error中，目标定位错误占据的比例最大，比Fast-R-CNN高出了10个点。但是，YOLO在定位识别背景时准确率更高，可以看出Fast-R-CNN假阳性很高（Background=13.6%，即认为某个框是目标，但是实际里面不含任何物体）。

5.3.4 VOC2012准确率比较

由于YOLO在目标检测和识别是处理背景部分优势更明显，因此作者设计了Fast-R-CNN+YOLO检测识别模式，即先用R-CNN提取得到一组bounding box，然后用YOLO处理图像也得到一组bounding box。对比这两组bounding box是否基本一致，如果一致就用YOLO计算得到的概率对目标分类，最终的bouding box的区域选取二者的相交区域。Fast-R-CNN的最高准确率可以达到71.8%,采用Fast-R-CNN+YOLO可以将准确率提升至75.0%。这种准确率的提升是基于YOLO在测试端出错的情况不同于Fast-R-CNN。虽然Fast-R-CNN_YOLO提升了准确率，但是相应的检测识别速度大大降低，因此导致其无法实时检测。

使用VOC2012测试不同算法的mean Average Precision，YOLO的mAP=57.9%，该数值与基于VGG16的RCNN检测算法准确率相当。对于不同大小图像的测试效果进行研究，作者发现：YOLO在检测小目标时准确率比R-CNN低大约8~10%，在检测大目标是准确率高于R-CNN。采用Fast-R-CNN+YOLO的方式准确率最高，比Fast-R-CNN的准确率高了2.3%。

5.4 总结

YOLO是一种支持端到端训练和测试的卷积神经网络，在保证一定准确率的前提下能图像中多目标的检测与识别。

编辑：黄飞

阅读全文

cnn(21235) cnn(21235)
深度图像(3468) 深度图像(3468)
卷积神经网络(11634) 卷积神经网络(11634)

什么是卷积神经网络？完整的卷积神经网络（CNNS）解析

卷积神经网络（CNN）是一种特殊类型的神经网络，在图像上表现特别出色。卷积神经网络由Yan LeCun在1998年提出，可以识别给定输入图像中存在的数字。

2022-08-10 11:49:06

18294

使用PyTorch深度解析卷积神经网络

2022-09-21 10:12:50

637

使用Python卷积神经网络(CNN)进行图像识别的基本步骤

Python 卷积神经网络（CNN）在图像识别领域具有广泛的应用。通过使用卷积神经网络，我们可以让计算机从图像中学习特征，从而实现对图像的分类、识别和分析等任务。以下是使用 Python 卷积神经网络进行图像识别的基本步骤。

2023-11-20 11:20:33

1469

基于PVANet卷积神经网络模型的交通标志识别算法

作者：周苏，支雪磊，刘懂，宁皓，蒋连新，石繁槐 PVANet（performance vs accuracy network）卷积神经网络用于小目标检测的检测能力较弱。针对这一瓶颈问题，采用

2020-11-30 14:14:36

2246

卷积神经网络CNN介绍

【深度学习】卷积神经网络CNN

2020-06-14 18:55:37

卷积神经网络—深度卷积网络：实例探究及学习总结

《深度学习工程师-吴恩达》03卷积神经网络—深度卷积网络：实例探究学习总结

2020-05-22 17:15:57

卷积神经网络一维卷积的处理过程

。本文就以一维卷积神经网络为例谈谈怎么来进一步优化卷积神经网络使用的memory。文章（卷积神经网络中一维卷.

2021-12-23 06:16:40

卷积神经网络为什么适合图像处理？

卷积神经网络为什么适合图像处理？

2022-09-08 10:23:10

卷积神经网络入门资料

卷积神经网络入门详解

2019-02-12 13:58:26

卷积神经网络原理及发展过程

Top100论文导读：深入理解卷积神经网络CNN（Part Ⅰ）

2019-09-06 17:25:54

卷积神经网络如何使用

卷积神经网络(CNN)究竟是什么，鉴于神经网络在工程上经历了曲折的历史，您为什么还会在意它呢? 对于这些非常中肯的问题，我们似乎可以给出相对简明的答案。

2019-07-17 07:21:50

卷积神经网络模型发展及应用

神经网络已经广泛应用于图像分类、目标检测、语义分割以及自然语言处理等领域。首先分析了典型卷积神经网络模型为提高其性能增加网络深度以及宽度的模型结构，分析了采用注意力机制进一步提升模型性能的网络结构，然后归纳

2022-08-02 10:39:39

卷积神经网络的优点是什么

卷积神经网络的优点

2020-05-05 18:12:50

卷积神经网络的层级结构和常用框架

　　卷积神经网络的层级结构　　卷积神经网络的常用框架

2020-12-29 06:16:44

卷积神经网络的整体网络结构和发展过程

Top100论文导读：深入理解卷积神经网络CNN（Part Ⅱ）

2019-08-22 14:20:39

卷积神经网络简介：什么是机器学习？

列文章将只关注卷积神经网络 （CNN）。CNN的主要应用领域是输入数据中包含的对象的模式识别和分类。CNN是一种用于深度学习的人工神经网络。此类网络由一个输入层、多个卷积层和一个输出层组成。卷积层是最重

2023-02-23 20:11:10

卷积神经网络长尾数据集识别的技巧包介绍

1、卷积神经网络长尾数据集识别的技巧包　　最近，长尾识别持续引起关注，产生了很多不同的方法，这些方法属于不同的范式，度量学习，元学习和知识迁移。尽管这些方法在长尾数据集上取得了稳定的精度的提升，但是

2022-11-30 15:26:31

卷积神经网络（CNN）是如何定义的？

什么是卷积神经网络？ImageNet-2010网络结构是如何构成的？有哪些基本参数？

2021-06-17 11:48:22

CV之YOLO：深度学习之计算机视觉神经网络tiny-yolo-5clessses训练自己的数据集全程记录

CV之YOLO：深度学习之计算机视觉神经网络tiny-yolo-5clessses训练自己的数据集全程记录

2018-12-24 11:50:57

《 AI加速器架构设计与实现》+第一章卷积神经网络观后感

;（Skip Connection Block）和\"组卷积块\"（Grouped Convolution Block）是两种不同的网络模块，用于改进神经网络的性能和特征提取能力。跳跃

2023-09-11 20:34:01

【PYNQ-Z2申请】基于PYNQ的卷积神经网络加速

项目名称：基于PYNQ的卷积神经网络加速试用计划：申请理由：本人研究生在读，想要利用PYNQ深入探索卷积神经网络的硬件加速，在PYNQ上实现图像的快速处理项目计划：1、在PC端实现Lnet网络的训练

2018-12-19 11:37:22

【uFun试用申请】基于cortex-m系列核和卷积神经网络算法的图像识别

项目名称：基于cortex-m系列核和卷积神经网络算法的图像识别试用计划：本人在图像识别领域有三年多的学习和开发经验，曾利用nesys4ddr的fpga开发板，设计过基于cortex-m3的软核

2019-04-09 14:12:24

什么是图卷积神经网络？

图卷积神经网络

2019-08-20 12:05:29

全连接神经网络和卷积神经网络有什么区别

全连接神经网络和卷积神经网络的区别

2019-06-06 14:21:42

关于卷积神经网络探秘的简单了解

卷积神经网络探秘

2019-06-04 11:59:35

可分离卷积神经网络在 Cortex-M 处理器上实现关键词识别

我们可以对神经网络架构进行优化，使之适配微控制器的内存和计算限制范围，并且不会影响精度。我们将在本文中解释和探讨深度可分离卷积神经网络在 Cortex-M 处理器上实现关键词识别的潜力。关键词识别

2021-07-26 09:46:37

基于赛灵思FPGA的卷积神经网络实现设计

，看一下 FPGA 是否适用于解决大规模机器学习问题。卷积神经网络是一种深度神经网络 (DNN)，工程师最近开始将该技术用于各种识别任务。图像识别、语音识别和自然语言处理是 CNN 比较常见的几大应用。

2019-06-19 07:24:41

如何利用卷积神经网络去更好地控制巡线智能车呢

巡线智能车控制中的CNN网络有何应用？嵌入式单片机中的神经网络该怎样去使用？如何利用卷积神经网络去更好地控制巡线智能车呢？

2021-12-21 07:47:24

解析深度学习：卷积神经网络原理与视觉实践

解析深度学习：卷积神经网络原理与视觉实践

2020-06-14 22:21:12

请问为什么要用卷积神经网络？

为什么要用卷积神经网络？

2020-06-13 13:11:39

非局部神经网络，打造未来神经网络基本组件

，非局部运算将某一处位置的响应作为输入特征映射中所有位置的特征的加权和来进行计算。我们将非局部运算作为一个高效、简单和通用的模块，用于获取深度神经网络的长时记忆。我们提出的非局部运算是计算机视觉中经

2018-11-12 14:52:50

【科普】卷积神经网络(CNN)基础介绍

对卷积神经网络的基础进行介绍，主要内容包括卷积神经网络概念、卷积神经网络结构、卷积神经网络求解、卷积神经网络LeNet-5结构分析、卷积神经网络注意事项。一、卷积神经网络概念上世纪60年代

2017-11-16 01:00:02

10694

深度卷积神经网络在目标检测中的进展

深度卷积神经网络（DCNN）在图像分类和识别上取得了很显著的提高。回顾从2014到2016这两年多的时间，先后涌现出了R-CNN，Fast R-CNN, Faster R-CNN, ION

2017-11-16 01:41:55

4952

卷积神经网络检测脸部关键点的教程之卷积神经网络训练与数据扩充

上一次我们用了单隐层的神经网络，效果还可以改善，这一次就使用CNN。卷积神经网络 上图演示了卷积操作 LeNet-5式的卷积神经网络，是计算机视觉领域近期取得的巨大突破的核心。卷积层和之前的全连接

2017-11-16 11:45:07

2012

卷积神经网络CNN图解

之前在网上搜索了好多好多关于CNN的文章，由于网络上的文章很多断章取义或者描述不清晰，看了很多youtobe上面的教学视频还是没有弄懂，最后经过痛苦漫长的煎熬之后对于神经网络和卷积有了粗浅的了解

2017-11-16 13:18:40

56168

卷积神经网络CNN架构分析-LeNet

对于神经网络和卷积有了粗浅的了解,关于CNN 卷积神经网络，需要总结深入的知识有很多：人工神经网络 ANN卷积神经网络CNN 卷积神经网络CNN-BP算法卷积神经网络CNN-caffe应用卷积神经网络CNN-LetNet分析 LetNet网络.

2017-11-16 13:28:01

2562

基于深度卷积神经网络的航空器目标检测与识别

针对军用机场大尺寸卫星图像中航空器检测识别的具体应用场景，建立了一套实时目标检测识别框架，将深度卷积神经网络应用到大尺寸图像中的航空器目标检测与识别任务中。首先，将目标检测的任务看成空间上独立

2017-12-01 15:55:09

卷积神经网络的振动信号模态参数识别

针对现有的时域模态参数识别方法大多存在难定阶和抗噪性差的问题，提出一种无监督学习的卷积神经网络（CNN）的振动信号模态识别方法。该算法在卷积神经网络的基础上进行改进。首先，将应用于二维图像处理的卷积

2017-12-05 14:39:13

基于卷积神经网络的图像目标识别算法

针对图像在平移、旋转或局部形变等复杂情况下的识别问题，提出一种基于非监督预训练和多尺度分块的卷积神经网络（CNN）目标识别算法。算法首先利用不合标签的图像训练一个稀疏自动编码器，得到符合数据集特性

2017-12-20 15:37:25

卷积神经网络在车辆目标快速检测中的应用

而准确的车辆目标检测方法意义重大．在YOLO目标检测框架的基础上，设计了一种卷积神经网络的车辆检测及其车型粗粒度识别方法．网络结构采用多层感知机卷积层，增加特征映射的非线性处理能力：移除原来模型中的全连接层，利用

2017-12-22 16:22:12

3D卷积神经网络的手势识别

传统2D卷积神经网络对于视频连续帧图像的特征提取容易丢失目标时间轴上的运动信息，导致识别准确度较低。为此，提出一种基于多列深度3D卷积神经网络（3D CNN）的手势识别方法。采用3D卷积核对

2018-01-30 13:59:19

一种用于图像分类的卷积神经网络

卷积神经网络的特点是逐层提取特征，第一层提取的特征较为低级，第二层在第一层的基础上继续提取更高级别的特征，同样，第三层在第二层的基础上提取的特征也更为复杂。越高级的特征越能体现出图像的类别属性，卷积神经网络正是通过逐层卷积的方式提取图像的优良特征。

2018-07-04 08:59:40

9540

卷积神经网络的卷积到底是什么

卷积神经网络是一种特殊的神经网络结构，是自动驾驶汽车、人脸识别系统等计算机视觉应用的基础，其中基本的矩阵乘法运算被卷积运算取代。

2020-05-05 08:40:00

5122

神经网络到卷积神经网络的原理

卷积神经网络 （Convolutional Neural Network， CNN）是一种源于人工神经网络（Neural Network， NN）的深度机器学习方法，近年来在图像识别领域取得了巨大

2021-03-25 09:45:21

用于微表情识别的三维卷积神经网络进化方法

由于微表情持续时间短、动作幅度小，因此微表情自动识别一直是一个具有挑战性的问题。针对上述问题，提出一种用于微表情识别的三维卷积神经网络进化（ Three-dimensional

2021-05-17 15:22:23

基于卷积神经网络的雷达目标检测方法综述

基于卷积神经网络的雷达目标检测方法综述

2021-06-23 14:43:01

《光学精密工程》—采用优化卷积神经网络的红外目标识别系统

能力较弱的问题，提出一种使用海量视频数据建立数据库进而构建红外目标识别系统的方法。首先设计快速红外目标检测算法，提取目标并分类建立数据库；然后结合特定任务建立一组较匹配且结构不同的卷积神经网络，并提出基于测试

2021-11-16 14:33:21

878

卷积神经网络基础知识科普

卷积神经网络是一种深度学习网络，主要用于识别图像和对其进行分类，以及识别图像中的对象。

2022-05-13 10:26:47

1993

什么是神经网络？什么是卷积神经网络？

在介绍卷积神经网络之前，我们先回顾一下神经网络的基本知识。就目前而言，神经网络是深度学习算法的核心，我们所熟知的很多深度学习算法的背后其实都是神经网络。

2023-02-23 09:14:44

2256

卷积神经网络目标检测中的YOLO算法详解

我们的检测网络有24个卷积层，其次是2个全连接层。交替1x1卷积层减少了前面层的特征空间。我们在ImageNet分类任务上以一半的分辨率(224x224的输入图像)预训练卷积层，然后将分辨率加倍来进行检测。

2023-04-26 10:30:00

1596

卷积神经网络通俗理解

卷积神经网络通俗理解卷积神经网络，英文名为Convolutional Neural Network，成为了当前深度学习领域最重要的算法之一，也是很多图像和语音领域任务中最常用的深度学习模型之一

2023-08-17 16:30:25

2062

卷积神经网络包括哪几层

卷积神经网络包括哪几层卷积神经网络（Convolutional Neural Network, CNN）是一种前馈神经网络，通常被应用于图像识别和语音识别等领域。它的设计灵感来源于生物神经

2023-08-17 16:30:27

2147

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法卷积神经网络（Convolutional Neural Network，CNN）是一种基于深度学习的人工神经网络，是深度学习技术的重要应用之

2023-08-17 16:30:30

806

卷积神经网络结构

Learning）的应用，通过运用多层卷积神经网络结构，可以自动地进行特征提取和学习，进而实现图像分类、物体识别、目标检测、语音识别和自然语言翻译等任务。卷积神经网络的结构包括：输入层、卷积层、激活函数、池化层和全连接层。在CNN中，输入层通常是代表图像的矩阵或向量，而卷积层是卷积神

2023-08-17 16:30:35

804

卷积神经网络python代码

卷积神经网络python代码 ; 卷积神经网络（Convolutional Neural Network，简称CNN）是一种可以在图像处理和语音识别等领域中很好地应用的神经网络。它的原理是通过不断

2023-08-21 16:41:35

615

卷积神经网络详解卷积神经网络包括哪几层及各层功能

卷积神经网络详解卷积神经网络包括哪几层及各层功能卷积神经网络(Convolutional Neural Networks, CNNs)是一个用于图像和语音识别的深度学习技术。它是一种专门为处理

2023-08-21 16:41:40

4402

卷积神经网络的应用卷积神经网络通常用来处理什么

的前馈神经网络，卷积神经网络广泛用于图像识别、自然语言处理、视频处理等方面。本文将对卷积神经网络的应用进行详尽、详实、细致的介绍，以及卷积神经网络通常用于处理哪些任务。一、卷积神经网络的基本原理卷积神经网络通过学习特定的特征，可以用来识别对象、分类物品等

2023-08-21 16:41:45

3487

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点卷积神经网络（Convolutional neural network，CNN）是一种基于深度学习技术的神经网络，由于其出色的性能

2023-08-21 16:41:48

1662

卷积神经网络模型有哪些？卷积神经网络包括哪几层内容？

卷积神经网络模型有哪些？卷积神经网络包括哪几层内容？卷积神经网络（Convolutional Neural Networks，CNN）是深度学习领域中最广泛应用的模型之一，主要应用于图像、语音

2023-08-21 16:41:52

1305

卷积神经网络模型原理卷积神经网络模型结构

卷积神经网络模型原理卷积神经网络模型结构卷积神经网络是一种深度学习神经网络，是在图像、语音、文本和视频等方面的任务中最有效的神经网络之一。它的总体思想是使用在输入数据之上的一系列过滤器来捕捉

2023-08-21 16:41:58

604

卷积神经网络的工作原理卷积神经网络通俗解释

。CNN可以帮助人们实现许多有趣的任务，如图像分类、物体检测、语音识别、自然语言处理和视频分析等。本文将详细介绍卷积神经网络的工作原理并用通俗易懂的语言解释。 1.概述卷积神经网络是一个由神经元构成的深度神经网络，由输入层、隐藏层和输出层组成。在卷积神经网络中，

2023-08-21 16:49:24

2216

卷积神经网络如何识别图像

卷积神经网络如何识别图像卷积神经网络（Convolutional Neural Network, CNN）由于其出色的图像识别能力而成为深度学习的重要组成部分。CNN是一种深度神经网络，其结构

2023-08-21 16:49:27

1284

卷积神经网络应用领域

卷积神经网络应用领域卷积神经网络(CNN)是一种广泛应用于图像、视频和自然语言处理领域的深度学习算法。它最初是用于图像识别领域，但目前已经扩展到了许多其他应用领域。本文将详细介绍卷积神经网络

2023-08-21 16:49:29

2029

卷积神经网络三大特点

卷积神经网络三大特点卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习模型，其具有三大特点：局部感知、参数共享和下采样。一、局部感知卷积神经网络

2023-08-21 16:49:32

3049

卷积神经网络的基本原理卷积神经网络发展卷积神经网络三大特点

中最重要的神经网络之一。它是一种由多个卷积层和池化层（也可称为下采样层）组成的神经网络。CNN 的基本思想是以图像为输入，通过网络的卷积、下采样和全连接等多个层次的处理，将图像的高层抽象特征提取出来，从而完成对图像的识别、分类等任务。 CNN 的基本结构包括输入层、卷积层、

2023-08-21 16:49:39

1144

卷积神经网络基本结构卷积神经网络主要包括什么

卷积神经网络基本结构卷积神经网络主要包括什么卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习模型，广泛用于图像识别、自然语言处理、语音识别等领域

2023-08-21 16:57:19

3566

卷积神经网络层级结构卷积神经网络的卷积层讲解

像分类、目标检测、人脸识别等。卷积神经网络的核心是卷积层和池化层，它们构成了网络的主干，实现了对图像特征的提取和抽象。一、卷积神经网络的层级结构卷积神经网络主要分为四个层级，分别是输入层、卷积层、池化层和全连接层。 1. 输入层输入层是卷积神经网络的第

2023-08-21 16:49:42

3760

卷积神经网络的介绍什么是卷积神经网络算法

卷积神经网络的介绍什么是卷积神经网络算法卷积神经网络涉及的关键技术卷积神经网络（Convolutional Neural Network，CNN）是一种用于图像分类、物体识别、语音识别等领域

2023-08-21 16:49:46

1229

卷积神经网络算法是机器算法吗

卷积神经网络算法是机器算法吗卷积神经网络算法是机器算法的一种，它通常被用于图像、语音、文本等数据的处理和分类。随着深度学习的兴起，卷积神经网络逐渐成为了图像、语音等领域中最热门的算法之一。卷积

2023-08-21 16:49:48

437

卷积神经网络算法比其他算法好吗

卷积神经网络算法比其他算法好吗卷积神经网络（Convolutional Neural Networks, CNN）是一种用于图像识别和处理等领域的深度学习算法。相对于传统的图像识别算法，如SIFT

2023-08-21 16:49:51

407

卷积神经网络算法原理

卷积神经网络算法原理卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习（Deep Learning）的模型，它能够自动地从图片、音频、文本等数据中提

2023-08-21 16:49:54

690

卷积神经网络是什么？卷积神经网络的工作原理和应用

　　卷积神经网络(Convolutional Neural Network，CNN)是一种深度学习神经网络，主要用于图像和视频的识别、分类和预测，是计算机视觉领域中应用最广泛的深度学习算法之一。该网络模型可以自动从原始数据中学习有用的特征，并将其映射到相应的类别。

2023-08-21 17:03:46

1064

卷积神经网络算法有哪些？

算法。它在图像识别、语音识别和自然语言处理等领域有着广泛的应用，成为近年来最为热门的人工智能算法之一。CNN基于卷积运算和池化操作，可以对图像进行有损压缩、提取特征，有效降低输入数据的维度，从而实现对大量数据的处理和分析。下面是对CNN算法的详细介绍： 1. 卷积神经网络的基本结构卷积神经网络的基本

2023-08-21 16:50:01

977

卷积神经网络算法的优缺点

卷积神经网络算法的优缺点卷积神经网络是一种广泛应用于图像、语音等领域的深度学习算法。在过去几年里，CNN的研究和应用有了飞速的发展，取得了许多重要的成果，如在图像分类、目标识别、人脸识别、自然语言

2023-08-21 16:50:04

5473

卷积神经网络和深度神经网络的优缺点卷积神经网络和深度神经网络的区别

深度神经网络是一种基于神经网络的机器学习算法，其主要特点是由多层神经元构成，可以根据数据自动调整神经元之间的权重，从而实现对大规模数据进行预测和分类。卷积神经网络是深度神经网络的一种，主要应用于图像和视频处理领域。

2023-08-21 17:07:36

1869

卷积神经网络算法三大类

卷积神经网络算法三大类卷积神经网络（Convolutional Neural Network，简称CNN）是一种常用的人工神经网络，它的主要应用领域是图像识别和计算机视觉方面。CNN通过卷积

2023-08-21 16:50:07

757

卷积神经网络算法代码matlab

卷积神经网络算法代码matlab 卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习网络模型，其特点是具有卷积层（Convolutional Layer

2023-08-21 16:50:11

745

卷积神经网络算法的核心思想

广泛应用的神经网络模型。本文将从以下几个方面详细介绍CNN的核心思想和算法原理。一、CNN简介 CNN是一种类似于人类视觉系统的神经网络模型，它利用卷积层、池化层、全连接层等多个层次对输入数据进行处理和特征提取，最终实现特定目标的分类和识别。CNN的典型应用包括图片识

2023-08-21 16:50:17

797

卷积神经网络算法流程卷积神经网络模型工作流程

卷积神经网络算法流程卷积神经网络模型工作流程卷积神经网络（Convolutional Neural Network，CNN）是一种广泛应用于目标跟踪、图像识别和语音识别等领域的深度学习模型

2023-08-21 16:50:19

1316

常见的卷积神经网络模型典型的卷积神经网络模型

LeNet是卷积神经网络的开山祖师，是由Yan LeCunn在1998年提出的经典卷积神经网络模型。它最初是为手写体数字识别而设计的，由卷积层、池化层和全连接

2023-08-21 17:11:41

1646

图像识别卷积神经网络模型

图像识别卷积神经网络模型随着计算机技术的快速发展和深度学习的迅速普及，图像识别卷积神经网络模型已经成为当今最受欢迎和广泛使用的模型之一。卷积神经网络（Convolutional Neural

2023-08-21 17:11:45

486

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网络模型

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网络模型卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习神经网络，最初被广泛应用于计算机

2023-08-21 17:11:47

681

卷积神经网络模型搭建

详实、细致的指导。一、什么是卷积神经网络 在讲述如何搭建卷积神经网络之前，我们需要先了解一下什么是卷积神经网络。卷积神经网络是一种前馈神经网络，常用于处理具有类似网格结构的数据。由于卷积神经网络模型在图片处理

2023-08-21 17:11:49

543

卷积神经网络一共有几层卷积神经网络模型三层

卷积神经网络一共有几层卷积神经网络模型三层卷积神经网络 (Convolutional Neural Networks，CNNs) 是一种在深度学习领域中发挥重要作用的模型。它是一种有层次结构

2023-08-21 17:11:53

3338

卷积神经网络模型的优缺点

等领域中非常流行，可用于分类、分割、检测等任务。而在实际应用中，卷积神经网络模型有其优点和缺点。这篇文章将详细介绍卷积神经网络模型的特点、优点和缺点。一、卷积神经网络模型的特点卷积神经网络是一种前馈神经网络，包含了卷积层、池化层、全连接层等多个层

2023-08-21 17:15:19

1881

卷积神经网络主要包括哪些卷积神经网络组成部分

卷积神经网络主要包括哪些卷积神经网络组成部分卷积神经网络（CNN）是一类广泛应用于计算机视觉、自然语言处理等领域的人工神经网络。它具有良好的空间特征学习能力，能够处理具有二维或三维形状的输入数据

2023-08-21 17:15:22

938

cnn卷积神经网络算法 cnn卷积神经网络模型

cnn卷积神经网络算法 cnn卷积神经网络模型卷积神经网络(CNN)是一种特殊的神经网络，具有很强的图像识别和数据分类能力。它通过学习权重和过滤器，自动提取图像和其他类型数据的特征。在过去的几年

2023-08-21 17:15:57

946

cnn卷积神经网络matlab代码

cnn卷积神经网络matlab代码卷积神经网络（Convolutional Neural Network, CNN）是深度学习中一种常用的神经网络结构，它是通过卷积层、池化层和全连接层等组合而成

2023-08-21 17:15:59

798

cnn卷积神经网络简介 cnn卷积神经网络代码

以解决图像识别问题为主要目标，但它的应用已经渗透到了各种领域，从自然语言处理、语音识别、到物体标记以及医疗影像分析等。在此，本文将对CNN的原理、结构以及基础代码进行讲解。 1. CNN的原理 CNN是一种能够自动提取特征的神经网络结构，它的每个层次在进行特征提取时会自动适应输入数据

2023-08-21 17:16:13

1622

卷积神经网络的定义、结构和发展历史

卷积神经网络（Convolutional Neural Network，CNN）是一种非常重要的机器学习算法，主要应用于图像处理领域，用于图像分类、目标识别、物体检测等任务。该算法是深度学习领域的一个重要分支。下面具体介绍卷积神经网络的定义、结构和发展历史。

2023-08-21 17:26:04

406

什么是卷积神经网络？为什么需要卷积神经网络？

卷积神经网络（Convolutional Neural Network，CNN）是一种用于处理具有类似网格结构的数据的神经网络。它广泛用于图像和视频识别、文本分类等领域。CNN可以自动从训练数据中学习出合适的特征，并以此对新输入的数据进行分类或回归等操作。

2023-08-22 18:20:37

1136

用于卷积神经网络的DPUCAHX8H

电子发烧友网站提供《用于卷积神经网络的DPUCAHX8H.pdf》资料免费下载

2023-09-14 09:50:36

卷积神经网络的优点

卷积神经网络的优点卷积神经网络（Convolutional Neural Network，CNN）是一种基于深度学习的神经网络模型，在图像识别、语音识别、自然语言处理等领域有着广泛的应用。相比

2023-12-07 15:37:25

2282

已全部加载完成

搜索历史

用于多目标的检测与识别的YOLO卷积神经网络

评论