基于深度学习YOLO系列算法的图像检测-电子发烧友网

目前，基于深度学习算法的一系列目标检测算法大致可以分为两大流派：

两步走（two-stage）算法：先产生候选区域然后再进行CNN分类(RCNN系列)

一步走（one-stage）算法：直接对输入图像应用算法并输出类别和相应的定位(YOLO系列)

1YOLO算法的提出

在图像的识别与定位中，输入一张图片，要求输出其中所包含的对象，以及每个对象的位置（包含该对象的矩形框）。

对象的识别和定位，可以看成两个任务：找到图片中某个存在对象的区域，然后识别出该区域中具体是哪个对象。对象识别这件事（一张图片仅包含一个对象，且基本占据图片的整个范围），最近几年基于CNN卷积神经网络的各种方法已经能达到不错的效果了。所以主要需要解决的问题是，对象在哪里。最简单的想法，就是遍历图片中所有可能的位置，地毯式搜索不同大小，不同宽高比，不同位置的每个区域，逐一检测其中是否存在某个对象，挑选其中概率最大的结果作为输出。

显然这种方法效率太低。RCNN开创性的提出了候选区(Region Proposals)的方法，先从图片中搜索出一些可能存在对象的候选区（Selective Search），大概2000个左右，然后对每个候选区进行对象识别，总体来说，RCNN系列依然是两阶段处理模式：先提出候选区，再识别候选区中的对象，大幅提升了对象识别和定位的效率。不过RCNN的速度依然很慢，其处理一张图片大概需要49秒。因此又有了后续的Fast RCNN 和 Faster RCNN，针对 RCNN的神经网络结构和候选区的算法不断改进，Faster RCNN已经可以达到一张图片约0.2秒的处理速度。

R-CNN系列虽然准确率比较高，但是即使是发展到Faster R-CNN，检测一张图片如下图所示也要7fps(原文为5fps)，为了使得检测的工作能够用到实时的场景中，提出了YOLO。

2 算法的简介

YOLO意思是You Only Look Once，创造性的将候选区和对象识别这两个阶段合二为一，看一眼图片（不用看两眼哦）就能知道有哪些对象以及它们的位置。

实际上，YOLO并没有真正去掉候选区，而是采用了预定义的候选区（准确点说应该是预测区，因为并不是Faster RCNN所采用的Anchor）。也就是将图片划分为 7*7=49 个网格（grid），每个网格允许预测出2个边框（bounding box，包含某个对象的矩形框），总共 49*2=98 个bounding box。可以理解为98个候选区，它们很粗略的覆盖了图片的整个区域。

RCNN虽然会找到一些候选区，但毕竟只是候选，等真正识别出其中的对象以后，还要对候选区进行微调，使之更接近真实的bounding box。这个过程就是边框回归：将候选区bounding box调整到更接近真实的bounding box。既然反正最后都是要调整的，干嘛还要先费劲去寻找候选区呢，大致有个区域范围就行了，所以YOLO就这么干了。

边框回归为什么能起作用，本质上是因为分类信息中已经包含了位置信息。就像你看到一只猫的脸和身体，就能推测出耳朵和屁股的位置。

3 算法的结构

去掉候选区这个步骤以后，YOLO的结构非常简单，就是单纯的卷积、池化最后加了两层全连接。单看网络结构的话，和普通的CNN对象分类网络几乎没有本质的区别，最大的差异是最后输出层用线性函数做激活函数，因为需要预测bounding box的位置（数值型），而不仅仅是对象的概率。所以粗略来说，YOLO的整个结构就是输入图片经过神经网络的变换得到一个输出的张量，如下图所示。

4 输入输出映射关系

因为只是一些常规的神经网络结构，所以，理解YOLO的设计的时候，重要的是理解输入和输出的映射关系。

参考图5，输入就是原始图像，唯一的要求是缩放到448*448的大小。主要是因为YOLO的网络中，卷积层最后接了两个全连接层，全连接层是要求固定大小的向量作为输入，所以倒推回去也就要求原始图像有固定的尺寸。那么YOLO设计的尺寸就是448*448。输出是一个 7*7*30 的张量（tensor）。根据YOLO的设计，输入图像被划分为 7*7 的网格（grid），输出张量中的 7*7 就对应着输入图像的 7*7 网格。或者我们把 7*7*30 的张量看作 7*7=49个30维的向量，也就是输入图像中的每个网格对应输出一个30维的向量。参考上面图5，比如输入图像左上角的网格对应到输出张量中左上角的向量。

要注意的是，并不是说仅仅网格内的信息被映射到一个30维向量。经过神经网络对输入图像信息的提取和变换，网格周边的信息也会被识别和整理，最后编码到那个30维向量中。

具体来看每个网格对应的30维向量中包含了哪些信息。

① 20个对象分类的概率

因为YOLO支持识别20种不同的对象（人、鸟、猫、汽车、椅子等），所以这里有20个值表示该网格位置存在任一种对象的概率。也对应为20个object条件概率。

② 2个bounding box的位置

每个bounding box需要4个数值来表示其位置，(Center_x,Center_y,width,height)，即(bounding box的中心点的x坐标，y坐标，bounding box的宽度，高度)，2个bounding box共需要8个数值来表示其位置。

③ 2个bounding box的置信度

bounding box的置信度 = 该bounding box内存在对象的概率 * 该bounding box与该对象实际bounding box的IOU, IOU=交集部分面积/并集部分面积，2个box完全重合时IOU=1，不相交时IOU=0。

综合来说，一个bounding box的置信度Confidence意味着它是否包含对象且位置准确的程度。置信度高表示这里存在一个对象且位置比较准确，置信度低表示可能没有对象或者即便有对象也存在较大的位置偏差。作为监督学习，我们需要先构造好训练样本，才能让模型从中学习。对于一张输入图片，其对应输出的7*7*30张量（也就是通常监督学习所说的标签y或者label）应该填写什么数据呢。

首先，输出的 7*7维度对应于输入的 7*7 网格。

① 20个对象分类的概率

② 2个bounding box的位置

③ 2个bounding box的置信度

（请对照上面图6）

5 损失函数

损失就是网络实际输出值与样本标签值之间的偏差。

YOLO给出的损失函数如下。

6 预测

训练好的YOLO网络，输入一张图片，将输出一个 7*7*30 的张量（tensor）来表示图片中所有网格包含的对象（概率）以及该对象可能的2个位置（bounding box）和可信程度（置信度）。为了从中提取出最有可能的那些对象和位置，YOLO采用NMS（Non-maximal suppression，非极大值抑制）算法。

7 总结

YOLO以速度见长，处理速度可以达到45fps，其YoloV4版本（网络较小）甚至可以达到155fps。这得益于其识别和定位合二为一的网络设计，而且这种统一的设计也使得训练和预测可以端到端的进行，非常简便。不足之处是小对象检测效果不太好（尤其是一些聚集在一起的小对象），对边框的预测准确度不是很高，总体预测精度略低于Fast RCNN。主要是因为网格设置比较稀疏，而且每个网格只预测两个边框，另外Pooling层会丢失一些细节信息，对定位存在影响。

责任编辑：xj

原文标题：基于YOLO系列算法的图像检测

文章出处：【微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4640

浏览量
93622
图像检测

图像检测

+关注

关注
0

文章
35

浏览量
11944
深度学习

深度学习

+关注

关注
73

文章
5524

浏览量
121797

原文标题：基于YOLO系列算法的图像检测

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

《DNK210使用指南 -CanMV版 V1.0》第四十一章 YOLO2物体检测实验

第四十一章 YOLO2物体检测实验在上一章节中，介绍了利用maix.KPU模块实现YOLO2的人手检测，本章将继续介绍利用maix.KPU模块实现

发表于 11-14 09:22

《DNK210使用指南 -CanMV版 V1.0》第四十章 YOLO2人手检测实验

第四十章 YOLO2人手检测实验在上一章节中，介绍了利用maix.KPU模块实现YOLO2的人脸检测，本章将继续介绍利用maix.KPU模块实现Y

发表于 11-14 09:20

GPU深度学习应用案例

GPU在深度学习中的应用广泛且重要，以下是一些GPU深度学习应用案例：一、图像识别图像识别是

发表于 10-27 11:13 •599次阅读

FPGA做深度学习能走多远？

中的性能和效率。同时，也可能会出现一些新的基于 FPGA 的深度学习算法创新，拓展其应用领域。 • 应用领域的拓展：除了在图像识别、语音处理、自动驾驶等领域的应用，FPGA 在

发表于 09-27 20:53

深度识别算法包括哪些内容

：CNN是深度学习中处理图像和视频等具有网格结构数据的主要算法。它通过卷积层、池化层和全连接层等组件，实现对图像特征的自动提取和识别。应

发表于 09-10 15:28 •539次阅读

图像识别算法都有哪些方法

传统方法和基于深度学习的方法。传统图像识别算法 1.1 边缘检测边缘检测是

发表于 07-16 11:14 •6272次阅读

opencv图像识别有什么算法

OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉和机器学习软件库，提供了大量的图像处理和计算机视觉相关的算法。以下是一些常见的OpenCV

发表于 07-16 10:40 •1318次阅读

深度学习算法在嵌入式平台上的部署

随着人工智能技术的飞速发展，深度学习算法在各个领域的应用日益广泛。然而，将深度学习算法部署到资源

发表于 07-15 10:03 •1905次阅读

利用Matlab函数实现深度学习算法

在Matlab中实现深度学习算法是一个复杂但强大的过程，可以应用于各种领域，如图像识别、自然语言处理、时间序列预测等。这里，我将概述一个基本的流程，包括环境设置、数据准备、模型设计、训

发表于 07-14 14:21 •2581次阅读

深度学习在工业机器视觉检测中的应用

随着深度学习技术的快速发展，其在工业机器视觉检测中的应用日益广泛，并展现出巨大的潜力。工业机器视觉检测是工业自动化领域的重要组成部分，通过图像

发表于 07-08 10:40 •1329次阅读

深度学习在视觉检测中的应用

能力，还使得机器能够模仿人类的某些智能行为，如识别文字、图像和声音等。深度学习的引入，极大地推动了人工智能技术的发展，特别是在图像识别、自然语言处理、语音识别等领域取得了显著成果。

发表于 07-08 10:27 •935次阅读

基于深度学习的小目标检测

在计算机视觉领域，目标检测一直是研究的热点和难点之一。特别是在小目标检测方面，由于小目标在图像中所占比例小、特征不明显，使得检测难度显著增加。随着深

发表于 07-04 17:25 •1187次阅读

深度学习的基本原理与核心算法

随着大数据时代的到来，传统机器学习方法在处理复杂模式上的局限性日益凸显。深度学习（Deep Learning）作为一种新兴的人工智能技术，以其强大的非线性表达能力和自学习能力，在

发表于 07-04 11:44 •2687次阅读

基于深度学习的缺陷检测方案

图像预处理通常包括直方图均衡化、滤波去噪、灰度二值化、再次滤波几部分，以得到前后景分离的简单化图像信息；随后利用数学形态学、傅里叶变换、Gabor 变换等算法以及机器学习模型完成缺陷的

发表于 04-23 17:23 •1119次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深

发表于 04-23 17:18 •1477次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

基于深度学习YOLO系列算法的图像检测

评论

《DNK210使用指南 -CanMV版 V1.0》第四十一章 YOLO2物体检测实验

《DNK210使用指南 -CanMV版 V1.0》第四十章 YOLO2人手检测实验

GPU深度学习应用案例

FPGA做深度学习能走多远？

深度识别算法包括哪些内容

图像识别算法都有哪些方法

opencv图像识别有什么算法

深度学习算法在嵌入式平台上的部署

利用Matlab函数实现深度学习算法

深度学习在工业机器视觉检测中的应用

深度学习在视觉检测中的应用

基于深度学习的小目标检测

深度学习的基本原理与核心算法

基于深度学习的缺陷检测方案

深度解析深度学习下的语义SLAM