主要从人脸检测方面来讲解目标检测算法-电子发烧友网

在目标检测领域，可以划分为人脸检测与通用目标检测，往往人脸这方面会有专门的算法（包括人脸检测、人脸识别、人脸其他属性的识别等），并且和通用目标检测（识别）会有一定的差别。这主要来源于人脸的特殊性（譬如有时候目标比较小、人脸之间特征不明显、遮挡问题等），本文将主要从人脸检测方面来讲解目标检测。

目前主要的人脸检测方法分类

当前，人脸检测方法主要包含两个区域：传统人脸检测算法和基于深度学习的人脸检测算法。传统人脸检测算法主要可以分为 4 类：

基于知识的人脸检测方法；

基于模型的人脸检测方法；

基于特征的人脸检测方法；

基于外观的人脸检测方法。

2006 年，Hinton 首次提出深度学习（Deep Learning）的概念，它是通过组合低层的特征形成更高层的抽象特征。随后研究者将深度学习应用在人脸检测领域，主要集中在基于卷积神经网络（CNN）的人脸检测研究，如基于级联卷积神经网络的人脸检测（Cascade CNN）、基于多任务卷积神经网络的人脸检测（MTCNN）、Facebox 等，很大程度上提高了人脸检测的鲁棒性。

当然，像Faster RCNN、YOLO、SSD等通用目标检测算法也有用在人脸检测领域，也可以实现比较不错的结果，但是和专门人脸检测算法比还是有差别。

如何检测图片中不同大小的人脸？

传统人脸检测算法中针对不同大小人脸主要有两个策略：

缩放图片的大小（图像金字塔如图 1 所示）；

图1 图像金字塔

缩放滑动窗的大小（如图 2 所示）。

图 2 缩放滑动窗口

基于深度学习的人脸检测算法中，针对不同大小人脸主要也有两个策略，但和传统人脸检测算法有点区别，主要包括：

缩放图片大小：不过也可以通过缩放滑动窗的方式，基于深度学习的滑动窗人脸检测方式效率会很慢存在多次重复卷积，所以要采用全卷积神经网络（FCN），用 FCN 将不能用滑动窗的方法。

通过 anchor box 的方法：如图 3 所示，不要和图 2 混淆，这里是通过特征图预测原图的 anchorbox 区域，具体在 Facebox 中有描述。

图 3 anchor box

如何设定算法检测最小人脸尺寸？

主要是看滑动窗的最小窗口和 anchorbox 的最小窗口。

滑动窗的方法

假设通过 12×12 的滑动窗，不对原图做缩放的话，就可以检测原图中 12×12 的最小人脸。

但是往往通常给定最小人脸 a=40、或者 a=80，以这么大的输入训练 CNN 进行人脸检测不太现实，速度会很慢，并且下一次需求最小人脸 a=30*30 又要去重新训练，通常还会是 12×12 的输入，为满足最小人脸框 a，只需要在检测的时候对原图进行缩放即可：w=w×12/a。

anchorbox 的方法

原理类似，这里主要看 anchorbox 的最小 box，通过可以通过缩放输入图片实现最小人脸的设定。

如何定位人脸的位置

滑动窗的方式：

滑动窗的方式是基于分类器识别为人脸的框的位置确定最终的人脸。

图 4 滑动窗

FCN 的方式：

通过特征图映射到原图的方式确定最终识别为人脸的位置，特征图映射到原图人脸框是要看特征图相比较于原图有多少次缩放（缩放主要查看卷积的步长和池化层）。

假设特征图上(2,3)的点，可粗略计算缩放比例为 8 倍，原图中的点应该是(16,24)；如果训练的 FCN 为 12*12 的输入，对于原图框位置应该是(16,24,12,12)。

当然这只是估计位置，具体的在构建网络时要加入回归框的预测，主要是相对于原图框的一个平移与缩放。

通过 anchor box 的方式：

通过特征图映射到图的窗口，通过特征图映射到原图到多个框的方式确定最终识别为人脸的位置。

如何通过一个人脸的多个框确定最终人脸框位置？

图 5 通过 NMS 得到最终的人脸位置

NMS 改进版本有很多，最原始的 NMS 就是判断两个框的交集。如果交集大于设定的阈值，将删除其中一个框。

那么两个框应该怎么选择删除哪一个呢？因为模型输出有概率值，一般会优选选择概率小的框删除。

基于级联卷积神经网络的人脸检测（Cascade CNN）

Cascade CNN 的框架结构是什么？

级联结构中有 6 个 CNN，3 个 CNN 用于人脸非人脸二分类，另外 3 个 CNN 用于人脸区域的边框校正。

给定一幅图像，12-net 密集扫描整幅图片，拒绝 90% 以上的窗口。剩余的窗口输入到 12-calibration-net 中调整大小和位置，以接近真实目标。接着输入到 NMS 中，消除高度重叠窗口。下面网络与上面类似。

Cascade CNN 人脸校验模块原理是什么？

该网络用于窗口校正，使用三个偏移变量：

Xn:水平平移量，Yn:垂直平移量，Sn:宽高比缩放。

候选框口(x,y,w,h)中，(x,y)表示左上点坐标，(w,h)表示宽和高。

我们要将窗口的控制坐标调整为：

这项工作中，我们有种模式。偏移向量三个参数包括以下值：

同时对偏移向量三个参数进行校正。

训练样本应该如何准备？

人脸样本；

非人脸样本。

级联的好处

最初阶段的网络可以比较简单，判别阈值可以设得宽松一点，这样就可以在保持较高召回率的同时排除掉大量的非人脸窗口；

最后阶段网络为了保证足够的性能，因此一般设计的比较复杂，但由于只需要处理前面剩下的窗口，因此可以保证足够的效率；

级联的思想可以帮助我们去组合利用性能较差的分类器，同时又可以获得一定的效率保证。

基于多任务卷积神经网络的人脸检测（MTCNN）

MTCNN 模型有三个子网络，分别是 P-Net,R-Net,O-Net。

为了检测不同大小的人脸，开始需要构建图像金字塔，先经过 PNet 模型，输出人脸类别和边界框（边界框的预测为了对特征图映射到原图的框平移和缩放得到更准确的框），将识别为人脸的框映射到原图框位置可以获取 patch，之后每一个 patch 通过 resize 的方式输入到 RNet，识别为人脸的框并且预测更准确的人脸框，最后 RNet 识别为人脸的的每一个 patch 通过 resize 的方式输入到 ONet，跟 RNet 类似，关键点是为了在训练集有限情况下使模型更鲁棒。

还要注意一点：构建图像金字塔的的缩放比例要保留，为了将边界框映射到最开始原图上。

Facebox

（1）Rapidly Digested Convolutional Layers（RDCL）

在网络前期，使用 RDCL 快速的缩小 feature map 的大小。主要设计原则如下：

Conv1, Pool1, Conv2 和 Pool2 的 stride 分别是 4, 2, 2 和 2。这样整个 RDCL 的 stride 就是 32，可以很快把 feature map 的尺寸变小。

卷积（或 pooling）核太大速度就慢，太小覆盖信息又不足。权衡之后，将 Conv1, Pool1, Conv2 和 Pool2 的核大小分别设为 7x7,3x3,5x5,3x3。

使用 CReLU 来保证输出维度不变的情况下，减少卷积核数量。

（2）Multiple Scale Convolutional Layers（MSCL）

在网络后期，使用 MSCL 更好地检测不同尺度的人脸。主要设计原则有：

类似于 SSD，在网络的不同层进行检测；

采用 Inception 模块。由于 Inception 包含多个不同的卷积分支，因此可以进一步使得感受野多样化。

（3）Anchor densification strategy

为了 anchor 密度均衡，可以对密度不足的 anchor 以中心进行偏移加倍，如下图所示：

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人脸检测

人脸检测

+关注

关注
0

文章
80

浏览量
16457
cnn

cnn

+关注

关注
3

文章
352

浏览量
22204

人脸检测算法及新的快速算法

人脸检测算法及新的快速算法人脸识别设备凭借着便捷的应用，以及更加新潮的技术，俘获了不少人的好感。于是，它的应用也在日益的变得更加的广泛。由中国电子学会主办的全国图形图像技术应用大会，行业专家将介绍

发表于 09-26 15:13

【TL6748 DSP申请】基于TMS320C6748 DSP人脸检测及跟踪

芯片上方案比较少。我们尝试在定点DSP上处理人脸检测效率低，没有达到我们预期的目的。而TMS620C6748芯片是我们另外一个选择。该方案需要通过视频采集图像，利用图像检测算法获取运动目标

发表于 09-10 11:09

ARM嵌入式环境中FDDB第一的人脸检测算法的运行

YSQ（于仕琪）人脸检测介绍：YSQ人脸检测算法实现快速从视频帧中检测人脸并提取关键信息，支持多

发表于 07-29 06:49

PowerPC小目标检测算法怎么实现？

检测系统在低功耗、轻小型化等方面提出了更高的要求。因此,完成小目标检测任务不仅需要寻求合理的小目标检测算

发表于 08-09 07:07

分享一款高速人脸检测算法

目前优化了一款高速人脸检测算法，在 ARM设备的A73单核CPU(图像大小:860*540最小人脸大小：60*60)速度可以高达10-15ms每帧，真正的实时人脸

发表于 12-15 07:01

RK3399Pro是怎样去移植Tencent的mtcnn人脸检测算法的

RK3399Pro是怎样去移植Tencent的mtcnn人脸检测算法的？有哪些移植步骤？

发表于 02-15 06:15

基于YOLOX目标检测算法的改进

系统的关键任务之一，其主要的功能是检测前方道路上出现的目标的空间位置和目标类别。传统目标检测算法

发表于 03-06 13:55

基于码本模型的运动目标检测算法

本内容提供了基于码本模型的运动目标检测算法

发表于 05-19 10:54 •32次下载

改进的ViBe运动目标检测算法_刘春

改进的ViBe运动目标检测算法_刘春

发表于 03-19 11:41 •0次下载

深度学习在人脸检测中的应用

本文将主要从人脸检测方面来讲解目标检测。

发表于 07-08 09:54 •3194次阅读

基于深度学习的目标检测算法

整体框架目标检测算法主要包括：【两阶段】目标检测算法、【多阶段】目标

发表于 04-30 10:22 •1.1w次阅读

浅谈红外弱小目标检测算法

红外单帧弱小目标检测算法主要通过图像预处理突出小目标同时抑制背景噪声干扰，之后采用阈值分割提取疑似目标，最后根据特征信息进行

发表于 08-04 17:20 •6072次阅读

无Anchor的目标检测算法边框回归策略

导读本文主要讲述：1.无Anchor的目标检测算法：YOLOv1，CenterNet，CornerNet的边框回归策略；2.有Anchor的目标检

发表于 07-17 11:17 •1070次阅读

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于

发表于 07-19 14:35 •0次下载

基于Transformer的目标检测算法

掌握基于Transformer的目标检测算法的思路和创新点，一些Transformer论文涉及的新概念比较多，话术没有那么通俗易懂，读完论文仍然不理解算法的细节部分。

发表于 08-16 10:51 •649次阅读