0 引言
人脸作为图像与视频中最重要的视觉图像之一,在计算机视觉、模式识别、多媒体技术研究中占有很重要的地位。可视化分析和目标识别研究中最具有挑战性的任务之一就是理解人们如何处理和识别彼此的相貌,并进行相应的计算机建模来最终完成人脸的自动识别。近年来,随着计算机科学在人机交互领域的快速发展,作为人脸信息处理中的一项关键技术,人脸检测与识别现在已经成为模式识别与计算机视觉领域内一项受到普遍重视。无线视频监控系统将被监控点实时采集的图片、视频文件通过无线网络及时地传输给远程监控中心,实时动态地报告被监测点的情况,及时发现问题并进行处理。
本文提出了一种有效的无线远程人脸追踪系统的解决方案。采用AdaBoost算法进行人脸的检测,选择了Haar特征方法,把训练得出的Haar特征转换成弱分类器,通过一定的方法将弱分类器进行组合构成强分类器,对分类器进行训练后应用到图像中进行人脸区域的检测,从而得到较准确的人脸信息;采用GPRS技术进行人脸图像数据的无线传输,通过GPRS/CDMA无线窄带网络连接Internet互联网络,在无线视频监控终端对视频信号进行实时采集,无线传送到远程服务器;采用Gabor小波进行特征提取,获得人脸图像的Gabor特征;采用SVM进行分类,对人脸图像进行分类识别,得出识别结果,对符合条件的人脸给出警报。本系统可以应用于商场、机场、车站、地铁站等场所。
1 视频图像处理
1.1 去噪处理
图像在生成和传输过程中常受到各种噪声的干扰和影响,使图像质量下降。所以在进行图像分析和处理之前都需要对图像进行去噪处理。噪声的模型按照对图像的影响可以分为加性噪声模型和乘性噪声模型两大类。假设,f(x,y)为原始图像,g(x,y)为有噪声的图像,n(x,y)为噪声。
加性噪声模型为:
g(x,y)=f(x,y)+n(x,y) (1)
乘性噪声模型为:
g(x,y)=f(x,y)[1+n(x,y)] (2)
空域中去噪方法包括:中值滤波、均值滤波等。中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性处理技术。其核心运算是将模板中的数据进行排序,这样一个亮点(暗点)的噪声,就会在排序过程中被排在数据序列的最右侧或最左侧,因此,最终选择的数据序列中间位置上的值一般不是噪声点的值。由此便可以达到抑制噪声的目的;均值滤波实际上就是用该像素对应的模板中各像素值的均值替代该像素的像素值,均值滤波的方法是,对待处理的当前图像,选择一个模板,该模板为其近邻的若干像素组成,用模板中像素的均值来替代原像素值。
1.2 亮度调整
由于采集图像时的光照强度和相机自身性能的不同,使得采集到的图像的亮度有许多不同。而本文的人脸检测是基于特征的,特征值与图像的灰度值有很大关系。所以即使图像对应的特征结构相同,但是由于亮度不同,通常会被分类器认为是不同的图像。所以无论是在训练分类器阶段还是在检测阶段都需要对图像进行亮度的调整,需要将不同亮度的图像调整到同一范围。常用的亮度调整技术包括:线性动态范围调整、非线性动态范围调整、直方图均衡化等。线性动态范围调整的方法是其中比较简单的一种,计算量也比较小。调整的计算公式如下:
1.3 图像的形状变换
图像形状变换是指用数学建模的方法对图像形状发生的变化进行描述的过程。最基本的图像变换包括图像的缩小、放大、旋转等。本文中的训练阶段和检测阶段都需要对图像进行形状的变换,比如在建立训练样本库的时候将不同尺寸的图像归一化到19×19的尺寸。图像缩小从物理意义上来说,是将描述图像的物理尺寸缩小相应的倍数。数字图像的缩小是通过减少像素个数来实现的,所以就需要根据所期望缩小的尺寸数据,从原图像中选择合适的像素点,使图像缩小之后可以尽量保持原有的特征不丢失。
图像放大,从物理含义上来讲是指图像缩小的逆运算。但是图像放大是从小数据量到大数据量的过程,因此需要对许多数据进行估计。由于图像相连像素之间的相关性很强,所以可以利用这个相关性来实现图像的放大。比较好的图像放大的方法是双线性插值法,该方法不是将原图像的像素复制到子快中,而是只填写在子快的某一个像素的位置上。采用双线性插值的方法可以平缓像素块之间的过度,有效的抑制了马赛克现象的产生。本文采用了双线性插值的方法。
基于AdaBoost算法人脸检测#e# 2 基于AdaBoost算法人脸检测
2.1 AdaBoost人脸检测算法
AdaBcoost是一种基于分类器的算法,其基本思想是利用大量的分类能力较弱的弱分类器通过一定方法叠加起来形成分类能力很强的强分类器。理论证明,只要每个弱分类器分类能力比随机猜测好,当分类器的个数趋于无穷时,强分类器的错误率将趋于零。该算法根据人脸面部的主要灰度分布特征,选择采用了Haar特征。Haar特征是一种基于积分图像的特征,主要用于灰度图像中,该特征计算比较简单,提取速度相对较快。Adaboost算法首先提取样本图像中的Haar特征,然后通过在训练过程中选取出最优的Haar特征,再将训练得出的Haar特征转换成弱分类器,最终通过一定的方法将这些弱分类器进行组合构成强分类器。分类器训练完之后,就可以将其应用到图像中进行人脸区域的检测。由于人脸可能在图像中的不同位置出现,所以必须在被检测的图像中移动搜索窗口。
对于一个训练集(xi,yi),…,(xL,yL),其中xi是输入的训练样本,yi是样本类别标志,yi∈(1,0)对应真假样本。在开始训练前,对所有训练样本均赋予一个初始权值,然后用AdaBoost学习算法对训练样本进行T轮训练,在每一轮训练结束后,从若干个简单分类器中选择误差最小的那个作为该轮选出的一个弱分类器hi。选好了弱分类器之后,将所有弱分类器进行线性组合就构成了强分类器。
训练过程主要包括以下几个模块:
(1)样本的采集,对样本进行图像预处理,形成样本集;
(2)以样本集作为输入,计算并获得矩形特征值集;
(3)对特征值集进行优化处理,选出分辨能力好的特征;
(4)采用AdaBoost算法,在每一轮迭代过程中采用穷举搜索法确定每个特征对应的简单分类器的阈值,获得简单分类器集,并保存其对应的参数;
(5)选出错误率最低的简单分类器作为本轮最优的弱分类器;
(6)将训练得到的弱分类器根据其分类能力赋予不同的权重,然后线性组合构成强分类器。
2.2 AdaBoost检测过程
级联分类器应用于人脸检测是由Viola提出的,这使得人脸检测能在很高检测率下同时达到实时的检测速度。级联分类器由一系列强分类器的组合而成,图像依次通过每一个强分类器,最终通过全部分类器的区域被检测为人脸。每一层的强分类器由AdaBoost算法训练得到,但是组成强分类器的弱分类器个数随着级数的增加而增加。通过参数的调整可以使前面几层几乎让所有人脸通过,从而拒绝很大一部分非人脸,而后面几层则对被前面几层判断为人脸的图像进行更加严格的检测。由于前面几层使用的弱分类器数目比较少,只是有几个重要的特征组合而成,而且排除了大量非人脸区域为后续的检测减少了检测对象数目,所以计算速度比较快。
假定级联分类器由K个强分类器组成,第i级强分类器的误检率为fi,检测率为di,则最终的误检率F和检测率D分别为:
测试图像来自生活中的实际数码照片与从互联网上收集的图像,包括不同人种、不同年龄的正面图像,人脸检测结果如图1所示。
3 基于GPRS技术的窄带数据传输
通用无线分组业务(General Packet Radio Service,GPRS)作为第2代移动通信技术GSM向第3代移动通信(3G)技术的过渡技术,是由英国BT Cellnet公司早在1993年提出的,是GSMPhase2+(1997)规范实现的内容之一,是一种基于GSM的移动分组数据业务,面向用户提供移动分组的IP或者X.25连接。GPRS是一项高速数据处理的科技,它以分组交换技术为基础,用户通过GPRS可以在移动状态下使用各种高速数据业务。
通过GPRS网络建立TCP连接传输数据和指令有2种方式:
(1)监控终端通过GPRS Modem与GSM基站通信,GPRS分组数据包从GSM基站发送到GPRS服务支持节点(Serving GSN,SGSN),再由SGSN送到GPRS网关支持节点(Gateway GPRS Supporting Node,GGSN),GGSN把收到的包进行处理,转换为可在Internet中传送的格式,最终送给远程视频服务器端。GGSN在GPRS网络和公用数据网之间起关口站的作用,它可以把GSM网中的GPRS分组数据包进行协议转换,从而可以把这些分组数据包传送到远端的TCP/IP或X.25网络。
(2)监控终端的GPRS Modem通过GPRS网络,直接与远程视频服务器端的GPRS Modem进行点对点通信,然后通过串口把数据发送给视频服务器。
整个智能网络视频监控系统分为现场视频采集、处理模块和远程视频服务器2部分,现场视频采集和处理模块在上电后自动寻找远程视频服务器,而远程视频服务器在与现场视频采集和处理模块建立TCP连接后,可通过发送指令来远程控制静态图像编码的传送。
本文无线视频监控通过无线视频监控终端对视频信号进行实时采集和压缩,以压缩图片格式(JPEG,JPEG2000等)并通过无线网络传送到远程视频服务器。实现发送实时压缩图片。视频服务器使用套接字通信,应用程序采用面向对象的方法。视频服务器与监控终端之间使用C/S模型。程序中视频服务器作为服务器,监控终端作为客户端。服务器端软件主要完成监听客户端发送的连接请求;同时接收来自多个监控终端的压缩图像数据;保存、查看和管理监控终端的图像数据。
在监控端通过监控设备监测,运算并获取人脸图像数据,并通过GPRS网络通信技术对人脸图像数据进行无线传输,服务器终端进行接收。为了减少传输流量负荷,人脸图像大小归一化为19×19,从而保证了每个摄像头传输占用不超过20 Kb/s的带宽,使得整个网络保证在一个可以承受的范围内。
4 基于Gabor和支持向量机的人脸识别
4.1 Gabor小波特征提取
Gabor函数由Dennis Gabor于20世纪40年代提出的,后来被J Daugman首先用于表征图像,并用于视觉方面的研究。随着计算机的不断发展,成为非常流行的图像处理方法。二维Gabor滤波器是一种典型带通滤波器,由于它具有良好的方向选择性和频率选择性,因此Gabor滤波器被广泛应用于图像分析、图像理解等计算机视觉领域,以获取图像信号的空间频率(尺度)、空间位置和方向选择性的局部结构信息。
人脸图像的Gabor特征由人脸图像和Gabor滤波器的卷积得到。通常的Gabor特征抽取方法是:设为人脸样本图像的灰度分布,则在选定Gabor虑波器参数后,对样本图像中抽样点(x,y)提取的特征由下式表示:
式中:G为Gabor函数在点(x,y)处的离散值;(a,b)为Gabor滤波器窗口大小;(w,h)为图像的尺寸大小。这样得到的图像在点(x,y)处的40个Gabor幅值特征对应于以该位置为中心的局部区域的能量分布,将这40个幅值特征级联起来构成该位置的Gabor特征,通常称为一个Jet,位置点(x,y)处的Jet表示为:
Jet(x,y)=(Jet(x,y)vμ) (7)
将所有抽取点提取的Gabor特征构成一张人脸样本的特征矢量:
F1={Jet(x,y)|0≤y≤h} (8)
显然,对于一副19×19大小的人脸图像如果按上述方法逐个象素抽取Gabor特征,得到的Gabor特征向量F的维数为19×19×40=14 440,远远高于原始图像的维数19×19=361。如果直接利用这样的高维Gabor特征矢量进行分类器的训练和图像识别,将产生通常所讲的维数灾难。因此必须对高维Gabor特征矢量进行适当的降维。
4.2 支持向量机SVM
支持向量机(Support Vector Macine,SVM)是一种对线性分类器的最优设计方法论。它对非线性、高维数的小样本人脸识别问题有非常好的分类效果和学习推广能力,是目前模式识别的常用的分类器。
SVM从线性可分情况下的最优分类面发展而来。设2类可分样本集(xi,yi),i=1,2,…,n;
人脸识别属于非线性问题,根据模式识别的理论,总可以将低维空间非线性可分得问题映射到高维空间,使其在高位空间线性可分。从而把非线性可分的问题转化为线性可分问题。利用核函数K(xi,x)可将输入向量x映射到高位空间进行分类,此时最优分类超平面的决策函数式变为:
常用的核函数有:线性核函数K(xi,x)=(xix);多项式核函数K(xi,x)=[(xix)+1]d;径向基核函数;Sigmoid核函数。
对于多类模式识别问题,SVM可通过2类问题的组合来实现。通常有2种策略:“一对一”策略,即分类的每一步将其中的任意2类模式分开,这样,对于N类问题,则需要N(n-1)/2个支持向量机分类器;另一种“一对多”策略,即分类的每一步将其中的一类模式和其它的所有模式分开,这样,对于N类问题,则需要N个与每个类对应的支持向量机分类器。本文采用“一对一”的策略来的人脸进行分类识别。
人脸图像库来源于http://www.ai.mit.edu/projects/cbcl。训练集包括6 977个19×19图像样本,2 429张的人脸和4 548张非人脸。本文选用了库中的1 000幅人脸图像,2 000幅非人脸图像。由于MITCBCL数据库中的人脸都是国外的,所以笔者采集了500幅国内的人脸图像,并将其标准化为19×19的尺寸。所以人脸总数共1 500幅,非人脸图像总数共2 000幅。实验结果如表1所示。
5 结语
本文采用AdaBoost算法进行人脸的检测,根据人脸面部的主要灰度分布特征,选择采用了Haar特征,通过在训练过程中选取出最优的Haar特征,再将Haar特征转换成弱分类器,最终组合构成强分类器,应用到图像中进行人脸区域的检测,得到较准确的人脸信息。采用GPRS技术进行人脸图像数据的无线传输,通过无线视频监控终端对视频信号进行实时采集,并通过无线网络传送到远程视频服务器。采用Gabor小波进行人脸特征提取,采用SVM进行分类,采用“一对一”的策略来的人脸进行分类识别。
虽然本文从各方面都考虑了算法的有效性,但是在实际运行中还是存在不足的地方,如摄像头达到一定数量时,传输速率受到一定影响,如何保证传输速率和图像较少失真问题有待进一步研究解决。
评论
查看更多