在科技爆发的时代,人工智能(Artificial Intelligence, AI)技术越来越常出现在我们生活。AI技术表示能够让机器具有类似人类的智慧,可用来提升人们的生活质量、工作效率等。以日常生活中常见的摄影机为例,这些摄影机可以组成一套监控系统,守护我们的安全。受惠于消费电子产品的发展与低廉的价格,一般民众也能在自己的家里安装摄影机,目的通常是为了居家监护,观测是否有人进出画面、随时注意家中宝宝的状态,或者观看宠物的最新动向。市面上的摄影机产品大多具有人物侦测,甚至是人脸或口鼻侦测等相关功能。这些功能可以自动判断画面中的信息,让我们得知人物出现的时机,不需要长时间观看画面去追寻特定的人物。而当我们谈到人物侦测时,最广为人知的方法就是「人脸侦测」(detection),藉由分析人脸的器官部位特征,如:眼睛、鼻子、嘴巴等,可以得知画面中是否有人脸。另一个进阶应用为「人脸识别」(recognition),用来辨识人脸的身分为何,此技术需要事先建立数据库搜集每个人员的脸部特征,因此常引来隐私权的争议。本文将探讨人脸侦测的原理,并说明可能遇到的潜在问题。
传统人脸侦测的原理
传统的人脸侦测做法,需要分析图片上每一个像素点(pixel)的RGB色彩值,这种作法会花费大量的运算资源与时间。根据相关的研究论文,研发出分析方法的团队使用哈尔小波转换(Haar wavelet)的概念来设计一个分析影像特征的方法,称为哈尔特征(Haar-like feature),藉由搜集人体的身形轮廓特征,可以在图片上侦测是否有人物出现。
图一(a)即为举例说明边缘线条的哈尔特征。后来团队扩充此方法,发展为成脸部侦测的系统。因为人脸轮廓具有一定的规律性,特别是在眼睛、鼻子、嘴巴区域,此处的轮廓特征最为明显。图一(a)的左半部则为哈尔特征,用来分析画面中的轮廓是否与已有的轮廓特征方格相近。以图一(b)的上方为例,就是将特定影像区域的内容与哈尔特征进行分析,计算两者的相似度。当影像内容与哈尔特征完全相同时,所得到的相似率为1。然而,实际影像不可能会与哈尔特征完全相同,如图一(b)的下方。此相似率可以协助我们评估画面上的对象是否符合指定特征。
图一:哈尔特征的样式与计算范例。
藉由收集相关的特征数据,能够建立一个数据库来描述人脸的特征,进一步让计算机判断是否有人脸出现在画面上。以鼻子为例,鼻翼四周的轮廓就是一个很明显的脸部特征。
然而,当计算机进行分析时,就需要计算指定图片区域的像素点数值,这个计算量往往相当庞大。以图一的为例,当我们计算4×4的图片区域时,里面一共有16个像素点,若要计算该区域的数值总和时,直觉的做法是将这16个点加在一起。此方法虽然简单,但图片尺寸变大、需要分析的特征变多时,会消耗大量的运算资源与时间。因此,研究人员进一步提出一系列的方法来缩短整体流程,首先是积分图(integral image),此方法会在起始阶段扫描整张图片并计算每个像素点的累加值。回到先前的例子后,计算图片区域的数值总和时,只需要计算4个像素点的信息。以图二为例,当我们想要计算灰色区域的数字总和时,直觉做法为将6个像素点的数值累加起来。而积分图的做法是先建立一个像素点的累加值,然后再选取邻近四个像素点的数值进行运算,如图二积分图中被粗框框起来的数值。此作法可以大幅度降低运算成本,不论计算的范围有多大,只需要4个数值的运算即可得到区域的总和。
图二:积分图例子。
后续的研究还有结合自适应增强(adaptive boosting, AdaBoost)与串接(cascade)技术,判断画面上是否有特定的脸部器官,若有符合条件(如:发现鼻子)才会进行后续的分析。此流程的执行速度能够在一秒钟处理15张图片(frame per second, FPS),可用于实时的对象侦测。这个技术被广泛用在现有的人脸侦测系统,网络上也有许多教学供有兴趣的人去研究使用。
灰阶加速运算,却产生公平性争议
值得注意的是,这些人脸侦测的系统都会把彩色图片转换成灰阶(grayscale)样式,研究人员也有特别说明这一点,这套快速的侦测系统仅适用于灰阶的图片。在人类眼中,我们能够看到各式各样的色彩。对计算机来说,也常使用RGB色彩空间来定义颜色,一张彩色的图片可以用RGB三个通道来描述内容。以一个像素点来说,它的颜色一共有255×255×255(约1658万)种组合。如果采用灰阶的色彩空间,一个像素点只有255种组合。当计算机在分析图片的时候,使用灰阶图片可以降低大量的运算资源并缩减时间。此外,灰阶的程序代码复杂度也较低,如果一开始使用彩色空间进行轮廓分析,需要考虑各种信息,如:亮度、色差⋯⋯等,将这些信息纳入分析之后,整体执行效率往往比灰阶图片还要慢。基于效率的需求,大多辨识系统的流程都会先将彩色照片转换为灰阶照片,期望能够快速地获得结果。
然而,这种做法会遇到一些潜在的问题,肤色浅的人种在此系统中会有较好的辨识效果,肤色深的人种会不易被辨识,由于人权意识的兴起,AI技术的公平性也常受到检视。回顾先前提到的数据处理流程,他们会先将彩色照片转换为灰阶照片,然后再分析灰阶照片上的轮廓特征,检查是否有特定轮廓的信息。以图三为例,有3种不同肤色的人脸示意图,当转换成灰阶照片后,可以发现肤色深的轮廓较不明显。根据后续的研究数据显示,研究人员将搜集的皮肤颜色数据集大致分为3种类型:淡色皮肤、棕黄皮肤、深色皮肤。图三的人脸图片参考所统计的皮肤色码,然后使用脸部侦测来观察各自的辨识效果。
图三:不同肤色的脸部侦测流程。
这3张图片都属于人脸,唯一的差别只是肤色不同,理论上应该都能够被侦测到。当这3张图片转换成灰阶照片后,我们观察鼻子附近的轮廓,可以发现深色皮肤的鼻子轮廓较不明显。这些照片套用先前提到的哈尔特征计算方式,即黑色区域与白色区域的数值相减,浅色皮肤的照片会得到较高的相似率,而深色皮肤会得到较低的相似率。从上面的例子可以得知,肤色浅的人种在此模型中会有较好的辨识效果,而肤色深的人种会不易被辨识。其背后原因和跟运算流程有关,因为将彩色图片转成灰阶图片可以大幅缩减运算时间,但对于不同肤色的人种会有不同的侦测结果。对当初的开发者来说,他们仅是想要提出一套快速的侦测方法,但此方法间接产生公平性的议题,这个影响也是始料未及。
对象侦测技术YOLO的发展与争议
除了人脸侦测的技术以外,对象侦测(object detection)技术在计算机视觉(computer vision, CV)研究领域也受到许多注目,因为摄影机的画面通常包含许多信息,如:宠物、车辆等,对象侦测可以自动分析画面中的对象种类。以YOLO(You Only Look Once)为例,此方法直接将整张原始(彩色)图片输入至卷积神经网络(convolutional neural networks, CNN)进行分析,并且依靠图像处理器(graphicsprocessing unit, GPU)的运算能力,一秒钟可以处理45张图片,表示已能够进行实时对象侦测。YOLO发表之后受到许多人的关注,累积至2021年10月的论文引用数已高达1万9千多次。YOLO的作者后来发表YOLOv2与YOLOv3的研究,提供更快速、更精准、可识别更多对象的能力,并且开放原始码让有兴趣的研究团队可以研究他们技术。
然而,YOLO的作者雷德蒙(Joseph Redmon)在2020年于个人twitter发表了一段令人震撼的宣言:
I stopped doing CV research because I sawthe impact my work was having. I loved the work but the military applicationsand privacy concerns eventually became impossible to ignore.
雷德蒙表示虽然个人很热爱计算机视觉的研究,但发现到其研究成果在很多领域产生影响,特别是军事应用与个人隐私的问题,这些伦理议题是无法忽略的,因此选择离开计算机视觉的研究,让其他人继续接手相关研究。YOLO官网后来仍发布新版的YOLOv4的信息,作者就不再出现雷德蒙的名字,取而代之是原本的程序代码维护者。
审核编辑:汤梓红
-
计算机
+关注
关注
19文章
7511浏览量
88094 -
RGB
+关注
关注
4文章
799浏览量
58559 -
AI
+关注
关注
87文章
31000浏览量
269331 -
人工智能
+关注
关注
1791文章
47354浏览量
238794
原文标题:生活中的AI应用:浅谈人脸侦测原理及衍伸的伦理议题
文章出处:【微信号:易心Microbit编程,微信公众号:易心Microbit编程】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论