从图像数据角度为人脸识别准确率的提高提出的建议-电子发烧友网

编者按：作为目前人工智能界著名的独角兽，商汤科技在图像处理和人脸识别技术领域处在世界前沿的位置。近日，该公司在arXiv上发表论文The Devil of Face Recognition is in the Noise，从图像数据角度为人脸识别准确率的提高提出了建议。

在进行人脸识别的任务时，数据集是其中的关键。从早期的FERET数据集到最近的LFW、MegaFace和MS-Celeb-1M，数据集在新技术的发展上有着不可或缺的作用。这些数据集不仅仅提供了更加丰富的资源，而且数据规模也有了非常大的提高例如，MS-Celeb-1M包含大约1000万张图片，其中有10万个人物，远远超过只有14126张图像、1199个人的FERET数据集。大型数据集，再加上深度学习技术，让人脸识别在这几年取得了巨大的成功。

然而，大型数据集不可避免地会受到标签噪声的影响。这一问题很普遍，因为经过良好标注的大型数据集得来的成本非常高昂，所以这也促使科学家们寻找便宜但并不完美的替代方法。一种常见的方法是根据人名在网络上查找他们的照片，再用自动或半自动方法对标签进行清理。另外还有些方法会在社交网站上手机照片。上述方法都是扩大训练样本的简便方法，但同时也会带来标签噪声，给训练和模型带来负面效果。图1就是含有标签噪声的一些样本：

图1

可以看到，MegaFace和MS-Celeb-1M都含有相当多的错误标签，有些噪声标签可以轻易消除，但是大部分想要消除还是很困难的。在MegaFace中还有很多重复的图像（最后一行）。

所以，本文的首要目标是探究标签噪声的来源，以及在深度卷积神经网络中，这些噪声会给人脸识别造成何种后果。我们主要考虑的问题有：想要达到清理数据的目的，需要多少噪声样本？噪声和最终的模型性能之间有何种关系？标注人脸的最佳策略是什么？对这些问题的理解将有助于我们设计更好的数据收集和清理方法，同时防止在训练过程中造成危险，以形成能应对现实问题的强大算法。

其次，本文的第二目标是为社区建立一个干净的人脸识别数据集。该数据集能帮助研究人员训练更好的模型，并且进一步了解噪声和人脸识别性能之间的关系。

现存数据有多少噪音？

这一部分中我们会介绍几种流行的数据集，之后会分析他们各自的信噪比。目前用于人脸识别研究的数据集大致如下表所示：

了解各数据集所含数据后，我们想大概估计每个数据集中的噪声分布。但由于数据集体积过大，想计算确切的数字不那么容易，所以我们随机选择了数据集的子集，然后手动将它们分为三个类别：“正确识别”、“待定”和“错误识别”。

从各数据集中抽取一部分数据后，大概情况如图2a所示：

图2a

可以看出，数据规模越大，信噪比越大。

之后，我们又对两个最大的数据集——MS-Celeb-1M和MegaFace进行噪声分布分析。我们首先根据图片数量对数据集中人物进行分类，最终生成了6个类别，通过下图可以看出每个类别的信噪比。

可以看出，大多数目标只有很少的图像与之对应，这一情况在MegaFace上更明显，因为它是用自动方法收集的数据。与MS-Celeb-1M相比，MegaFace的噪声似乎更少，但是我们发现在MegaFace干净的数据集中，有很多重复图像。

打造自己的清洁数据集

通过分析我们得出，一个含有超过一百万张图片的数据集，信噪比通常高达30%。为了创建一个干净的数据集，我们不仅在收集人脸数据时找寻更干净、更多样的来源，更重要的是找到一种高效的数据标记方法。

从IMDb中搜集人脸图像

被大家广泛使用的ImageNet是直接从谷歌图片中搜索来图像的，其他数据集也大多如此，但这样做的坏处是存在数据偏见。从图3中我们可以看出，从搜索引擎中搜到的图片背景都很简单，光线充足，大都是图片的前景。而在实际的视频中，人脸图像并没有这么清晰。另外，从搜索引擎中得到的图片通常查全率很低，经过研究我们发现，在200张照片中，平均查全率只有40%。

图3

在这项研究中，我们从IMDb网站搜集图像，因为该网站结构化程度更高，每个人物的照片种类也比较多，包括官方照片、生活照、电影剧照等等。另外，这里的查全率更高达90%。最终我们收集了170万张名人的照片，其中有5900位明星。

标记处理

我们对数据进行了清洗，但是清洗的方法有以下三种：

第一种，志愿者们在图片中圈出目标人物；第二步，在三个候选图像中，志愿者们要选择对应目标图像的那张图片；第三步，直接进行判断，Yes or No。

最终，三种方法的ROC曲线如图：

可以看到第一种方法的F1分数最高，误报率不超过10%。第三种方法的效果最差。另外，我们还发现一个有趣的现象，即当志愿者标注的时间越长，标注的准确性越高。

实验过程

实验分为四个部分。首先，我们在提出的数据集上添加模拟噪声，进行控制变量研究。这有助于我们观察在由噪音的情况下性能的下降。

之后，我们会在两个现有数据集上进一步实验，探索噪音的影响。

第三，将我们的数据集和其他传统数据集进行对比，验证其有效性。

最后，将在我们数据集上训练的模型和其他模型进行对比。最终结果如下表：

我们的模型IMDb-Face得到了目前的最高分数。

结语

与目前流行的专注于复杂损失和CNN结构的研究不同，我们从数据的角度来研究人脸识别问题，尤其是对标记噪声的来源有了一定认识。最终我们新建的IMDb-Face数据集也成为了打造大型干净数据集的重要基础。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47258

浏览量
238412
人脸识别

人脸识别

+关注

关注
76

文章
4012

浏览量
81886
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121151

原文标题：商汤科技：图片噪声才是人脸识别背后的恶魔

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

基于RBM实现手写数字识别高准确率

DL之RBM：基于RBM实现手写数字识别高准确率

发表于 12-28 10:19

请问谁做过蚁群算法选择图像特征，使识别准确率最高？

请问谁做过蚁群算法选择图像特征，使识别准确率最高？有学习资料或者matlab代码可以让我学习一下吗

发表于 02-17 17:20

分享一款高速人脸检测算法

目前优化了一款高速人脸检测算法，在 ARM设备的A73单核CPU(图像大小:860*540最小人脸大小：60*60)速度可以高达10-15ms每帧，真正的实时人脸检测算法，算法

发表于 12-15 07:01

如何提高Stm32F746G准确率？

你好带时钟的教程 3。如何提高准确率？最好的祝福安杰伊

发表于 01-12 07:26

国产工业级RK3568核心板-AI人脸识别产品方案

，自动对焦等功能的摄像头模组，以保证图像质量和拍摄效果。在图像采集的过程中，可以使用RK3568内置的ISP图像处理单元对图像进行优化，提高人脸

发表于 05-06 14:30

人工智能首次超过人眼准确率 人脸识别准确度已经提升4个数量级

随著算法的提升，应用边界不断扩大，人工智能(AI)人脸识别技术的准确率首次超过人眼准确率，人工智能如何通过云和端改变生活和未来。

发表于 02-06 12:42 •1.4w次阅读

人脸识别技术可以达到99．84％的准确率，实现了飞速的发展

经过40多年的发展，人脸识别技术取得了长足的进步，目前最优的系统识别率在样本数字比较大的情况下可以达到99．84％的准确率，甚至超过了人类的识别

发表于 09-07 15:13 •9912次阅读

人脸识别准确率大幅度提升，离不开科技企业的努力

根据 NIST 2018年发布的成绩，目前全球最好人脸识别技术水平为千万分之一误报下的识别准确率接近 99%(yitu-001)，这意味着受限场景下，在千万分位误报上，人类已经将机器的

发表于 09-30 09:17 •1889次阅读

“抗人脸识别”的 AI 让准确率从100%狂降只剩0.5%

摘要: 人脸识别的各项应用推陈出新，隐私疑虑却未曾消除。现在有学者研发“抗人脸识别”的 AI，可以让人脸

发表于 03-04 13:31 •1386次阅读

报告指出口罩正在挫败常规的人脸识别算法，提高错误率

7月，NIST发布了一份报告，指出口罩正在挫败常规的人脸识别算法，错误率从5%到50%不等。NIST被广泛认为是人脸

发表于 08-28 14:48 •523次阅读

可提高心电信号分类识别准确率的模糊决策树

为提高心电信号分类识别的准确率，提出一种基于时频特征融合与动态模糊决策树的心电信号分类识别方法。对心电信号依次进行周期分割、小波包分解与重构

发表于 05-28 10:34 •14次下载

人脸识别技术的挑战和未来发展

人脸识别技术在实现过程中面临着一些挑战和问题。首先，人脸识别技术需要具备高准确率和识别速度，以

发表于 06-28 18:07 •874次阅读

智慧矿山：AI算法为何能提高未戴安全带识别准确率！

未穿戴安全带识别AI算法是智慧矿山的重要应用之一，可以提高矿山工作人员的安全意识和降低事故发生的概率。为了提高识别准确率，研究人员可以优化

发表于 10-22 22:01 •451次阅读

ai人工智能回答准确率高吗

，AI可能表现出较高的准确率。例如，在图像识别、语音识别等领域，经过大量训练的AI系统通常能够取得令人满意的准确率。然而，在其他领域或场景下，AI的

发表于 10-17 16:30 •3060次阅读

如何提升人脸门禁一体机的识别准确率？

准确率，可以从以下几个方面进行改进。一、优化算法与模型人脸识别的核心在于算法的优化和模型的调整，目前深度学习技术在图像识别中的应用取得了显著

发表于 12-10 15:05 •139次阅读

搜索历史

从图像数据角度为人脸识别准确率的提高提出的建议

现存数据有多少噪音？

打造自己的清洁数据集

标记处理

实验过程

结语

评论

基于RBM实现手写数字识别高准确率

请问谁做过蚁群算法选择图像特征，使识别准确率最高？

分享一款高速人脸检测算法

如何提高Stm32F746G准确率？

国产工业级RK3568核心板-AI人脸识别产品方案

人工智能首次超过人眼准确率人脸识别准确度已经提升4个数量级

人脸识别技术可以达到99．84％的准确率，实现了飞速的发展

人脸识别准确率大幅度提升，离不开科技企业的努力

“抗人脸识别”的 AI 让准确率从100%狂降只剩0.5%

报告指出口罩正在挫败常规的人脸识别算法，提高错误率

可提高心电信号分类识别准确率的模糊决策树

人脸识别技术的挑战和未来发展

智慧矿山：AI算法为何能提高未戴安全带识别准确率！

ai人工智能回答准确率高吗

如何提升人脸门禁一体机的识别准确率？