0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软删除知名数据集 拨开数据隐私的迷雾

lviY_AI_shequ 来源:yxw 2019-06-26 17:25 次阅读

微软在日前删除了一个名人图片数据集。这个本为世界上最大的公开人脸识别数据集,现在已经不能通过微软的渠道访问。

在这次「静默」删除行为背后,又牵扯到了哪些问题呢?

微软想解决的麻烦:MS Celeb 名人数据集

MS Celeb 1M 数据集,最早是微软在 2016 年发布,其中共包含了10 万个名人,近 1000 万张面部图片,而这些数据都是从网络上搜集而来。

从网络中 100 万个名人中,根据受欢迎程选出 10 万个,然后利用搜索引擎,跳出每个人的大约 100 张图片,就得到了这个庞大的数据集。

MS Celeb 数据集中的 Jobs 图片,

其中绿色是年轻时代的图片,红色是合成图像

而这个数据集最初是用来服务比赛的。MSR IRC是世界上最高水平的图像识别赛事之一,MS Celeb 1M 数据集最初就是这个赛事所用。

MS Celeb 1M常被用来做面部识别的训练。但对于这些图片均来自网络,所以也曾受到了质疑。而微软则表示,是根据「知识共享许可 C.C 协议」,来抓取和获得这些图像的。

根据协议,可以将照片重新用于学术研究,(照片中的人物并不一定授权许可,而是版权所有者授权。)但微软发布数据集后,却并不能掌管它的使用。英国「金融时报」进行了一项深入调查,结果表明数据被大量的用在了多个企业测试中。

包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用这个数据集的情况。

而这就涉及到了数据集使用的一些规范性问题,一位研究人员还指出,这涉及到人脸识别图像数据集的伦理,起源和个人隐私等问题。

删除原因:负责该数据集的员工离职?

微软已经在线上默默地删除了MS Celeb 1M,并没有特别的说明。

Github 上数据集的下载页面已经变成了 404

在金融时报的报道中,微软表示「该网站主要目的是用于学术,」而删除它的原因是,「负责运营这个项目的员工离职了,不再与微软合作,所以进行了删除。」

我们都相信肯定有其他原因,可能也有数据集图片存在的问题。虽然微软称数据集均来自于公众人物的照片。但其中还包括少量非知名人物。这部分人脸照片的所有者,对微软使用他们的名称和图像信息,曾提出过质疑和批评。

还有技术人员推测,微软可能会因违反欧盟《通用数据保护条例》(GDPR)而删除数据,该法规于去年生效,旨在建立起数据安全的保护措施。

GDPR对个人信息的保护及其监管

达到了前所未有的高度

但微软表示,它们没有涉及到 GDPR 的条款,数据集相关网站退役只是因为,「曾经的竞赛已经结束」。

当然,此次微软移除 MS Celeb 数据集,并不妨碍它在学术研究等途径的正常使用。那些用于处理数据库的工具,现在也可正常访问。

常用公开数据集,也可能有隐私问题

在英国「金融时报」调查之后,还有另外两个学术单位也删除了相关的数据集:分别是杜克大学的Duke MTMC 监控数据集,和斯坦福大学的Brainwash 数据集。

关于数据集和隐私问题,这不是第一次进入人们的视野。在今年 1 月底,IBM 发布了百万级别的无偏见「人脸多样性」数据集,就曾引发了广泛的争议。

虽然 IBM 强调此举是为减少面部识别中的「偏见」问题,但数据集的来源,人物的是知情度等问题,都引发了不少质疑声。

有媒体还报道, IBM 表示会按照被摄影者的意愿,删除数据集里的相关照片,但都只是一面之词,并没有实际的行动。

今年 5 月,旧金山曾颁布法令

禁止政府机构使用人脸识别技术

对于数据集的采集和使用规则,还是一个很不太明确的区域,尤其是网络便利之后,很多机构都能轻易地获得大量图片,用于面部识别等用途。

其实,对于数据集涉及的隐私问题,解决方案可以很简单:关乎到用户个人隐私信息时,应保证用户的知情权,确保用户是否愿意贡献数据。

但似乎缺少的从来都不是方法,而是意识。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6553

    浏览量

    103891
  • 数据采集
    +关注

    关注

    38

    文章

    5806

    浏览量

    113418
  • 人脸识别
    +关注

    关注

    76

    文章

    4002

    浏览量

    81663
收藏 人收藏

    评论

    相关推荐

    NetApp数据恢复—NetApp存储WAFL文件系统下误删除数据恢复案例

    NetApp某型号存储,WAFL文件系统。 工作人员误操作将该NetApp存储中的重要数据删除
    的头像 发表于 10-11 14:17 137次阅读

    康谋分享 | 数据隐私和匿名化:PIPL与GDPR下,如何确保数据合规?(一)

    自动驾驶技术的快速发展伴随着数据隐私保护的严峻挑战。PIPL和GDPR为自动驾驶数据合规设立了高标准。本篇文章将带大家深入探讨PIPL与GDPR的异同点,期望能够帮助车企更好地理解并应对数据
    的头像 发表于 09-29 10:28 1322次阅读
    康谋分享 | <b class='flag-5'>数据</b><b class='flag-5'>隐私</b>和匿名化:PIPL与GDPR下,如何确保<b class='flag-5'>数据</b>合规?(一)

    Oracle数据恢复—Oracle数据库delete删除数据恢复方法

    删除Oracle数据数据一般有以下2种方式:delete、drop或truncate。下面针对这2种删除oracle数据
    的头像 发表于 09-11 11:45 300次阅读

    NetApp数据恢复—NetApp存储误删除数据恢复案例

    某公司一台NetApp存储,该存储中有24块磁盘。 工作人员误删除了NetApp存储中一个文件夹,文件夹中有非常重要的数据数据恢复工程师在现场对该存储进行了初检。虽然这个文件夹被删除
    的头像 发表于 08-12 13:35 207次阅读
    NetApp<b class='flag-5'>数据</b>恢复—NetApp存储误<b class='flag-5'>删除</b>的<b class='flag-5'>数据</b>恢复案例

    Oracle数据恢复—Oracle删除数据不用怕!这些数据恢复方法了解一下

    相信有很多oracle数据库用户都遇到过在操作Oracle数据库时误删除某些重要数据的情况,这个时候如果数据库没有备份且
    的头像 发表于 07-19 16:40 434次阅读

    PyTorch如何训练自己的数据

    PyTorch是一个广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的数据
    的头像 发表于 07-02 14:09 1164次阅读

    服务器数据恢复—存储中卷被删除后重建如何恢复被删除卷的数据

    服务器存储数据恢复环境: 某品牌FlexStorage P5730服务器存储,存储中有一组由24块硬盘组建的RAID5阵列,包括1块热备硬盘。 服务器存储故障: 存储中的2个卷被删除删除之后重建了一个新卷。需要恢复之
    的头像 发表于 06-05 11:03 565次阅读

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 05-28 07:27

    NetApp数据恢复—WAFL文件系统下误删除数据数据恢复案例

    某公司NetApp存储设备,人为误操作导致NetApp存储内部分重要数据删除,该NetApp存储采用WAFL文件系统,底层是由多块硬盘组成的raid阵列。
    的头像 发表于 05-13 10:50 325次阅读

    混乱的汽车隐私数据

    现代汽车正在跟踪我们的数据,并以共享驾驶员位置和行为的方式实现互联,但乘员却无法得知这些数据的用途,也无法得知如何关闭数据收集功能——如果有这项功能的话。为此,加州一家旨在保护人们隐私
    的头像 发表于 01-29 16:24 529次阅读

    美国防部禁令对电池民间商业合作没有影响

    国内电池企业在美国本土经营的迷雾正被逐渐拨开
    的头像 发表于 01-23 10:54 640次阅读

    语音数据:探索、挑战与应用

    随着人工智能技术的飞速发展,语音识别技术已经渗透到我们生活的方方面面,从智能手机助手到智能家居设备,再到自动驾驶汽车,都离不开这项技术的支持。而在这些技术的背后,语音数据扮演着至关重要的角色。本文
    的头像 发表于 12-28 13:56 500次阅读

    语音数据:AI语音技术的灵魂

    一、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据则是AI语音技术的灵魂。本文将深入探讨语音数据的重要性、构建方法、面临的挑战以及未来的发展趋势。 二、语音
    的头像 发表于 12-14 14:33 939次阅读

    大模型数据:力量的源泉,进步的阶梯

    一、引言 在    的繁荣发展中,大模型数据的作用日益凸显。它们如庞大的知识库,为AI提供了丰富的信息和理解能力。本文将用一种独特的风格来探讨大模型数据的魅力和潜力。 二、大模型
    的头像 发表于 12-07 17:18 609次阅读

    docker容器删除数据还在吗

    Docker作为一个容器化平台,提供了轻量级的虚拟化解决方案,能够方便地创建、部署和管理应用程序。然而,对于Docker容器的数据持久性是一个令人关注的问题。当我们删除一个Docker容器时,容器中
    的头像 发表于 11-23 09:32 1685次阅读