0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于差分隐私的数据匿名化隐私保护模型研究介绍

lhl545545 来源:FreeBuf 作者:FreeBuf 2020-10-11 10:42 次阅读

匿名化的前世今生

数据匿名的社会意识应该是近几年才日渐扩散的,但其实来自技术层面的畅想与实践早就开始了。

实验室总是先走一步,1997年,美国学者Samarati和Sweeney提出了k-anonymity匿名模型,为后续各种技术解决方案的涌现开了先河。当然,届时,数据匿名这个话题更多是停留在技术圈内的狂欢。

随着大数据、智能技术近年的发展与渗透,数据泄露、隐私侵犯等问题日渐凸显,并且受影响的群体日渐几何级增长。一方面数据作为智能时代的基石,不可能因噎废食,完全放弃,另一方面,政府、企业、个人都因该问题而持续困扰,市场格局也容易产生波动,这于长远发展不利。

此时,匿名化技术成为可以折中的方案。不过,数据匿名化需要技术投入,如果仅靠企业主观驱动,效果有限。所以,整个匿名数据的发展中,真正打破僵局的是法律领域的关注。

最为代表的则是令互联网企业心有余悸的GDPR。2018年正式实行的GDPR,将个人数据的保护力度提至前所未有的高度,亦对数据处理企业等主体施加了甚为严苛的保护义务和法律责任。其中,有一条,GDPR提到:控制者在确定处理方式和处理过程中,应当采取适当技术和组织措施,诸如假名化(pseudonymisation)处理,将额外数据与个人数据分别保存,除非使用额外数据,否则个人数据无法指向特定数据主体。

显然,GDPR白纸黑字地将个人数据的保护上升到法律层面,这已经将此前数据使用过程中涉及的大部分暧昧地带清晰化。此外,真正具有威慑力的是其“残忍”的惩罚力度。众所周知,如果科技巨头越雷池一步, GDPR是真的会开出开天价罚单。

最有意思的案例即是,GDPR开始生效的第一天就“开门红”,一下起诉了两大科技巨头:Facebook和谷歌。两家公司被指控强迫用户同意共享个人数据,且分别面临39亿欧元和37亿欧元(共计约88亿美元)的罚款风险。

当然除了GDPR,各政府都相继出台了相关严厉的个人数据保护法。如英国更新了数据保护法案,加上了个人数据的重视力度,中国也出台了数据安全法草案,明确了保护责任。,FTC在2012年发布的隐私保护指南中更是扩大了个人数据的边界,突破了传统定义中的与具体的自然人相关联,扩展到了用户所使用设备标识等。

在这样的背景下,对于企业来说,天价罚单是割肉之痛,政府的监管是不可逾越的红线,此外,用户隐私保护意识的觉醒也是不可推辞的需求。

GDPR在对匿名化的界定中也提到:“匿名化是指将个人数据移除可识别个人信息的部分,并且通过这一方法,数据主体不会再被识别。匿名化数据不属于个人数据,因此无须适用条例的相关要求,机构可以自由的处理匿名化数据”。

数据匿名则成为了许多企业或者数据应用主体的重点投入方向。有业内专家表示,匿名数据的收集主要用于帮助公司发现产品错误,这是互联网通过分析非个人可识别信息来改善整体产品体验最常见的解决方案之一。

数据匿名的“bug”

那么,常见的数据匿名方式有哪些?广义上可以分为两类:一是扰动方式,即让原始数据值失真,如数据屏蔽脱敏、噪声添加等,二是非扰动方式,即使数据集不完整,通过按照在记录个体层面维持数据真实性的方式改变在净化数据集中报告数据值的粒度来工作,如数据抑制和数据泛化。前文提到的k-anonymity匿名模型则是非扰动的一种重要方法。它要求发布的数据中存在一定数量(至少为k) 的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。

数据匿名一直在发展,问题也逐渐显露。所谓,“道高一尺魔高一丈”,匿名化一一定程度上保护了隐私,但“有心人”依旧可以从匿名数据中进行身份确认。

一位德国研究员在曾第33届Chaos Computer Club会议上公布了自己的研究成果:尽管是已经匿名化的点击流,也可以顺藤摸瓜找到用户清晰画像,数量少于十个的不同域名就足以让你暴露。披着匿名的外衣,这些数据被称为“Dark Data”,是非常容易滋生邪恶的新孕育地。

此外,去年,英国Nature Communications杂志发表的一项研究表示,英国科学家利用一种新开发的统计方法发现,一个人的身份可以从一个不完整的匿名化数据库中被识别出来。研究人员开发了一个机器学习模型,使用邮编、性别、出生日期三个信息,有81%的概率可以在“匿名”数据集中准确地追踪到某一个人。

事实证明,数据匿名方法不仅面临自身技术迭代更新的压力,也有新技术不断带来的冲击,如人工智能相关算法可能利用零星数据可以训练出较为精准的用户画像。

基于差分隐私的方案

道阻且长,行之将至。目前法律、市场、技术各方面都为数据匿名做好了一定的基础建设,接下来则是需要更多的投入与更新。首先,从此那个参与角色的角度来看,依旧需要政府组织牵头,从法律层面为整个业态施加强行规范化的压力,企业则需要更多资源投入匿名化建设,而个人则需从日常细节上提升网络隐私意识,如有意识地使用匿名化浏览器、及时清理清除cookie和Web数据等,

另外,则是来自技术角度的迭代更新,针对安全性不足的数据匿名现状,已经出现了基于差分隐私的数据匿名化隐私保护模型研究。差分隐私(differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。

实际上,差分隐私也利用了统计学。该技术可以实现:向一个人的使用习惯样本中增加噪声,保证数据相对模糊与匿名,随着越来越多人呈现出相同的使用习惯,开始识别总结出共性。一个人的数据可能不准确,但是大量用户的数据可以得出相对准确的结论。这种情况下,即使有人攻击了数据库,也只能看到系统化的共性信息,不能精确识别具体的个人信息。苹果、Facebook、华为都在用该技术来来帮助发掘其大量用户的使用习惯。

值得一提的是,《MIT科技评论》评选的2020年十大突破技术中,差分隐私榜上有名。

不过,由于差分隐私是一项仍在探索中的技术。门槛较高,所以投入成本也想要较高。其处理过程对于人才资源的需求较大,同时也带来新的问题,多人的介入与隐私保护也会出现一定的冲突。为解决此问题,市面上一些企业注入了自动化机器学习的方法。

显然,隐私保护问题的解决一定是多学科、多技术流派融合的。

唯一不变的就是变化,“安全是动态话题”已经是老生常谈,数据隐私的安全也是一样。匿名数据只是为目前的数据裸奔问题提供了一个相对明朗可行的解决方法,并不是绝对安全的保护屏障。我们能做的只有随变化而变化,甚至是走在变化的前面。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7193

    浏览量

    89827
  • 人工智能
    +关注

    关注

    1797

    文章

    47867

    浏览量

    240881
  • 机器学习
    +关注

    关注

    66

    文章

    8453

    浏览量

    133167
收藏 人收藏

    评论

    相关推荐

    康谋方案 | 本地匿名化解决方案:隐私保护、自主掌控和高效运行!

    本地匿名化解决方案,以隐私和安全为核心设计原则,利用Terraform部署技术实现灵活自动扩展,确保高吞吐量与高效管理。该方案确保隐私保护、具备高灵活性与控制力,并支持离线操作,已广泛
    的头像 发表于 01-22 11:15 3165次阅读
    康谋方案 | 本地<b class='flag-5'>匿名</b>化解决方案:<b class='flag-5'>隐私</b><b class='flag-5'>保护</b>、自主掌控和高效运行!

    深度自然匿名隐私保护与视觉完整性并存的未来!

    在科技快速发展的当下,个人隐私保护的需求日益凸显。如何能在隐私保护的基础上,保持视觉完整性,从而推动企业开发与创新? 深度自然匿名
    的头像 发表于 01-15 15:57 4115次阅读
    深度自然<b class='flag-5'>匿名</b><b class='flag-5'>化</b>:<b class='flag-5'>隐私</b><b class='flag-5'>保护</b>与视觉完整性并存的未来!

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    的功能和性能。因此,选择具有良好可扩展性的模型可以适应未来业务的发展需求。在客服领域,处理客户数据时可能涉及敏感信息。因此,在选择模型时需要考虑其安全措施和隐私
    发表于 12-17 16:53

    隐私与安全:动态海外住宅IP如何保护你在线

    动态海外住宅IP在保护用户在线隐私与安全方面发挥着重要作用。
    的头像 发表于 11-25 08:09 159次阅读

    比亚迪获得国家首批汽车隐私保护标识

    近日,在2024中国汽车软件大会上,中国汽车工业协会与中国网络安全产业联盟汽车网络安全工作委员会联合颁发“汽车隐私保护”标识证书,比亚迪成为首批通过测评并获得“汽车隐私保护”标识授权的
    的头像 发表于 11-18 16:14 344次阅读

    康谋分享 | 数据隐私匿名:PIPL与GDPR下,如何确保数据合规?(二)

    自动驾驶技术飞速发展,但数据隐私安全成拦路虎?别担心,本文带您深入剖析PIPL与GDPR在数据处理行为及基础合法性方面的异同之处,帮助您准确把握法规要求,从而利用匿名化处理工具有效应对
    的头像 发表于 10-30 09:30 1191次阅读
    康谋分享 | <b class='flag-5'>数据</b><b class='flag-5'>隐私</b>和<b class='flag-5'>匿名</b><b class='flag-5'>化</b>:PIPL与GDPR下,如何确保<b class='flag-5'>数据</b>合规?(二)

    康谋分享 | 数据隐私匿名:PIPL与GDPR下,如何确保数据合规?(一)

    自动驾驶技术的快速发展伴随着数据隐私保护的严峻挑战。PIPL和GDPR为自动驾驶数据合规设立了高标准。本篇文章将带大家深入探讨PIPL与GDPR的异同点,期望能够帮助车企更好地理解并应
    的头像 发表于 09-29 10:28 1488次阅读
    康谋分享 | <b class='flag-5'>数据</b><b class='flag-5'>隐私</b>和<b class='flag-5'>匿名</b><b class='flag-5'>化</b>:PIPL与GDPR下,如何确保<b class='flag-5'>数据</b>合规?(一)

    IP地址安全与隐私保护

    在当今数字化时代,IP地址作为网络设备的唯一身份标识,在网络安全与隐私保护中扮演着至关重要的角色。然而,随着网络技术的飞速发展,IP地址也面临着诸多挑战,对用户的隐私和网络安全构成了潜在威胁。本文
    的头像 发表于 09-03 15:59 682次阅读

    平衡创新与伦理:AI时代的隐私保护和算法公平

    。为此,开发者应采用多元数据源,并定期进行算法公平性的评估和调整。在就业筛选等敏感领域,透明度和公平性的结合尤为重要,这需要确保筛选过程不会因为性别、年龄、种族等非相关因素而产生歧视。 个人隐私
    发表于 07-16 15:07

    蓝牙模块的安全性与隐私保护

    传输过程中的安全性问题,分析隐私保护方面的挑战和解决方案,并介绍一些提高蓝牙模块安全性和隐私保护的先进技术。 蓝牙模块在
    的头像 发表于 06-14 16:06 654次阅读

    如何保护患者隐私数据安全?- 医疗保健数据安全指南

    医疗行业的 IT 无纸化办公解决方案为医生和患者带来了便利,但患者数据隐私问题仍然是一个令人担忧的问题。尽管采取了安全措施,但无法完全保证数据不会受到恶意攻击和内部泄露的风险。因此,保护
    的头像 发表于 05-31 13:25 543次阅读
    如何<b class='flag-5'>保护</b>患者<b class='flag-5'>隐私</b>和<b class='flag-5'>数据</b>安全?- 医疗保健<b class='flag-5'>数据</b>安全指南

    车载车库GPS信号屏蔽器:如何保护隐私与安全

    深圳特信电子|车载车库GPS信号屏蔽器:如何保护隐私与安全
    的头像 发表于 05-29 08:54 777次阅读

    GPS信号屏蔽器:保护隐私信息的设备?

    GPS信号屏蔽器:保护隐私信息的设备?|深圳特信电子
    的头像 发表于 03-14 09:04 822次阅读

    微软发布广告选择API,保护用户隐私,替代第三方cookies

     Ad Selection API内置了K-anonymity约束、隐私以及广告拍卖等多种强力隐私保护措施。同时,也具备可信执行环境功能
    的头像 发表于 03-06 11:17 536次阅读

    Meta收到欧盟8家团体投诉违反欧盟的隐私保护规则

    Meta在收集用户数据时没有遵守一般数据保护条例(GDPR)关于公平处理、数据最小和目的限制的规则;用户在使用Instagram和Face
    的头像 发表于 03-01 16:18 385次阅读