随着云计算、物联网与大数据等技术的不断发展,信息系统服务中针对用户数据的收集整理、分析预测手段不断成熟。各种基于位置跟踪、行为偏好记录所产生的定向服务,为人们日常生活提供诸多便利的同时,也越来越多得引发了隐私关注。
一方面,人们通过社交媒体进行信息交换与自我表露,在网购平台进行购买行为,利用智能交通系统实现实时路况查询。在参与这些在线服务的过程中,产生的大量数据让人们不可避免地面临隐私泄漏问题。
另一方面,数据作为现代商业与个人的核心价值与重要资产,正在重新塑造人类生活的方方面面。IDC Research统计,2019年大数据和分析市场的销售收入约为1870亿美元。但由于数据本身可复制,易传播,一经分享无法追踪,数据资产的确权困难。随着数据隐私监管日益加强,商业化被严重制约。
正是在这样的背景下,隐私计算站在了隐私保护的“风口”上。
隐私保护之痛
数字经济时代下,数据作为生产要素的重要性日益凸显。加上数据的频繁泄露,数据隐私安全成了时下亟待解决之痛。而现有的隐私保护主要从信息处理过程中的隐私保护、隐私度量与评估两个方面入手。
从信息处理过程中的隐私保护方法来看,主要分为访问控制技术方法、信息混淆技术方法、密码学技术方法三类。
访问控制技术通过制定信息资源的访问策略以保证只有被授权的主体才能访问信息,从而实现信息的隐私保护。近年来,多个基于访问控制的隐私保护方案相继提出。比如,基于强制访问控制(MAC)模型的高可用智能卡隐私保护方案;基于自主访问控制(DAC)模型的外包数据存储隐私保护方案;基于角色访问控制适用于多场景的隐私保护的数据挖掘方法等。
信息混淆技术是基于特定策略修改真实的原始数据,使攻击者无法通过发布后的数据来获取真实数据信息,进而实现隐私保护。其中,k-匿名、l-多样性和t-近邻等多种匿名化技术通过将用户的原始数据隐藏到一个匿名空间中实现敏感信息的隐私保护。
密码学技术是利用加密技术和陷门函数,使攻击者在无法获得密钥情况下不能得到用户隐私信息。为了保护云计算中用户的隐私信息,研究人员出了同态加密的概念,基于同态加密而构造了隐私保护的空间多边形查询方案。
但无论是访问控制技术方法、信息混淆技术方法、密码学技术方法的隐私保护方案都主要是针对特定场景局部数据集的具体算法,缺少针对特定场景动态数据集的算法框架,更缺少适应多场景动态数据集的普适性算法框架。此外,针对多媒体数据需要多个隐私保护算法的组合,而目前也缺少成熟的方案。最后,将不同隐私保护算法互相叠加以获得更好保护效果的方法也有待开展研究。
隐私度量与评估通常从披露风险和信息缺损两个角度对隐私保护的效果进行度量。事实上,现有的隐私度量都可以统一用披露风险(Disclosure Risk)来描述,即攻击者根据所发布的数据和其他背景知识可能披露隐私的概率。通常,关于隐私数据的背景知识越多,披露风险越大。信息缺损则表示经过隐私保护技术处理之后原始数据的信息丢失量,是针对发布数据集质量的一种度量方法。
此外,隐私度量与评估的应用领域主要聚焦在社交网络、位置服务、云计算等方面。在社交网络领域方面,研究人员提出了针对网页搜索中基于混淆技术的隐私保护方案,对用户隐私进行了量化。在考虑用户意图不同时每个个体不同的搜索行为,研究者设计了一个通用性工具,对基于混淆技术的隐私保护方案进行隐私度量。
在位置服务领域,有研究人员提出关于位置隐私保护机制的框架。该框架利用确定攻击模型以及敌手的背景知识,通过信息熵等方法来描述攻击过程的精确性、确定性、正确性,从而实现隐私保护效果的度量。在云计算领域,为了保护云端的数据隐私,有研究人员提出了一种基于单个关键字的可搜索加密方案,适用于多个数据所有者上传数据、多个用户访问数据的应用。
然而,上述各类隐私度量方案缺乏对隐私概念的统一定义;其次,隐私度量随信息接收主体、拥有数据量大小以及场景动态变化,目前缺乏隐私的动态度量方法;第三,信息跨系统传播,缺乏不同系统隐私度量的一致性、隐私信息操作控制的形式化描述方法,不能支持跨平台的隐私信息交换、延伸授权等动态保护需求。
综上所述,现有的隐私保护以及隐私度量方案零散孤立,还缺乏隐私信息操作审计和约束条件的形式化描述方法。
尚未有将隐私保护与隐私侵犯取证追踪一体化考虑的方案,因此目前无法构建涵盖信息采集、存储、处理、发布(含交换)、销毁等全生命周期各个环节的隐私保护和隐私侵犯取证追踪的技术体系。而隐私计算的诞生则突破了现有隐私保护的局限,成了数字时代下隐私保护的风口。
隐私计算离我们并不遥远
隐私作为一种敏感信息,是大数据的重要组成部分,隐私保护则关乎个人、企业乃至国家利益。但是,含有隐私的信息会在网络中传播、在各类信息服务系统中存储、处理(编辑、融合、发布和转发)。
隐私计算是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。
隐私计算涵盖了信息所有者、搜集者、发布者和使用者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期过程的所有计算操作,是隐私信息的所有权、管理权和使用权分离时隐私描述、度量、保护、效果评估、延伸控制、隐私泄漏收益损失比、隐私分析复杂性等方面的可计算模型与公理化系统。
从技术理论来看,隐私计算主要分为三大技术路线,即密码学、可信执行环境、联邦学习。其中,密码学是以安全多方计算(Secure Multi-party Computation)、同态加密(Homomorphic Encryption)、零知识证明(Zero-knowledge Proof)等代表的隐私计算技术。
可信执行环境(TEE)通过硬件技术来对数据进行隔离保护,将数据分类处理。支持TEE的CPU中,会有一个特定的区域,该区域的作用是给数据和代码的执行提供一个更安全的空间,并保证它们的机密性和完整性。
联邦学习则是近些年新崛起的新兴人工智能技术,在2016年由谷歌最先提出,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多个参与方或多个计算节点之间开展高效率的机器学习。
不可否认的是,隐私计算技术路线虽有差异,但密码学对于隐私计算的影响依旧举足轻重,密码学理论研究成果也影响着隐私计算技术的进展。
由于隐私计算不泄露原始数据,因此可以在保护数据安全的前提下,实现多个维度数据的跨界融合。这将有助于破解数据保护与利用之间的矛盾的优势,也越来越受到市场的关注。Gartner发布的2019年技术炒作周期(hype cycle)曲线报告中,就首次将隐私计算列为处于启动期的关键技术。
隐私计算离我们的生活并不遥远。
责编AJX
-
网络安全
+关注
关注
10文章
3127浏览量
59600 -
隐私保护
+关注
关注
0文章
297浏览量
16435 -
大数据
+关注
关注
64文章
8863浏览量
137300
发布评论请先 登录
相关推荐
评论