0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

苹果的差分隐私技术原理详解

OSC开源社区 来源:OSCHINA 社区 2023-07-19 10:17 次阅读

来源| OSCHINA 社区

作者 |PrimiHub开源

原文链接:https://my.oschina.net/u/6662337/blog/10087905

在 2016 年 6 月份的苹果 WWDC 大会上提到了一项差分隐私技术(Differential Privacy),其作用是对用户的数据进行扰动,然后上传到苹果服务器。苹果能通过这些扰动过的数据计算出用户群体的行为模式,但是对每个用户个体的数据却无法解析。

苹果通过采用差分隐私技术,实现了在不得到用户原始数据的前提下,学习用户行为。如果你想知道 “数据可用不可见” 背后的技术,就跟着我们一起来学习下苹果的差分隐私技术背后的原理吧!

一、简介

差分隐私是一种数据隐私保护技术,它通过在数据中引入随机化扰动的手段来保护隐私。简单来说,扰动后的数据是无法精确地推断出其原始值。同时,它允许对随机化后数据进行统计分析,保证了数据的有用性。差分隐私提供了衡量隐私的严格数学定义,是近些年来业界常见的一种隐私保护技术。

1.1 差分隐私应用场景

苹果使用本地化差分隐私(Local Differential Privacy)技术来收集用户设备上的信息,其部署的产品见下表 [1, 2]。

QuickType suggestions 学习热门新词汇,用于键盘打字预测
Emoji suggestions(Emoji 预测) 学习流行表情包趋势,预测用户使用的表情包
Lookup Hints(搜索提示) iOS 搜索框提示
Safari Energy Draining Domains & Crashing Domains 统计电量消耗大(高 CPU、高内存使用)的网站、易崩溃的网站
Safari Autoplay Intent Detection 统计用户倾向于自动播放且不静音的网站
Health Type Usage 流行的健康数据类型(睡眠、心率、卡路里等)统计
产品名称 用途

1.2 本地化差分隐私

在本地化差分隐私框架中,用户在上传的原始数据中添加噪声(扰动),服务器则无法知道用户的真实数据。这项技术最早是由 Warner 提出的随机响应(Randomized response)[3]。

4a6335d4-2556-11ee-962d-dac502259ad0.png

本地化差分隐私技术可用于联合统计,比如计算平均数、中位数、频率直方图等。其算法框架(E-R-A-P)一般分为四个步骤:

编码(Encoding,E)

随机化(Randomizing,R)

聚合(Aggregation,A)

后处理(Post-processing,P)

用户端进行编码与随机化,保证传输的数据是扰动后的;服务器端进行聚合与后处理,得到相应的统计量。

4a8d774a-2556-11ee-962d-dac502259ad0.png

二、苹果的方案

苹果的本地化差分隐私方案参见 [2, 4, 5],其中 [4, 5] 是专利。这里介绍 [2] 中方案的简易版本,以统计表情包的频率直方图为例。

4ab4a504-2556-11ee-962d-dac502259ad0.png

2.1 用户端

依照上面提到的 算法框架(E-R-A-P),用户端需要在上传数据之前对做原始数据做编码 (E)和随机化 (R)。 编码 (E):编码是为了后续的随机化和聚合步骤。苹果的编码采用哈希表的方式,初始表中的元素均为 “-1”。然后通过哈希函数hh将元素dd(使用频率最高的表情包)映射到位置h(d)h(d),并标记 “1”。假设哈希表的长度为mm(聚合时会用到该参数)。

4ade1c9a-2556-11ee-962d-dac502259ad0.png

2.2 服务器端

依照上面提到的 算法框架(E-R-A-P),服务器端需要在接收到数据后对做 “扰动” 后的数据做聚合 (A)和后处理 (P)。

4afbcb14-2556-11ee-962d-dac502259ad0.png

后处理 (P):在不同应用场景中,计算的统计量可能有先验知识,比如取值范围的限制(如大于 0),或者保持加和不变(如统计个数),这时就需要进行后处理操作。差分隐私的性质使得任何后处理操作均不影响其结果的隐私性。

2.3 其他技术

数据隐私保护需要考虑的方面很多,仅使用差分隐私技术无法解决所有的问题。苹果在方案中还使用了其他技术来保护数据隐私,例如数据脱敏、通信加密、访问控制等。

用户上传的数据已移除设备标识符、时间戳等信息

用户与服务器通信使用 TLS 协议,即数据加密传输

服务器收到用户数据后首先移除 IP、地址、时间戳等 meta 信息,并将数据顺序打乱(shuffle)

数据聚合在受限访问环境中执行

数据只在苹果内部流通,且苹果的员工不能随意访问数据

2.4 隐私预算

看到这里大家应该明白了,差分隐私是通过在增加噪声(扰动)来实现隐私保护,但由于扰动增加,聚合的结果会变得不精确(统计量的方差增大)。所以下面介绍平衡算法的隐私性和实用性的隐私预算ϵϵ。

4b2a40de-2556-11ee-962d-dac502259ad0.png4b4a0554-2556-11ee-962d-dac502259ad0.png

而且,虽然数据添加了差分隐私扰动,但同一用户会不断地上传新数据,根据差分隐私的串型组合定理,隐私预算ϵϵ会随着时间累积逐步增加。因此,苹果限制了用户每天上传数据的最大次数,并表示数据最多只会留存三个月。

QuickType suggestions 8 2
Emoji suggestions(Emoji 预测) 4 1
Lookup Hints(搜索提示) 4 2
Safari Energy Draining Domains & Crashing Domains 4 2
Safari Autoplay Intent Detection 8 2
Health Type Usage 2 1
产品名称 隐私预算ϵϵ的取值 数据最多上传次数 / 每天

有研究 [6] 指出,苹果应该解释是如何设置隐私预算ϵϵ的取值的,告知用户并将其透明化。例如,虽然 Emoji 产品中宣称的隐私预算ϵϵ取值为 1,但通过代码逆向工程后发现其取值为 2(iOS 10.1.1 和 MacOS 10.12.3 版本的数据)。而且,隐私预算随时间累积也是其方案存在的一个重要问题。

三、方案优化

第 2 节中描述的是方案的简易版,而苹果的方案针对通信、统计量的精确性、场景适配等均做了优化 [2] 如下:

为了减少哈希碰撞的影响,实际有kk个哈希函数,每个用户在编码时随机选择一个,并将选择的哈希函数告诉服务器。服务器则构建kk个哈希表,然后进行聚合计算。

为了降低通信量,苹果的方案中对编码后的数据进行了阿达马变换(Hadamard transform),并通过采样的方式,随机选择 1 比特的数据发送到服务器。这样不仅可以降低通信量,而且不会增加统计值的方差。

表情包的数据一般是固定的,但在一些场景下,用户数据是无法预知的。比如学习热门新词汇,统计网站。苹果对此采用了 Sequence Fragment Puzzle 技术,并设计了本地化差分隐私的方案。

四、无偏估计证明

这里依旧是按照 算法框架(E-R-A-P)顺序进行讲解,证明f~(d)f~(d)是f(d)f(d)的无偏估计。

4b75068c-2556-11ee-962d-dac502259ad0.png

4.1 编码

4b945f3c-2556-11ee-962d-dac502259ad0.png

4.2 随机化

4bbdcaca-2556-11ee-962d-dac502259ad0.png

4.3 聚合

4beaee92-2556-11ee-962d-dac502259ad0.png4c0a3ad6-2556-11ee-962d-dac502259ad0.png

统计量的方差小才意味着估计的精确性高。 以上通过公式推导的方式证明了苹果采用的「差分隐私」算法的准确性,可以实现在 “数据可用不可见” 的情况下实现统计计算。

五、最后

看似 “高不可攀” 的差分隐私技术,其实早已走进了我们的日常生活和工作中,为我们的个人隐私保驾护航。 本文通过通俗易懂的图文和严谨的公式推导,讲解了苹果的差分隐私技术原理,希望能够勾起你对隐私计算技术的兴趣。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3584

    浏览量

    134111
  • 苹果手机
    +关注

    关注

    1

    文章

    2243

    浏览量

    34065

原文标题:一文读懂苹果的差分隐私技术原理

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    匹配技术对比

    本帖最后由 gk320830 于 2015-3-9 05:42 编辑 匹配技术对比,匹配
    发表于 08-11 22:00

    基于隐私的轨迹模式挖掘算法

    针对现有基于隐私的频繁轨迹模式挖掘算法全局敏感度过高、挖掘结果可用性较低的问题,提出一种基于前缀序列格和轨迹截断的
    发表于 11-25 11:38 0次下载
    基于<b class='flag-5'>差</b><b class='flag-5'>分</b><b class='flag-5'>隐私</b>的轨迹模式挖掘算法

    隐私和现有的隐私保护方法相结合:从用户群体中学习的系统架构详解

    研究人员设计了高效可扩展的本地化隐私算法,经过严谨的分析确定了应用程序、隐私、服务器计算能力和设备带宽四个要素的重要性应如何分配。平衡这些因素将有助于成功地部署本地
    的头像 发表于 12-08 17:31 1.6w次阅读

    基于隐私的数据匿名化隐私保护模型

    在保护数据隐私的匿名技术中,为解决匿名安全性不足的问题,即匿名过程中因计算等价类质心遭受同质性和背景知识攻击造成的隐私泄漏,提出了一种基于
    发表于 12-11 16:31 0次下载
    基于<b class='flag-5'>差</b><b class='flag-5'>分</b><b class='flag-5'>隐私</b>的数据匿名化<b class='flag-5'>隐私</b>保护模型

    本地化隐私研究综述

    大数据时代信息技术不断发展,个人信息的隐私问题越来越受到关注,如何在数据发布和分析的同时保证其中的个人敏感信息不被泄露是当前面临的重大挑战,中心化
    发表于 12-15 16:07 0次下载
    本地化<b class='flag-5'>差</b><b class='flag-5'>分</b><b class='flag-5'>隐私</b>研究综述

    线性查询的一种近似最优隐私机制

    隐私保护程度确定的条件下使数据的有用性最大化的问题,称为隐私的最优机制问题.最优机制问
    发表于 12-26 14:10 0次下载

    单端怎么转分信号_单端转分信号电路详解

    本文为大家介绍单端-转换器的电路详解
    发表于 01-15 10:31 7.4w次阅读
    单端怎么转<b class='flag-5'>差</b>分信号_单端转<b class='flag-5'>差</b>分信号电路<b class='flag-5'>详解</b>

    一种轨迹隐私发布方法

    针对现有轨迹隐私保护发布方法面临的独立噪声容易被滤除的问题,提出一种轨迹隐私发布方法-C
    发表于 01-17 14:11 0次下载
    一种轨迹<b class='flag-5'>差</b><b class='flag-5'>分</b><b class='flag-5'>隐私</b>发布方法

    面向随机森林的隐私保护算法

    提出一种基于随机森林的隐私保护算法DiffPRFs,在每一棵决策树的构建过程中采用指数机制选择分裂点和分裂属性,并根据拉普拉斯机制添加噪声。在整个算法过程中满足
    发表于 02-08 17:10 3次下载

    如何使用隐私保护进行谱聚类算法

    针对传统的聚类算法存在隐私泄露的风险,提出一种基于隐私保护的谱聚类算法。该算法基于
    发表于 12-14 10:54 11次下载
    如何使用<b class='flag-5'>差</b><b class='flag-5'>分</b><b class='flag-5'>隐私</b>保护进行谱聚类算法

    利用k-prototype聚类的隐私混合数据发布算法

    隐私是一种提供强大隐私保护的模型。在非交互弌框架下,数据管理者可发布采用
    发表于 03-31 16:09 4次下载
    利用k-prototype聚类的<b class='flag-5'>差</b><b class='flag-5'>分</b><b class='flag-5'>隐私</b>混合数据发布算法

    一种支持本地化隐私技术的聚类方案

    如何在保护数据隐私的同时进行可用性的数据挖掘已成为热点问题。鉴于在很多实际应用场景中,很难找到一个真正可信的第三方对用户的敏感数据进行处理,文中首次提出了一种支持本地化隐私
    发表于 04-13 15:17 6次下载
    一种支持本地化<b class='flag-5'>差</b><b class='flag-5'>分</b><b class='flag-5'>隐私</b><b class='flag-5'>技术</b>的聚类方案

    基于ExtraTrees的隐私保护算法DiffPETs

    为在同等隐私保护级别下提高模型的预测准确率并降低误差,提出一种基于 Extratrees的隐私保护算法 Differs。在决策树生成过程中,根据不同的准则计算出各特征的结果值,利用
    发表于 05-11 14:42 10次下载

    面向分数据挖掘隐私保护的随机森林算法

    数据挖掘中的隐私保护问题是目前信息安全领域的研究热点之一。针对隐私保护要求下的分类问题,提出一种面向隐私保护的随机森林算法 REDPP-
    发表于 05-12 14:14 1次下载

    面向数据流频繁模式的隐私保护方案

    面向数据流频繁模式的隐私保护方案
    发表于 06-01 15:28 1次下载