0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GDPR与机器学习之间三个最常见的问题

Dbwd_Imgtec 来源:未知 作者:胡薇 2018-07-09 10:32 次阅读

一般数据保护条例(GDPR)对数据科学产生了很大的影响。现在GDPR有99条正文条款和173篇声明(Recital),长而复杂,但是随着时间的推移以及条款的执行,它可能会变得更加复杂。同时,由于GDPR的存在,律师和隐私工程师将成为未来大型数据科学项目的核心组成部分。

1.GDPR是否禁止机器学习?

总的来说,在GDPR生效后,ML不会在欧盟被禁止。

但是,从技术的角度来看,这个问题的答案是肯定的。GDPR作为法律条文,确实做出了对使用自动化决策的全面禁止的规定。当GDPR使用“自动化决策”这个术语时,该法规指的是任何模型都可以在没有人直接参与决策的情况下做出决定。这可能包括数据主体的自动“概要分析”,例如将其分类为“潜在客户”或“40-50岁男性”等特定组,以确定贷款申请人是否有资格获得贷款。

因此,GDPR对ML模型的产生的影响是在没有人直接参与决策制定的情况下,它们是否可以自动部署。如果可以自动部署,那么在大量的ML模型中这种自动部署的设置将会被默认禁止。尽管有许多律师或数据科学家确实反对过,但参与起草和解释GDPR的欧盟官方工作组还是坚持该项规定。

当然,GDPR禁止ML也有例外情况。简单来说,该法规确定了使用自主决策合法的三个领域:合同处理的必要性,其他法律另行授权的情况,或数据主体明确同意的情况。

但是,让用户同意并不容易,用户可以同意许多不同类型的数据处理,并且他们也可以在任何时候撤销同意,这意味着用户同意需要细化和进一步的规范。

那么,GDPR是否真的禁止使用ML模型?当然不是,但在许多应用ML的例子中,它使得这些模型及其输入数据的部署和管理变得越来越困难。

2. ML有没有“解释权”

作者去年写了一篇专门讨论这个问题的文章。潜在的解释能力的存在可能会对数据科学产生巨大的影响,因为ML模型的预测能力很大程度上很难解释,即使有可能,也很难解释。

在GDPR的第13-15条中反复声明,数据主体有权获得“有关所涉逻辑的有意义的信息”以及自动决策的“重要性和设想的后果”。然后,在GDPR的第22条中规定,数据主体有权利不受上述影响类型的影响。最后,作为该条例中包含的一项非约束性评论的一部分,第71条声明(Recital)表示,数据主体除了能够对这些决定提出质疑之外,还有权对自动决策做出解释。综上所述,这三项规定在数据主体和处理数据的模型之间创建了许多新的复杂的义务,这表明了一种相当强大的可解释性权利。

虽然理论上,欧盟监管机构可以以最严格的方式解释这些条款,但是现实中要想实现充分合理解释似乎是不可能的。欧盟监管机构甚至可以将这些条款解读为,当ML被用于在没有人为干预的情况下做出决定时,以及当这些决定对数据主体产生重大影响时,这些人有权获得关于正在发生的事情的一些基本形式的信息。在GDPR中被称为“有意义的信息”和“设想的后果”可能会在此背景下被读出。欧盟监管机构可能会将注意力集中在一个数据主体上,该数据主体基于有关模型的信息和其部署的上下文的相关信息,对数据的使用做出明智的决定。

3. 数据主体是否有能力要求模型在没有数据的情况下进行训练?

作者认为在实践中答案是否定的。在GDPR下,所有数据的使用都需要有法律依据,《条例》第6条规定了六个相应的依据。最重要的两个是“合法利益”的基础,以及用户明确同意使用该数据的地方。当处理的法律基础是后者时,数据主体将会保留对这些数据的极大控制权,也就是说,他们可以在任何时候撤销,而处理这些数据的法律依据将不再存在。

因此,如果一个组织从一个数据主体收集数据,用户同意将他们的数据用于训练一个特定模型,然后数据主体随后撤回该同意,那么用户何时可以强制模型重新训练新数据呢?

只有当该模型继续使用该用户的数据时,答案才会出现。正如GDPR的29条规定的那样,即使撤销同意后,撤回之前所发生的所有处理仍然合法。因此,如果这些数据被合法的用于创建模型或预测,那么这些数据所产生的任何东西都可能被保留下来。在实践中,一旦用一组训练数据创建了一个模型,训练数据就可以在不影响模型的情况下被删除或修改。

然而,从技术上讲,一些研究表明,模型可能会保留关于训练数据的信息,即使在训练数据被删除之后,这些信息仍然可能被发现,正如研究人员Nicolas Papernot等人所写的那样。这意味着,在某些情况下,在不重新训练模型的情况下删除数据不能保证训练数据不会被重新发现,或者不能保证原始数据不会被继续使用。

但是训练数据通过模型被重新发现几乎是不可能的。作者认为,这种重新发现只是在学术环境中进行的,与企业数据科学家的日常相差甚远。尽管这在理论上是有可能的,但这似乎是一个边缘案例,监管者和数据科学家只有在这种特定类型的实例变得更加现实的情况下才能解决这个问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8420

    浏览量

    132685

原文标题:GDPR到底是如何影响机器学习的?

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    最常见的7805集成稳压电路,2特殊的用法

    7805是串联式端稳压器,三个端口分别是电压输入端(IN),地线(GND),稳压输出(OUT)。当IN-GND之间的电压超过 7V 以上,输出端与 GND 之间的电压就会稳定在 5V
    发表于 11-23 09:28 4089次阅读
    <b class='flag-5'>最常见</b>的7805集成稳压电路,2<b class='flag-5'>个</b>特殊的用法

    分享一些最常见最实用的机器学习算法

    在这篇文章中,分享一些最常用的机器学习算法。
    的头像 发表于 10-14 14:24 9117次阅读
    分享一些<b class='flag-5'>最常见</b>最实用的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>算法

    机器学习最常见错误解决方案

    近日,软件架构师、数据科学家、Kaggle 大师 Agnis Liukis 撰写了一篇文章,他在文中谈了谈在机器学习最常见的一些初学者错误的解决方案,以确保初学者了解并避免它们。
    的头像 发表于 08-08 16:56 2510次阅读

    三个方面解析电磁兼容的常见问题

    面对电磁兼容的问题,我们已经不是一次提到过了,这个话题是老问题新角度的观念。对于电磁兼容的问题一直是电子工程师们所关注的。我们今天主要从电磁兼容的骚扰源,敏感源,耦合路径方面进行阐述!找到这三个
    发表于 10-21 10:33

    如何避免三个常见机器学习错误?

    基于云的机器学习和深度学习一再被误用。这多半都可以轻松解决,当然,基于云的机器学已得到了广泛的使用。但你要用得巧妙,用得恰当。
    的头像 发表于 07-11 10:46 2517次阅读

    labview有哪些常见问题?labview三个常见问题和解决方法概述

    本文档的主要内容详细介绍的是labview有哪些常见问题?labview三个常见问题和解决方法概述三个常见问题是:1.labview在运行后
    发表于 09-18 18:53 0次下载

    深度学习最常见的10方法盘点

    在过去十年中,人们对机器学习的兴趣激增。几乎每天,我们都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于
    的头像 发表于 10-05 08:40 4483次阅读

    对象存储适合AI和机器学习工作负载的三个原因

    各种各样的企业在加快AI和机器学习项目,但要真正发挥潜力,需要克服重大的技术障碍。虽然计算基础架构常常是关注的重点,但存储同样重要。这三个主要的原因表明了为什么对象存储(而不是文件存储或块存储)特别适合AI和
    的头像 发表于 07-06 09:27 2781次阅读

    微软推出了三个新的学习模块

    第二模块的功能是在流星雨中清理以空间为主题的数据集后,构建机器学习预测模型的方法。第三个模块的功能是将相机重新放置在月球车上,并搜索月球表面。
    的头像 发表于 11-15 10:11 1664次阅读

    机器学习和深度学习的关键区别

    “人工智能”、“机器学习”和“深度学习”这三个词经常交替出现,但如果你正在考虑从事人工智能的职业,了解它们之间的区别是很重要的。
    发表于 03-02 16:57 1724次阅读

    使用霍尔效应传感器进行设计的三个常见设计缺陷以及解决方案

    使用霍尔效应传感器进行设计的三个常见设计缺陷以及解决方案
    发表于 10-28 12:00 1次下载
    使用霍尔效应传感器进行设计的<b class='flag-5'>三个</b><b class='flag-5'>常见</b>设计缺陷以及解决方案

    Qt中的三个exec之间有什么联系

    在Qt中,常见三个exec,第一是QApplication::exec(),第二是QEventLoop::exec,第三个是QThre
    的头像 发表于 03-06 09:44 2461次阅读

    机器视觉照明的三个核心

    正确的照明设计对于确保机器视觉项目的成功至关重要。这句话它看起来非常的常规和陈词滥调;但是忽视这一点是机器视觉项目失败的最常见原因之一。
    的头像 发表于 04-23 10:50 565次阅读
    <b class='flag-5'>机器</b>视觉照明的<b class='flag-5'>三个</b>核心

    21最常见晶振应用疑难问题及解答

    21最常见晶振应用疑难问题及解答
    的头像 发表于 06-10 16:56 1604次阅读

    机器人标定技术的分类及三个步骤

    机器人标定技术是提高机器人末端绝对定位精度的重要方法。可分为三个层次:一是关节级标定,二是机器人运动学标定,
    发表于 09-15 09:49 2814次阅读
    <b class='flag-5'>机器</b>人标定技术的分类及<b class='flag-5'>三个</b>步骤