隔墙有耳，一个AI背后，到底有多少人在偷听你？-电子发烧友网

你的AI助手，正在……可能正在窃听你。

苹果、微软、Google……海外几家大公司，都先后被曝出利用智能音箱/手机，偷录用户谈话，并将部分含有用户隐私之录音，发送给了负责识别精确度核查的第三方承包商。

这些片段的内容五花八门：性录音、家庭八卦、亲友之间的通话内容……甚至还有疑似毒品交易现场的谈话。而外包团队在负责核查之余，还会将含有“笑料”的片段，在公司内部传播取乐。

一个AI背后，到底有多少人在偷听你？

隔墙有耳

第一个倒下的是亚马逊。

今年4月11日，彭博的一篇报道，拉开了“AI窃听门”的序幕：亚马逊为了强化Alexa智能助手的表现，在全球范围内雇用了上千名人类员工，对Alexa智能音箱录下的声音片段进行人工审查和监听。

一名人类员工，每天最多会听到大约1000条亚马逊发来的用户录音。他们需要将录音转述成文字，为特定的关键词打上标记，最后再将转写下来的文字和音频归档。

问题在于，亚马逊送来的对话里，有时会夹杂一些奇怪的东西：浴室里传来的跑调歌声、小孩子的尖叫、模糊不清的求助声……这些都是语音助手被误唤醒时录下的片段。而据报道，负责审核的员工们，似乎并不太在意这些录音的私密性。遇到特别有意思的片段，还会在公司内部分享，以此取乐。

面对这种丑闻，亚马逊方面迅速做出了回应，称人类员工对录音作出的标记，有助于Alexa改善理解能力。而且公司有着严格的保密措施，员工无法直接获得跟录音相关联的账号信息。被标记的用户录音，也只是Alexa所录片段中极少量的一部分。

7月份，事情开始失控：Google的语音助理也被曝出，有人类员工在背后监听智能音箱，和手机App的录音内容。外媒甚至拿到了一段Google语音助理录下的片段，轻而易举地找到了这份录音的原主人。

等到月底，苹果的Siri也加入了窃听门的行列。由于Apple Watch更容易误触，审核人员听到的内容也更加糟糕：拉拉链的声音（显然是刚上完厕所）、毒品交易现场、以及……不慎被HomePod/Apple Watch录下来的滚床单片段。

说好的“What happens on your iPhone， Stays on your iPhone. ”呢？

8月份，更过分的来了：微软被曝出监听用户的Skype通话内容，以及跟Cortana之间的交谈记录。据外媒报道，微软这边能听到的内容也是五花八门：详尽的地址信息、十分露骨的搜索请求、和某些不能详细描述，反正是带点颜色的Skype记录。

至于监听用户Skype通话的理由，微软后来回应称，是为了改善那项2015年发布的，内置在Skype当中的AI同传服务。只不过他们当时没告诉你，除了AI之外，听你说话的还有其他人。

最后一个沦陷的是Facebook。尽管没有语音助手，但他们还是将旗下Facebook Messenger 中用户发送的语音转文字消息，通过外包方式交给了第三方进行核查。尽管波及范围不如前面几家公司广泛，但爆料人士依然指出，有部分录音内容“相当敏感”。

大公司们为什么要做这种事？人工智能，不是挺聪明的吗？

人工智能的B面

有多少智能，就有多少人工。

现如今什么产品都讲究一个“增智慧”。从AI摄影到AI助手，线上智慧生活无处不在。但鲜少人知的是，养AI跟养孩子差不多。需要有人不断地教给它们什么是对，什么是错，才能得到越来越精确的结果。

图像分割、图像识别、语音转文字、语义分割……这些都需要有人类从旁协助。原始录音就是问题，而人类整理好的誊写内容，就像单词卡片背面的答案。

人工智能越来越热，这些用数据饲喂AI的人，也越来越多。需要让AI理解人类语言？那就让人类把一句话按照规则拆开，再交给程序去学习。需要让AI学会看路？那就先让真人把照片里的车、人、路灯……统统做好标记，再交给AI去慢慢认就好了。

没错，拿脱敏过的用户录音给人类听，再用结果去矫正AI，其实算是举球通行的惯例。如果不信，你可以看看百度DuerOS的这份隐私政策：

以及，这是小爱同学的：

和天猫精灵的：

换句话说，你有权保持沉默（或者拔插销），但你被录下来的每一句话，不管有意还是无意，都可能成为喂养AI的饲料。而且他们并没有告诉你，“用于改进和提高产品”的潜台词是，你对音箱所说的话，也可能会有人类工作人员听到。

严格来说，这些信息应当只在企业内部分享，而且员工对录音内容负有保密义务。虽然你不小心被AI录下来的黄段子（或者别的什么更糟糕的东西）有一定概率会被人类听到这件事非常让人不爽，但平心而论，这算不上什么隐私泄露事故。

当然了，这不代表这些做法没问题，我们等会儿再说这个。

“饲养AI”曾经一度催生了庞大的下游产业。智能音箱最火热的时候，甚至出现了大量专做数据标注的外包团队。不需要学历，不需要经验，经过简单的培训，一个人很快就能学会给图片拉框，给人脸加点，把语音转成文字……

不知道有没有人意识到这当中的荒谬：从诞生的第一天起，这份工作的最高目标，就是消灭自身。

（这种验证码本质上也是数据标注）

还有一些公司，将这种“时间密集型”工作，做成了谁都可以在家赚外快的网络任务。他们需要做的可能是教AI听懂人话、识别人类的骨骼点，或者是给聊天机器人编写一些有意思的回复。

被制作的素材，和标注数据的人一样，都只是完成AI所必须的工具而已。

大数据=无隐私？

欢迎来到21世纪。

收集数据-脱敏-分析，是当代大数据应用的通行做法，也被多国监管部门认可。但是有研究表明，这种做法其实没什么作用。

英国伦敦帝国理工学院的研究人员，利用公开的匿名数据训练了一个AI，结果只用到了生日，性别，居住地邮编和子女数量，就能从匿名数据集中，定位出整个马萨诸塞州79.4%的人口。如果特征量进一步增加，准确度甚至能达到99%以上。

换句话说，即使拿掉了姓名、电话和身份证号，还是有办法从大数据中找出特定的某个人。何况根据之前的报道，审查人员还是能听到用户亲口说出的私密内容。所谓的隐私把控，好像从数据脱敏这一步开始就已经失灵了。

更可怕的是，集中存放的隐私数据，本身就是一块闪光的肥肉：海外一间指纹锁公司Suprema由于安全漏洞，被人摸到了超过100万人的指纹和人脸识别数据，且关键信息大多未经加密。密码泄漏可以再改，人脸识别数据被人偷走，恐怕只有换脸才能解决。

（泄漏出来的后台数据截图）

随着智能设备越来越深入地进入家庭，我们在各种系统中被留下，又被泄漏的痕迹，只会越来越多。这样说来，在家里洗澡时的跑调歌声被数据标注员听到，已经是各种AI相关事故里危害最小的一种。

数据就是力量

某种意义上说，被大数据和AI包围的，极端便利的现代生活，是以我们对自身隐私数据的让渡为代价的。麦克风、摄像头、GPS、指纹传感器……他们收集到的数据，随时可以成为追踪和监看你的绝好素材。差别在于，看着这些数据的究竟是无感情的机器，还是活生生的，怀有善意或恶意的人类？

大多数人对此毫无知觉，也没法控制。被曝光之后，海外的几家大公司，都先后宣布停止了外包团队对用户录音的审核。Alexa和Google也提供了入口，允许用户删掉他们留在平台上的录音资料。起码在海外，他们对自己的数据多了一点掌控。

但在国内，想删除自己的数据没这么容易。小米和百度的个人信息删除，都需要向指定邮箱发送邮件来提出申请，天猫精灵则需要联系客服。而且跟海外不同，这些删除请求都带有非常严格的附加限制。

这些东西都藏在几乎没人会读的隐私条款里。粗略看下来，一个普通用户想删掉自己的个人信息，难如登天。

跟AI一同走向成熟的这一代人，已经不可避免地，成了大公司喂饲给机器学习的数字饲料。唯一的问题是，等到AI足够聪明的那天，这种饲喂会停下来吗？

或者说，下一代人还会在乎这件事吗？

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6636

浏览量
104579
苹果

苹果

+关注

关注
61

文章
24496

浏览量
200473

原文标题：如何基于现有的WiFi模块进行快速的电路方案设计

文章出处：【微信号：all4lib，微信公众号：开源Block】欢迎添加关注！文章转载请注明出处。

搜索历史

隔墙有耳，一个AI背后，到底有多少人在偷听你？

评论

TLC2578芯片中FS与SDI到底有什么作用？

RK3506到底有多香？抢先看核心板详细参数配置

24位或者说高分辨率的AD到底有什么用呢？

差分输入和和单端输入在本质上到底有什么区别？

TFP401APZP到底有没有HSYNC输出？

INDEMIND立体视觉技术让机器人落地更稳

RTOS与Linux到底有什么区别

功放和运放到底是什么区别？

CMOS运放的输入阻抗到底有多高呢？

求助，这个电路U1A运放同相端的R1电阻到底有什么作用啊？

lm2902做的二阶低通滤波器，无论怎么调试C1的值，电路的波特图都保持不变，请问一下C1的作用到底有多大？

无人机智能巡检系统到底有哪些作用

EWSTM8-2201 or 3101安装说明上有的说选“是”，有的说选“否”，二者到底有什么区别？对工程有什么影响？

亚马逊“AI零售店”背后藏着1000个印度人！无人零售发展遭遇哪些挑战？

扒一扒折叠屏手机背后的“黑科技”