0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

令人惊讶的数据库:2.2亿自然人简历、10亿通讯录、100亿用户ID

电子工程师 来源:lp 2019-04-04 11:34 次阅读

一份巧达科技的文件,透露出的数据问题,令人十分震惊。

日前,有消息称招聘数据公司巧达科技被查封,全体员工被警方带走。一位巧达科技前员工告诉燃财经(ID:rancaijing),“(最近)陆续有HR等非核心员工回家,但核心高管依然失联中。”多位业内人士和律师认为,巧达科技出事可能与其未经授权获取和使用简历、“贩卖”简历信息等涉嫌侵犯用户隐私权、侵犯公民个人信息的行为有关。

公开资料显示,巧达科技成立于2014年7月,号称拥有中国最大的简历数据库,其主要数据来源为大数据产品矩阵“乔大招”。乔大招旗下拥有“爱伙伴”、“简历时光机”等多款招聘产品。巧达科技在2014年11月获得创新工场数百万美元A轮融资,2017年1月获得中信产业基金数千万人民币B轮融资。

燃财经(ID:rancaijing)拿到一份巧达数据给客户的商务合作BP(商业计划书)。这份文件宣称:巧达科技旗下有38个B端招聘产品、超过170万招聘者用户,巧达科技数据库有2.2亿自然人的简历、简历累计总数37亿份。此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。

根据文件介绍,巧达科技将这些数据用在教培、保险、招聘等行业,某大型地产公司、某职业教育培训机构、某分类信息网站和几家招聘网站在这份文件里被列为典型案例。数据生意为巧达科技带来了大量收入。2016年,巧达科技全年收入1.2亿元,净利润4800万元;2017年,巧达科技全年收入4.11亿元,净利润1.86亿元,净利润率超过45%。

王成予在向一位客户介绍数据合规性时表示:巧达科技获取的数据大部分为“非敏感数据”,且数据使用时会经过脱敏处理。

但有律师认为,不论是通过自有渠道还是第三方渠道,没有经过用户同意和违反用户意愿的数据交易,都属于擅自利用用户信息并可能侵犯隐私。

燃财经(ID:rancaijing)尝试联系王成予,向其证实文件里信息的真实性,但其电话长时间处于关机状态。

要点速览

在BP的管理团队介绍中,其董事长并非工商信息中的王成予,而是由百度风投管理合伙人齐玉杰担任。

假如某APP提供某用户手机号,巧达科技将其与自有的简历库进行匹配,便能反馈给APP这个自然人包括年龄、性别、行业、职业、户籍、收入、教育经历、工作经历、关系链等在内的信息。巧达科技即使没有掌握你的简历,它依然可以“算”出你的信息。

巧达科技宣称通过2.2亿+有简历的自然人、10亿+通讯录、100亿+用户识别ID组合和1000亿+用户综合数据,计算出了8亿+,也就是可能涉及到57%的中国人的多维度数据。

巧达科技提供的多项服务都指向用户个人,并且涉及在没有用户授权情况下对外许可,很可能涉及侵犯隐私。

高管多为百度出身:公司2017年净赚1.86亿元

根据工商信息,巧达科技(北京)有限公司(下称巧达科技)成立于2014年7月,注册资本1050万人民币,法定代表人为王成予。巧达科技登记有3名股东,其中王成予占股85.33%,刘炜占股12.19%,北京创新方舟科技有限公司占股2.48%。此外,王成予还担任经理和董事长。

燃财经(ID:rancaijing)发现,巧达科技将股权悉数质押给北京迈可伦科技有限公司,该公司成立于2015年2月,公司类型为有限责任公司(台港澳法人独资),注册资本1017.702万美元,法定代表人、董事长、经理亦为王成予。该公司唯一股东为2014年11月在香港成立的巧达数据集团有限公司。

巧达科技对外称,自己是“一家专注于商业数据服务领域前瞻性产品设计和技术研发的公司”。核心团队由“中国互联网元老级产品经理和技术极客”组成。PPT显示,巧达科技在2014年11月获得了来自创新工场的A轮融资,2016年2月获得了来自齐玉杰和创新工场的A+轮融资,2017年1月,获得了来自中信产业基金、骊悦金实、创新工场的B轮融资。

创新工场方面对外表示,其仅是巧达科技的财务投资人,从未参与任何公司运营,巧达科技也早已搬离工场。

在BP的管理团队介绍中,其董事长并非工商信息中的王成予,而是由百度风投管理合伙人齐玉杰担任。其创始人“成予”曾任IBM WebSphere解决方案副总裁、百度早期产品部负责人、联想FM365产品经理;其联合创始人沈毅曾任百度爱乐活技术副总裁、百度电子商务事业部技术总监、百度有啊技术负责人。

此外,其他四位重要高管分别有在联想、阿里、百度、普华永道等知名企业的从业经验。巧达科技旗下爱伙伴产品负责人刘博曾经自诩不会侵犯用户隐私,并称巧达科技团队COO刘炜曾是中国最大的在线法律服务平台盈科律云的创始人,在法律方面把关格外严谨。

燃财经(ID:rancaijing)就此联系了齐玉杰的同事,对方称,齐玉杰因身体原因已经休假很长时间,并拒绝了燃财经进一步联系齐玉杰求证的请求。一位百度员工则告诉燃财经,巧达科技是齐玉杰去百度风投任职之前就投资的公司,跟百度没有关系。

该文件还展示了两组十分引人注目的数据。截至2016年12月,巧达科技完成了全年1.2亿元的营收,其中净利润4800万元。一年后,其收入和净利润完成了成倍的增长,截至2017年12月,其全年收入4.11亿元,净利润1.86亿元。

巧达科技号称拥有中国最大的简历数据库,其自有的互联网招聘工具便是“乔大招”,创始人为刘炜,法人为王成予,旗下拥有“爱伙伴”、“简历时光机”、“人才蛙”等10多款互联网招聘相关产品。

另外,刘炜在明易互通信息技术(北京)有限公司担任联合创始人,该公司主营“快火箭”和“妙招网”两款产品。

其中,曾在明易互通任职的叶锦生,是北京纷历数据技术有限公司的执行董事,“纷简历”是其主打产品。“纷简历”曾被知乎网友曝光称,5600多万份求职简历未经当事人允许便被非法兜售,导致个人信息严重泄露,致使不少当事人收到大量骚扰电话。

令人惊讶的数据库:2.2亿自然人简历、10亿通讯录、100亿用户ID

BP显示,巧达科技运营的是“以人为核心的大数据”,这其中的关键是自然人属性。

因为传统的用户画像靠行为来猜,依据的是上网特征、媒体及购物偏好、自定义标签等相对模糊的信息,很容易猜不准。而巧达科技通过自然人数据还原,能够精准地进行用户画像。

巧达科技的简历来源包括38个B端招聘产品和超过170万招聘者用户。简历解析后自然人的原生数据能够产生四项定位,包括角色画像(生活角色、家庭角色、职务角色)、轨迹变化(收入范围、消费趋势、社会地位)、社会关系(同学、同事、同乡、同行业、同职位)以及区域位置(生活区域、工作地点、教育培训),几乎涵盖了个人所有的数据维度。

自称拥有中国最大的自然人简历库,巧达科技手握2.2亿自然人的简历,简历累计37亿份。这也意味着,假如某APP提供某用户手机号,巧达科技将其与自有的简历库进行匹配,便能反馈给APP这个自然人包括年龄、性别、行业、职业、户籍、收入、教育经历、工作经历、关系链等在内的信息。

简历之外,巧达科技还通过自有产品获取用户授权,以及第三方合作授权等方式,累积了超过10亿“本机号不重复”的通讯录。有了这10亿通讯录和2.2亿自然人简历库,加上聚类分析,巧达科技可以给有通讯录数据但没有简历数据的自然人进行画像。也就是说,巧达科技即使没有掌握你的简历,它依然可以“算”出你的信息。

拿到自然人的资料后,巧达科技可以通过通讯录找到他的社会、组织、家庭关系,并进一步挖掘用户信息。在此基础上,将这些信息匹配平台的简历库,最终得出这些自然人及其周边关系的收入水平、潜在需求、关系影响等要素。这些数据可以再进一步分成运营商数据、消费数据以及行为数据,售与相关企业。

同时,公司将用户数据与其邮箱、微博号、微信号、QQ等社交ID组合,通过多个识别ID关联、多种设备关联、跨平台行为关联、线上线下数据互通,打通自然人与ID的关系。

至此,巧达科技宣称通过2.2亿+有简历的自然人、10亿+通讯录、100亿+用户识别ID组合和1000亿+用户综合数据,计算出了8亿+,也就是可能涉及到57%的中国人的多维度数据。

巧达科技称认识用户就可以预知未来,按照其业务逻辑,此话不仅不假,甚至十分恐怖。

掌握这么多信息,巧达科技将其应用在数据运营、大数据执法、教培、保险、招聘五大领域。

拿教培行业举例,某职业教育培训机构每日新增15万线索号码,但仅有手机号+简单信息,面临需求不明、付费率低、无效沟通增加成本、学员间转介绍困难等问题。巧达科技则可以自动补全意向学员的资料信息,将学员线索按照关系分配给课程顾问,并且发现学员通讯录中有培训需求的人。

据悉,该职业教育培训机构已积累2亿条咨询号码,但同样面临推荐错误形成骚扰、无法挖掘最大价值的困境。巧达科技则将公海里的号码进行关系影响建模,再将课程学员号码进行产品特征建模,最后进行匹配计算,得出潜在客户的分级标记,得出最适合每一位客户的前几位课程。

自诩“合法获得”数据,法律专家称站不住脚

在这份BP中,单独有5页讲述业务合规性。巧达科技称,数据获取于3个途径:

1,自有招聘网站。巧达科技自称合法取得,求职者用户直接授权,包括简历中敏感数据和非敏感数据。

2,招聘工具产品。巧达科技自称合法取得,HR/猎头用户授权,包括简历中敏感数据和非敏感数据。

3,第三方数据源。巧达科技自称合法取得,合作方授权,包括用户ID组合,通讯录,行为标签和偏好画像。

获得数据后,巧达科技将简历中敏感数据、用户ID组合、通讯录进行MD5脱敏,以及简历中非敏感数据、行为标签、偏好画像,一并放入数据库中。数据通过建模计算,结合用户的认知引擎,最后提供给客户。

法律专家、上海版权协会监事林华认为,巧达科技声称的“合法性”在事实和法律上来说都是站不住脚的。“合法”的前提是要有当事人的授权,即使巧达是通过自有招聘入口获取用户简历,使用用户信息也必须限于用户投简历的目的范围之内。超过为用户直接推荐工作机会之外的都是违反用户意愿,属于擅自利用用户信息并可能侵犯隐私。

如果巧达是从第三方获取用户数据,第三方本身不仅需要合法获得用户数据而且需要取得用户对转售简历的许可,这两个条件缺乏其一都不合法,从而导致购买和再利用数据的行为不具有合法性。

即使巧达以合法方式取得用户简历信息,对简历的使用也应是另一个独立行为。如果对汇总的用户信息经过数据脱敏,使信息不再和具体自然人而是和特定群体挂钩,即只在统计学意义上利用不包含个人身份的用户大数据,法学上基本认同这种使用方式不涉及隐私权。

但巧达科技对用户简历的使用应当不止于此,巧达科技提供的多项服务都指向用户个人,并且涉及在没有用户授权情况下对外许可,很可能涉及侵犯隐私。

此前已有贩卖简历被指控侵犯公民个人信息罪的先例。2017年,在求职网站智联招聘工作的员工先后私自出售15万份个人简历信息给“猎头”余秋云,每份简历信息售价2-2.5元,余秋云再将信息加价卖给他人。上述员工被抓获,公诉方指控三人犯侵犯公民个人信息罪。

一位行业人士告诉燃财经(ID:rancaijing),做数据生意的公司都很“低调”,属于“闷声发大财”,巧达科技也不例外。据他介绍,巧达科技为HR或猎头提供简历管理工具,并引导他们主动上传自己手中的简历以免费换取其他简历,巧达科技由此获得了大量的简历数据。

“数据交易行业里,简历数据属于比较贵的数据。”该行业人士猜测,巧达科技很可能拿着手中免费得来的简历数据和拥有其他类型数据的数据公司进行了交换,从而拿到了通讯录数据、消费数据等等其他数据。

多位行业人士告诉燃财经(ID:rancaijing),数据行业的“水很深”,个人隐私被用来非法牟利的例子比比皆是。对于此类事件,燃财经将持续关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    11081

    浏览量

    102668
  • 数据库
    +关注

    关注

    7

    文章

    3754

    浏览量

    64255
  • 大数据
    +关注

    关注

    64

    文章

    8857

    浏览量

    137258

原文标题:独家起底巧达科技:“玩转”8亿人数据的灰色生意

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    数据库数据恢复—通过拼接数据库碎片恢复SQLserver数据库

    一个运行在存储上的SQLServer数据库,有1000多个文件,大小几十TB。数据库10天生成一个NDF文件,每个NDF几百GB大小。数据库包含两个LDF文件。 存储损坏,
    的头像 发表于 10-31 13:21 121次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—通过拼接<b class='flag-5'>数据库</b>碎片恢复SQLserver<b class='flag-5'>数据库</b>

    Oracle数据恢复—异常断电后Oracle数据库报错的数据恢复案例

    Oracle数据库故障: 机房异常断电后,Oracle数据库报错:“system01.dbf需要更多的恢复来保持一致性,数据库无法打开”。数据
    的头像 发表于 09-30 13:31 224次阅读
    Oracle<b class='flag-5'>数据</b>恢复—异常断电后Oracle<b class='flag-5'>数据库</b>启<b class='flag-5'>库</b>报错的<b class='flag-5'>数据</b>恢复案例

    数据库数据恢复—SQL Server数据库出现823错误的数据恢复案例

    SQL Server数据库故障: SQL Server附加数据库出现错误823,附加数据库失败。数据库没有备份,无法通过备份恢复数据库
    的头像 发表于 09-20 11:46 268次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQL Server<b class='flag-5'>数据库</b>出现823错误的<b class='flag-5'>数据</b>恢复案例

    基于鸿蒙Next模拟电话通讯录及电话拨打

    一、介绍 基于鸿蒙Next模拟电话通讯录,可以拨打电话,删除电话等二、场景需求 客户服务、业务咨询、回访处理、沟通交流、信息交流等等 三、业务步骤 第一步:点击拨打点电话,先判断设备是否具备通讯能力
    发表于 08-27 15:24

    亿纬锂能与英飞凌签署合作备忘

    7月22日,亿纬锂能与英飞凌科技(上海)有限公司(以下简称“英飞凌”)在广东惠州签署合作备忘,英飞凌科技高级副总裁及汽车业务大中华区负责人曹彦飞、副总裁Remmers Robert、高级销售总监
    的头像 发表于 07-24 09:48 512次阅读

    亿纬锂能与台达签署合作备忘

    亿纬锂能与台达电子工业股份有限公司(以下简称“台达”)签署合作备忘,以深化合作和共识,共同开创发展的新篇章。亿纬锂能创始、董事长刘金成博士与台达副董事长柯子兴先生等双方高层见证签约
    的头像 发表于 07-19 15:00 435次阅读

    科技分析:sql数据库怎么用?

    SQL数据库的使用通常包括以下几个基本步骤: 1、选择数据库系统: 选择适合您需求的SQL数据库系统,如MySQL、PostgreSQL、Microsoft SQL Server、SQLite等
    的头像 发表于 07-15 14:40 299次阅读

    阿里云与中兴通讯达成开源数据库合作

    近日,阿里云与中兴通讯宣布达成开源数据库领域的深度合作。中兴通讯正式加入PolarDB开源社区,并荣任首届理事会成员单位,这一举措标志着两大科技巨头在数据库领域的合作迈向新的高度。
    的头像 发表于 05-17 10:47 517次阅读

    阿里云与中兴通讯达成开源数据库合作,助推国产数据库发展

    据悉,阿里云与中兴通讯于5月16日公布了开源数据库合作事宜。中兴通讯正式宣布加入PolarDB开源社区,并担任首届理事会成员单位。
    的头像 发表于 05-16 16:34 409次阅读

    亿纬锂能与马来西亚Invest Kedah签订谅解备忘

    1月15日,亿纬锂能全资孙公司亿纬锂能马来西亚有限公司与INVEST KEDAH BHD.(以下简称“Invest Kedah”)在惠州签署谅解备忘,双方拟设立亿纬锂能马来西亚储能公
    的头像 发表于 01-19 18:11 894次阅读

    亿纬动力与Aksa拟在土耳其组建合资公司

    亿纬锂能子公司湖北亿纬动力有限公司(以下简称“亿纬动力”)与土耳其Aksa Jeneratör Sanayi A.Ş(以下简称 "Aksa")达成合作共识,签署谅解备忘
    的头像 发表于 01-18 11:15 730次阅读

    2024年,国产数据库正酝酿新变局!

    数字经济以及信息技术产业发展至关重要。据 Gartner 统计,2017年我国数据库软件市场规模为 120亿元。 据大数据技术标准推进委员会数据显示,2022年全球
    的头像 发表于 01-05 13:18 414次阅读
    2024年,国产<b class='flag-5'>数据库</b>正酝酿新变局!

    华秋荣获亿邦动力2023产业互联网千峰奖

    喜讯! 继华秋荣获2023中国产业数字化百强榜企业 2023深圳行业领袖企业100强后 华秋再次荣获亿邦动力2023产业互****联网“千峰奖·数字供应链 12月1日晚,在2023亿邦产业互联网
    发表于 12-15 09:53

    什么是JSON数据库

    数据库的显著优势关于JSON数据库的Q&A一、什么是JSON?首先,我们得明确“JSON”的含义。开发人员在创建业务逻辑、用户界面、数据库或后端系统时,需要一种描述
    的头像 发表于 12-02 08:04 813次阅读
    什么是JSON<b class='flag-5'>数据库</b>

    NoSQL 数据库如何选型

    什么是NoSQL数据库?为什么要使用NoSQL数据库?键值数据库内存键值数据库文档数据库列式数据库
    的头像 发表于 11-26 08:05 436次阅读
    NoSQL <b class='flag-5'>数据库</b>如何选型