0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入分析大数据的力量在哪里?

中山市物联网协会 作者:工程师之余 2018-11-18 10:06 次阅读

大数据是这几年的一项热门技术。它和人工智能云计算一起,已经成为大科技公司的技术标配。但是该如何理解大数据技术?这项技术对我们有什么影响?这些基本的问题,不少人却并不清楚。

谷歌的数据科学家赛斯(赛斯·史蒂芬斯-大卫德维茨Seth Stephens-Davidowitz)写了一本书《数据、谎言与真相》(Everybody Lies:Big Data,New Data ,and What the Internet Can Tell Us About Who We Really Are ),里面对这些问题给出了他的回答。

大数据这个名字本身会给人一种误解,认为大数据的关键在于数据量很大。不过,赛斯说,数据集的大小经常被高估。其实所需要的数据集的大小,跟数据本身的效果、数据的真实程度等都有关。

举个例子,一个火热的炉子,你只需要碰到一次,就明白,热炉子很危险,会烫伤你。但是,你可能需要喝几千杯咖啡,才能确定,咖啡是否会让你头疼。原因就在于,热炉子本身的效果强度很高,因此,只需要一项数据,就能显现出结果。

赛斯在这本书里引用了大量人们在谷歌中搜索的数据。谷歌的数据之所以这么有价值,其实原因也不完全是因为谷歌能拿到的庞大的数据量,还因为,人们在自己的电脑上输入关键词、进行搜索时,都很诚实。他们不需要考虑社交压力、周围人的眼光等等。

用赛斯的话说,“你未必总是需要大数据,才能得出重要见解,你需要正确的数据。”大数据革命跟收集更多的数据无关,而是跟收集正确的数据有关。还是以谷歌为例。谷歌不是仅仅凭借着能够比其他搜索引擎搜索到更多的内容,就成为世界上最大的搜索引擎公司,它凭借的是,可以搜索到更好的数据。这跟谷歌的算法有关。谷歌的算法,按照一个网页被链接的数量来对搜索结果排序。

赛斯介绍了大数据的四种力量。这四种力量,也并不都同数据集本身的大小相关。

大数据的第一种力量是,提供了新类型的数据。比如,包括弗洛伊德在内的思想家,都会从性的角度,来解释人类的很多行为。但是,这些思想家更多还是在观念层面进行思考。而现在,大数据时代的研究者,有了一项让那些过往思想家羡慕不已的数据:人们在互联网上搜索和观看色情作品的数据。这些独特的数据来源,能够让研究者进入以前只能靠推理和猜测的领域。

大数据的力量在于,重新想象什么东西有资格成为数据,提供之前从来没有收集过的信息,让人们可以研究。

作者举了一个例子。他曾经把2004年至2011年的失业率输入到谷歌的数据挖掘工具Google Correlate中,结果发现,跟失业最相关的搜索,一个是***,另一个是蜘蛛纸牌。作者猜测,原因也很简单,因为失业者会有很多空闲时间。所以,他就发现,“利用一些跟消遣相关的搜寻组合,就能追踪失业率,而且是预测失业率最佳模式的一部分。”

大数据的第二种力量是,提供了诚实的数据。在数字时代出现之前,可想而知,由于考虑到社会压力等因素,人往往会隐藏起来那些会让自己难堪的想法。即使面对询问,也不会坦诚相告。但是,在数字时代,虽然人们仍然会在现实生活中隐藏起一些真实想法,但是在互联网上,尤其是可以匿名的网站上,人们往往会透露出自己的想法。

“大数据使我们终于可以看清人们真正想要什么和真正做了什么,而不是人们说自己要什么和做了什么。”

知名投资人彼得·蒂尔说过,伟大的企业建立在秘密之上。可能是关于自然的秘密,也可能是关于人的秘密。人的秘密,指的是跟自己有关但自己却不知道,或者不想让别人知道的事。

举个例子,流媒体公司奈飞,曾经让用户设置一个自己以后想看的电影播放列表。奈飞发现,用户确实会把电影添加到这个列表中,但是,尽管奈飞会提醒用户看这些电影,用户却很少真的去看。因为,人们说自己想要的,跟自己实际想要的不一致。

后来,奈飞不再要求用户告诉自己他们想看什么电影,而是根据用户点击和观看的数据建立一个模型,用模型来推测用户想看什么电影。结果,用户果然越来越频繁地造访奈飞,在上面看了越来越多的电影。所以,奈飞前数据科学家泽维尔·艾玛特里安说:算法比你更了解你自己。

大数据的第三种力量是,让我们可以把焦点放在人口中的一个很小的子集,去进行研究。

当然,这要求对小的子集,也有大数据量。打个比方,为了将照片的一小部分放大后还能看清楚,照片需要有很高的像素。同样,为了能够清楚放大检视数据的小子集,每一个小子集中都需要大量的数据。比如,某一个球队有多受1978年出生的男性的欢迎。只对几千人进行的小调查,样本根本不够大,1978年出生的男性人数肯定不够多。

这样做的意义在什么地方呢?作者通过数据研究发现,是否成为一个球队的粉丝,跟这个球队在一个人特定年龄段的表现有关系。如果在一个人对运动最痴迷、最容易喜欢上某项运动的时间段,这个球队的表现越好,那它获得这个年龄段的球迷就越多。

而且,美国人政治观点的形成也类似。很多美国人会在14岁到24岁这个关键时期,形成个人的政治偏好。其中,形成政治观点最重要的年纪是18岁。受欢迎的共和党总统或不受欢迎的民主党总统,将影响很多年轻人成为共和党人。反之亦然。“大数据允许我们有意义地放大检视数据集的细部,获取新的洞察。”

第四种力量是,允许研究者进行因果关系实验。大数据可以允许研究者进行快速而且可控制的因果关系实验,而不仅仅是相关性。

这种测试在很多互联网公司被称作是A/B测试。脸书(Facebook)每天能进行上千次A/B测试。所谓的A/B测试,指的是,在同一个时间维度,分别让相似的两组访客随机访问这些版本,收集数据,来评估出用户更喜欢的版本。比如,两个标题,哪一个点击量更高;放哪种类型的照片,更能让用户喜欢等等。

有一个网站的CEO说:“你不能假设任何事,必须针对每件事都进行测试才行”,“如果我们了解人性,根据我们的生活经验就能判断答案是什么,那么测试就不会有价值。但事实上,我们不了解人性,所以测试才这么有价值。”

这种方法,互联网公司已经大量使用,而现在和将来,社会科学家也可以使用,从而把以往模糊的研究,变得更科学。以上就是谷歌数据科学家对于大数据拥有的四种力量的解释,希望对你有启发。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    7698

    浏览量

    137075
  • 人工智能
    +关注

    关注

    1789

    文章

    46572

    浏览量

    236891
  • 大数据
    +关注

    关注

    64

    文章

    8850

    浏览量

    137182

原文标题:深度解析大数据,大数据的力量在哪里?

文章出处:【微信号:ZS-IOT,微信公众号:中山市物联网协会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    深入分析LED电源损坏原因

     经常听到业内有人抱怨说每次LED灯具坏了一看又是电源坏了,所以LED灯具里最不可靠的是电源,可能他说的是事实。可是也还需要深入分析一下,LED电源损坏的原因。
    发表于 04-20 13:45 3548次阅读

    深入分析运放的作用

    深入分析了4-20mA的运放选型、A/D基准电压对测量精度影响等问题。
    的头像 发表于 01-15 13:47 3413次阅读
    <b class='flag-5'>深入分析</b>运放的作用

    Xilinx_FPGA_内部结构深入分析

    Xilinx_FPGA_内部结构深入分析存储单元存储单元可以配置为D触发器,就是我们常说的FF,Xilinx称之为FD;也可以配置为锁存器,Xilinx称之为LD。输出和三态通路各有一对寄存器外加一
    发表于 08-02 22:48

    uCOS任务堆栈的深入分析(转)

    uCOS任务堆栈的深入分析(转)
    发表于 08-24 23:30

    深入分析Windows和Linux动态库应用异同

    深入分析Windows和Linux动态库应用异同 摘要:动态链接库技术实现和设计程序常用的技术,在Windows和Linux系统中都有动态库的概念,采用动
    发表于 10-22 11:36 1287次阅读

    笔记本的结构深入分析

    笔记本的结构深入分析  电脑技术的应用为我们的生活和工作带来了巨大改变,使我们的生活学习工作有了质的转变。普通的用户对电脑的了解一
    发表于 01-21 15:53 4268次阅读

    如何深入分析电源电路技巧(二):驾驭噪声电源

      随着现在对更高效、更低成本电源解决方案需求的强调,电子发烧友网整合《如何深入分析电源电路》系列文章,就各种电源管理课题提出一些对您有帮助的小技巧。该专栏面向各
    发表于 06-08 14:15 2563次阅读
    如何<b class='flag-5'>深入分析</b>电源电路技巧(二):驾驭噪声电源

    大数据应用崛起 下一阶段发展方向在哪里?

    时至今日,我们的数据管理能力日益提升,但数据分析能力则相对落后。尽管工具与流程皆已齐备,但仍然缺少充足的数据科学家人员。 大数据应用崛起 下一阶段发展方向
    发表于 11-17 13:12 973次阅读

    了解多线程并深入分析CreateThread与_beginthreadex本质区别

    本文将带领你与多线程作第一次亲密接触,并深入分析CreateThread与_beginthreadex的本质。
    的头像 发表于 01-09 17:08 4459次阅读
    了解多线程并<b class='flag-5'>深入分析</b>CreateThread与_beginthreadex本质区别

    人工智能和大数据对于教育来讲,它的优势到底在哪里

    其次,人工智能+教育的使用风险是什么?互联网具有互联性、虚拟性、开放性,大数据拥有情报性、统计性等,那么人工智能和大数据对于教育来讲,它的优势到底在哪里?如何在培养人才和管理方面发挥人工智能的优势?应用的时候有没有风险?
    的头像 发表于 11-06 09:22 5033次阅读

    深入分析MCU堆栈的作用 以及该如何设置堆栈大小

    深入分析MCU堆栈的作用,以及该如何设置堆栈大小
    的头像 发表于 03-01 14:13 4973次阅读
    <b class='flag-5'>深入分析</b>MCU堆栈的作用 以及该如何设置堆栈大小

    深入分析高频回路:头疼的噪声!资料下载

    电子发烧友网为你提供深入分析高频回路:头疼的噪声!资料下载的电子资料下载,更有其他相关的电路图、源代码、课件教程、中文资料、英文资料、参考设计、用户指南、解决方案等资料,希望可以帮助到广大的电子工程师们。
    发表于 04-01 08:42 9次下载
    <b class='flag-5'>深入分析</b>高频回路:头疼的噪声!资料下载

    (转)深入分析STM32单片机的RAM和FLASH

    (转)深入分析STM32单片机的RAM和FLASH
    发表于 12-02 11:51 11次下载
    (转)<b class='flag-5'>深入分析</b>STM32单片机的RAM和FLASH

    大数据应用在哪些方面?

    大数据时代,大量化,快速化,多样化,价值化是其主要特征,那么基于上述特点,大数据应用范围变得更加广泛,那么大数据应用在哪些方面呢?毕竟只有知悉大数
    的头像 发表于 02-08 10:33 4463次阅读

    深入分析:大带宽竞争形势下同轴接入网的价值

    电子发烧友网站提供《深入分析:大带宽竞争形势下同轴接入网的价值.pdf》资料免费下载
    发表于 11-10 11:26 0次下载
    <b class='flag-5'>深入分析</b>:大带宽竞争形势下同轴接入网的价值