0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据分析是如何进行数据采集?

如意 来源:DataFocus 作者:DataFocus 2020-07-05 09:37 次阅读

大数据的发展越来越贴近我们的生活,但是很多却依然不是很了解什么是大数据,大数据有什么作用。现在大数据不仅仅是网络资讯,技术论坛甚至新闻上都有它的身影。说明不仅仅是企业,连国家都在部署大数据战略,但是很多人却依然云里雾里不清楚这个到底是个啥?直到有一天发现,只要你无意中搜索过什么,那么网页、APP等都会跳出你搜索过得相关产品或者关联事物,淘宝推荐商品也越来越符合你的心意。

其实大数据,就是算法!它可以“算”出你的“心意”。

那么问题来了,大数据技术是怎么样采集到信息的呢?

数据采集,又称数据获取,是通过一种设备,从系统外部采集到数据输入到系统内部的一种技术。

在如今互联网行业技术快速发展的今天,数据采集广泛应用于互联网及分布式领域,例如摄像头、麦克风等,都是数据采集的工具。数据采集系统还集合了信号传感器、激励器、信号调理、数据采集设备和软件应用。

现在是一个数据大爆炸的互联网时代,数据类型同样也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

大数据采集是大数据分析至关重要的的一个环节,也是大数据分析的入口。

我们首先来了解一下数据采集的三大要点:

(1)全面性:数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

(2)多维性:数据更重要的是能满足分析需求。

灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

(3)高效性:高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。

也就是说采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。

此外,还要考虑数据的及时性。不同应用领域的大数据其特点、数据量、用户群体均不相同,不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。

下面我们来了解一下常用的数据采集方法:

1.传感器采集方法

传感器通常用于测量物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。

2.网络爬虫采集方法

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOFA社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引模拟程序或者蠕虫。(百度百科)最常见的爬虫便是我们经常使用的搜索引擎,如百度,360搜索等。此类爬虫统称为通用型爬虫,对于所有的网页进行无条件采集。

3.系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

4.其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

数据分析数据的采集是挖掘数据“石油”的第一步,当数据量越来越大时,可发掘的有价值的信息也就更多,反应信息也就越加全面。只有更加充分的利用数据化处理平台,便可以保证分析结果的有效性和准确性,只有这样才能更加有效的助力企业实现驱动的数据化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据采集
    +关注

    关注

    39

    文章

    6100

    浏览量

    113652
  • 大数据
    +关注

    关注

    64

    文章

    8889

    浏览量

    137438
  • 大数据分析
    +关注

    关注

    1

    文章

    134

    浏览量

    16892
收藏 人收藏

    评论

    相关推荐

    当ADC08D1520评估板在外部信号触发下进行数据采集时,wavevison5能自动保存采集到的数据吗?

    当ADC08D1520评估板在外部信号触发下进行数据采集时,wavevison5能自动保存采集到的数据吗?
    发表于 12-26 06:31

    使用CAN总线进行数据采集的方法

    使用CAN总线进行数据采集的方法通常涉及一系列步骤,这些步骤确保了数据的准确采集、处理和存储。以下是一个详细的方法指南: 一、了解CAN总线系统 首先,需要对CAN总线系统有一定的了解。CAN总线
    的头像 发表于 12-20 18:18 628次阅读

    zeta的定义和应用 如何使用zeta进行数据分析

    Zeta(ζ)电位是描述悬浮粒子在液体中移动时所产生的电位差的一个物理量,以下是对其定义、应用以及如何进行数据分析的详细解释: Zeta电位的定义 Zeta电位是通过理论推导和实验测量得到的,它反映
    的头像 发表于 12-19 18:10 508次阅读

    可与MES系统集成的数据采集监控平台

    和协同。 数据安全与合规: 采取加密技术、访问控制等安全措施,保护数据的机密性和完整性。 遵守相关标准,确保数据的合规性。 数据采集监控平台提高了生产效率,通过实时监控和
    发表于 12-16 15:08

    如何使用SQL进行数据分析

    使用SQL进行数据分析是一个强大且灵活的过程,它涉及从数据库中提取、清洗、转换和聚合数据,以便进行进一步的分析和洞察。 1.
    的头像 发表于 11-19 10:26 285次阅读

    为什么选择eda进行数据分析

    数据科学领域,数据分析是一个复杂且多步骤的过程,它涉及到数据的收集、清洗、探索、建模和解释。在这些步骤中,探索性数据分析(EDA)扮演着至关重要的角色。 1. 理解
    的头像 发表于 11-13 10:41 237次阅读

    raid 在大数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析
    的头像 发表于 11-12 09:44 249次阅读

    云计算在大数据分析中的应用

    和处理大规模的数据集。通过云计算平台,用户可以快速构建数据仓库,将海量数据进行存储、管理和分析。这种能力使得企业能够高效地处理PB级别的
    的头像 发表于 10-24 09:18 454次阅读

    使用AI大模型进行数据分析的技巧

    使用AI大模型进行数据分析的技巧涉及多个方面,以下是一些关键的步骤和注意事项: 一、明确任务目标和需求 在使用AI大模型之前,首先要明确数据分析的任务目标,这将直接影响模型的选择、数据收集和处理方式
    的头像 发表于 10-23 15:14 746次阅读

    IP 地址大数据分析何进行网络优化?

    一、大数据分析在网络优化中的作用 1.流量分析 大数据分析可以对网络中的流量进行实时监测和分析,了解网络的使用情况和流量趋势。通过对流量
    的头像 发表于 10-09 15:32 235次阅读
    IP 地址<b class='flag-5'>大数据分析</b>如<b class='flag-5'>何进行</b>网络优化?

    大数据采集系统分为几类

    和应用场景. 1. 概述 大数据采集系统是实现数据收集、处理和存储的关键环节。随着大数据技术的快速发展,大数据采集系统也在不断演进和创新。本文将从以下几个方面对
    的头像 发表于 07-01 15:44 1524次阅读

    plc物联网数据采集平台是什么

    PLC物联网数据采集平台是基于物联网技术,将多个PLC设备连接到云端的数据采集与管理系统。通过采集分析PLC产生的数据,实现对生产过程的实
    的头像 发表于 06-24 15:18 779次阅读

    求助,关于AD采集到的数据分析问题

    问题描述:使用AD采集一个10Hz到2MHz的脉冲,脉冲底部可能大于零,由采集到的数据分析出该脉冲的上升时间,幅值和占空比。 备注:在分析的时候已经知道脉冲的频率,精度为2X10^-
    发表于 05-09 07:40

    物联网智能工厂中的PLC如何进行数据采集与远程维护

    数据采集与实时通信对于企业工厂进行后续的分析和决策是十分重要的,可以从效率、能耗、物料等多个角度提升管理员对生产的认识度,从而采取更加精准高效的措施,实现产能提升、节能降耗、减少故障等目标,助力实现
    的头像 发表于 03-05 10:34 537次阅读

    基于振弦采集仪的工程监测数据分析方法研究

    基于振弦采集仪的工程监测数据分析方法研究 基于振弦采集仪的工程监测数据分析方法研究主要涉及以下几个方面: 基于振弦采集仪的工程监测
    的头像 发表于 01-02 15:12 403次阅读
    基于振弦<b class='flag-5'>采集</b>仪的工程监测<b class='flag-5'>数据分析</b>方法研究