0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据采集技术常用的采集方法包括几种

RG15206629988 来源:行业学习与研究 2023-02-24 11:41 次阅读

大数据的来源主要包括:商业数据、互联网数据、物联网数据。其中,商业数据来源于企业的内部系统(如企业ERP、POS 终端系统、网上支付系统等);互联网数据包括:QQ、微信、微博、网站数据;物联网数据来源于物联网硬件设备(如射频识别装置、全球定位设备、传感器设备、视频监控设备等)。

大数据的数据类型可分为三种:结构化数据、半结构化数据、非结构化数据。其中,结构化数据是关系数据库中的数据,可直接被使用和存储;半结构化数据可通过一定规律存储,如excel表格中的数据;非结构化数据是杂乱无章的,如邮件、网页的文字和图像,需要进行相应的处理才可被存储。

数据采集技术是数据科学的重要组成部分,技术是大数据处理的关键技术之一。常用的采集方法包括两种:ETL工具采集、网页数据采集。

一、ETL工具采集

ETL工具采集是将业务系统的数据通过抽取、清洗转换后加载至数据仓库的过程,目的是将企业中的分散零乱、标准不统一的数据整合,为企业的决策提供分析依据。

ETL采集是商业智能项目的重要环节,目前,互联网公司会采用该技术获取相关数据。

二、网页数据采集

网页数据采集是在互联网中采集数据。网页数据具有多元异构交互性、社会性、突发性、高噪声等特点,非结构化数据比例较高,且数据实时性较强。

目前,网页数据主要通过爬虫采集。爬虫采集需编写爬虫程序或爬虫脚本,爬虫流程是访问一个url(根据网络资料理解:url的中文名称是统一资源定位符,统一资源定位符是互联网资源位置和访问方法的一种简洁的表示,俗称网址),并通过模仿HTTP请求(根据网络资料:HTTP请求是指从客户端到服务器端的请求消息)获取网页。爬虫过程类似于通过浏览器查看并获取网页的信息

因为Python运行效率较高,且具有较成熟的爬虫框架和网页解析库文件,所以可快速处理网络数据。后文通过Python介绍爬虫(网络爬虫)。

网络爬虫(Web crawler) 是按照一定规则,自动抓取万维网(英文名称为World Wide Web,简称WWW)信息的程序或脚本,一般可分为数据采集,处理,储存三部分。

其中,数据采集是通过模仿HTTP请求获取网页,数据处理是对网页中非结构化的数据进行处理,数据存储包括将新URL放置于URL队列中和将爬取的数据存储至数据存储介质中。

3b88a4c2-b364-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

网络爬虫的系统结构如下:首先启动爬虫应用程序。一般,爬虫应用程序具有初始化队列,初始化队列中具有种子URL。然后,下载种子URL所对应的网页,网页中可提取新的URL并加入URL队列。再然后,将网页进行简单处理后存储至数据库中。以上爬虫过程结束后,再从URL队列中获取新URL,并下载新URL所对应的网页,重复爬虫过程。

3bafbf30-b364-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2548

    文章

    50660

    浏览量

    751842
  • 数据采集
    +关注

    关注

    38

    文章

    5903

    浏览量

    113507
  • ERP
    ERP
    +关注

    关注

    0

    文章

    503

    浏览量

    34347
  • POS
    POS
    +关注

    关注

    3

    文章

    119

    浏览量

    28287

原文标题:大数据相关介绍(12)——数据采集(上)

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于USB数据采集系统的研究与设计--ResearchandDesignofDataAequisitio

    生产场合中常用数据采集技术,并且对数据采集的各种要求也越来越高。传统的通信方式由于传输速度慢、抗干扰能力弱、安装麻烦等原因严重阻碍了数据采集
    发表于 06-10 00:57

    什么是数据采集

    特征值。准确的数据测量是数据采集的基础。数据量测方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,均以不影响被测对象状态和测量环
    发表于 01-28 08:24

    SMT行业数据采集技术

    与设备控制系统的集成,二是实现生产数据的实时收集。这需要对数据采集采集方式、参数的确定、软硬件实现、信号处理方法等问题开展技术研究。1.1
    发表于 10-20 20:17

    常见的几种不同的高速数据采集存储系统介绍

    商用级的采集存储供应商,一般会基于不同应用场景提供了不同的数据采集存储方案。下面列出了常见的几种不同的存储系统:
    发表于 07-04 06:08

    浅谈几种主流数控机床的数据采集技术分享

    马上即将毕业了,就自己在学校做的项目中包含有几种主流数控系统需要进行数据采集,总结一下之前的一些经验和开发工作,也希望后面再做相关技术研究的时候少踩点坑,同时也算是一个阶段的总结吧,毕竟马上要从事一
    发表于 07-02 06:38

    基于PDA的核数据采集系统的研究

    在比较数据采集几种方案的基础上, 讨论了基于掌上型电脑的核数据采集系统的硬件和软件实现, 包括串口电平不匹配问题的解决和多线程技术的应用,
    发表于 06-27 16:09 20次下载
    基于PDA的核<b class='flag-5'>数据采集</b>系统的研究

    基于PDA的核数据采集系统的研究

    在比较数据采集几种方案的基础上本文讨论了基于掌上型电脑的核数据采集系统的硬件和软件实现包括串口电平不匹配问题的解决和多线程技术的应用并且指
    发表于 04-18 10:46 0次下载

    基于FPGA的AD73360数据采集方法

    基于FPGA的AD73360数据采集方法
    发表于 05-10 11:24 29次下载

    工业数据采集类型与数据采集方法

    数据采集的类型上看,不仅要涵盖基础的数据,还将逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音频类型的用户意见和反馈
    的头像 发表于 06-27 15:39 1.8w次阅读

    数据采集技巧和技术

    问题,以优化数据采集系统性能并防止设备损坏或可能的操作员伤害。本文旨在加深对正确输入配置实践的理解,并作为几种日常数据采集应用的参考。
    的头像 发表于 12-02 16:13 960次阅读

    数据采集网关怎么采集数据

    数据采集网关怎么采集数据?(数据采集流程)
    发表于 01-12 09:35 879次阅读

    如何采集工业设备数据?工业数据采集方法有哪些?

    如何采集工业设备数据?一般可以使用以下几种方法:  1、使用Modbus协议进行数据采集  2、使用OPC UA协议进行数据采集  3、使用
    发表于 02-15 14:44 1214次阅读
    如何<b class='flag-5'>采集</b>工业设备<b class='flag-5'>数据</b>?工业<b class='flag-5'>数据采集</b>的<b class='flag-5'>方法</b>有哪些?

    数据采集方法有哪些

    数据采集方法有哪些 数据采集方法 数据采集方法主要包括
    发表于 04-13 14:01 1.1w次阅读

    AI数据采集标注类型:揭秘数据采集与标注的关键环节

    类型,包括数据采集的方式、数据标注的流程和注意事项等方面。 一、数据采集的方式 数据采集是指从各种来源收集
    的头像 发表于 05-16 18:04 4326次阅读

    数据采集网关:工业数据采集上云

    实现数据的整合、转换和分析。数据采集网关功能数据采集网关具备了强大的数据采集能力。它可以从各种数据源中
    的头像 发表于 12-12 16:46 751次阅读
    <b class='flag-5'>数据采集</b>网关:工业<b class='flag-5'>数据采集</b>上云