0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入解析大数据处理基本步骤

lAhi_PCBDoor 来源:cg 2018-12-12 16:42 次阅读

什么是大数据:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),百度随便找找都有大数据处理流程:

1.是数据采集,搭建数据仓库,数据采集就是把数据通过前端埋点,接口日志调用流数据,数据库抓取,客户自己上传数据,把这些信息基础数据把各种维度保存起来,感觉有些数据没用(刚开始做只想着功能,有些数据没采集, 后来被老大训了一顿)。

2.数据清洗/预处理:就是把收到数据简单处理,比如把ip转换成地址,过滤掉脏数据等。

3.有了数据之后就可以对数据进行加工处理,数据处理的方式很多,总体分为离线处理,实时处理,离线处理就是每天定时处理,常用的有阿里的maxComputer,hive,MapReduce,离线处理主要用storm,spark,hadoop,通过一些数据处理框架,可以吧数据计算成各种KPI,在这里需要注意一下,不要只想着功能,主要是把各种数据维度建起来,基本数据做全,还要可复用,后期就可以把各种kpi随意组合展示出来。

4.数据展现,数据做出来没用,要可视化,做到MVP,就是快速做出来一个效果,不合适及时调整,这点有点类似于Scrum敏捷开发,数据展示的可以用datav,神策等,前端好的可以忽略,自己来画页面。

数据采集:

1.批数据采集,就是每天定时去数据库抓取数据快照,我们用的maxComputer,可以根据需求,设置每天去数据库备份一次快照,如何备份,如何设置数据源,如何设置出错,在maxComputer都有文档介绍,使用maxComputer需要注册阿里云服务,https://help.aliyun.com/product/27797.html,链接是maxComputer文档。

2.实时接口调用数据采集,可以用logHub,dataHub,流数据处理技术,DataHub具有高可用,低延迟,高可扩展,高吞吐的特点。

高吞吐:最高支持单主题(Topic)每日T级别的数据量写入,每个分片(Shard)支持最高每日8000万Record级别的写入量。

实时性:通过DataHub ,您可以实时的收集各种方式生成的数据并进行实时的处理,

设计思路:首先写一个sdk把公司所有后台服务调用接口调用情况记录下来,开辟线程池,把记录下来的数据不停的往dataHub,logHub存储,前提是设置好接收数据的dataHub表结构,https://help.aliyun.com/document_detail/47448.html?spm=a2c4g.11186623.3.2.nuizA4,这是dataHub文档,下图是数据监控,会看到数据会不停流入

3.前台数据埋点,这些就要根据业务需求来设置了,也是通过流数据传输到数据仓库,如上述第二步。

数据处理:

数据采集完成就可以对数据进行加工处理,可分为离线批处理,实时处理。

1.离线批处理maxComputer,这是阿里提供的一项大数据处理服务,是一种快速,完全托管的TB/PB级数据仓库解决方案,编写数据处理脚本,设置任务执行时间,任务执行条件,就可以按照你的要求,每天产生你需要的数据,https://help.aliyun.com/document_detail/30267.html?spm=a2c4g.11174283.3.2.0aBtdh,链接dataworks为文档。下图是检测任务实例运行状态

2.实时处理:采用storm/spark,目前接触的只有storm,strom基本概念网上一大把,在这里讲一下大概处理过程,首先设置要读取得数据源,只要启动storm就会不停息的读取数据源。Spout,用来读取数据。Tuple:一次消息传递的基本单元,理解为一组消息就是一个Tuple。stream,用来传输流,Tuple的集合。Bolt:接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。可以在里边写业务逻辑,storm不会保存结果,需要自己写代码保存,把这些合并起来就是一个拓扑,总体来说就是把拓扑提交到服务器启动后,他会不停读取数据源,然后通过stream把数据流动,通过自己写的Bolt代码进行数据处理,然后保存到任意地方,关于如何安装部署storm,如何设置数据源,网上都有教程,这里不多说。

数据展现:做了上述那么多,终于可以直观的展示了,由于前端技术不行,借用了第三方展示平台datav,datav支持两种数据读取模式,第一种,直接读取数据库,把你计算好的数据,通过sql查出来,需要配置数据源,读取数据之后按照给定的格式,进行格式化就可以展现出来,https://help.aliyun.com/document_detail/30360.html,链接为datav文档。可以设置图标的样式,也可以设置参数

第二种采用接口的形式,可以直接采用api,在数据区域配置为api,填写接口地址,需要的参数即可,这里就不多说了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据处理
    +关注

    关注

    0

    文章

    595

    浏览量

    28554
  • 大数据
    +关注

    关注

    64

    文章

    8882

    浏览量

    137397

原文标题:什么是大数据 大数据处理基本步骤讲解

文章出处:【微信号:PCBDoor,微信公众号:PCB开门网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    云计算与大数据_9.2数据处理任务#硬声创作季

    数据处理大数据
    Hello,World!
    发布于 :2022年10月26日 20:04:12

    云计算与大数据_9.4大数据处理架构#硬声创作季

    数据处理大数据
    Hello,World!
    发布于 :2022年10月26日 20:04:29

    云计算、大数据处理技术交流

    云计算、大数据处理技术交流图形图像是数据处理量最大的版块之一,也是当今云计算的重要课题之一,图形图像处理大会给大家带来诸多名家方案,探究大数据图像图形
    发表于 09-16 14:18

    常用大数据处理技术归类

    “21世纪最缺的是什么?人才!”。在大数据发展如此之快的今天,大数据工程师已经成为一个新兴职业。大数据是信息技术,是人和人、人和机器、机器和机器交互的内容特征,是最底层的信息技术,是基本标配。今天
    发表于 02-28 17:02

    【教学基地】labview大数据处理(初步分析部分)

    ` 本帖最后由 a156789156782 于 2018-6-14 10:11 编辑 【教学基地实验小屋】03008虚拟仪器大数据处理初步分析部分通过本节学习对文档的操作来入门大数据分析,直接
    发表于 06-13 21:45

    【教学基地】大数据处理(初步分析部分)

    `大数据处理(初步分析部分)`
    发表于 06-14 01:36

    大数据开发核心技术详解

    ,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用;大数据则相当于海量数据的“数据库”。整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理
    发表于 07-26 16:26

    图解大数据处理架构

    大数据处理架构
    发表于 05-09 17:11

    大数据处理和分析能力的提高

    如何提高大数据处理和分析的能力
    发表于 08-23 13:07

    大数据Kafka数据处理过程

    大数据-Kafka数据处理
    发表于 03-27 11:42

    什么是大数据 大数据处理基本步骤讲解

    大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),百度随便找找都有。
    的头像 发表于 12-09 11:41 9519次阅读

    大数据处理系统模式及其应用分析

    大数据处理系统始终是分析大数据的基础,因为大数据本身具有信息量繁多冗杂、扩展速度极快、信息多样性且价值密度高等特点,所以要求大数据处理系统具有极强的专业性和高效性,能够合理并有效的
    的头像 发表于 02-14 14:45 7655次阅读
    <b class='flag-5'>大数据处理</b>系统模式及其应用分析

    大数据海量数据处理方法总结

    大数据海量数据处理方法总结。
    发表于 04-26 09:16 13次下载

    物联网数据实施的四个步骤 数据采集 数据传输 数据处理 数据应用

    物联网数据实施的四个步骤 数据采集 数据传输 数据处理 数据应用
    发表于 12-26 09:58 2828次阅读
    物联网<b class='flag-5'>数据</b>实施的四个<b class='flag-5'>步骤</b>  <b class='flag-5'>数据</b>采集  <b class='flag-5'>数据</b>传输  <b class='flag-5'>数据处理</b>  <b class='flag-5'>数据</b>应用

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大
    的头像 发表于 12-18 09:45 101次阅读