对于企业而言,坐拥庞大的数据资源,想要实现大数据分析,首要的就是要搭建起自身的大数据系统平台,而每个公司都有自己特定的业务场景,因此在大数据平台上的需求是不一样的。今天我们仅从通用的角度,来聊聊大数据分析需要什么技术架构?
我们熟悉的以BAT为首的互联网大厂,都拥有自身的大数据系统平台,但是各自面临的业务场景是不同的,比如说腾讯,主要是社交业务场景;百度,主要是搜索业务场景;而阿里,主要是电商业务场景。
这样不同的业务场景下,需要根据实际的业务需求,选择适合自己的技术框架,来搭建自己的大数据架构体系。但是从技术架构体系的共性来说,是可以从通用的技术模块去理解,来帮助我们更好地学习和掌握大数据技术架构的。
数据收集模块:主要负责收集各种数据源的数据,包括日志文件、网络请求、数据库、消息队列等,并将这些数据转换为文件或者消息向后传递。
数据转存模块:主要负责将数据定时传递到分布式存储或者实时传递给下游的数据处理程序。
ETL模块:主要负责数据的清洗、格式和内容的处理和转换、数据分级分拣、加载至数据仓库等。
数据仓库模块:这是整个架构的核心,数据仓库是数据有组织的集中存储的地方,负责数据的存取和管理。
元数据管理模块:主要负责记录和约束数据仓库中数据的含义和格式,控制着数据的生命周期和数据质量。
分析引擎模块:数据分析师交互最多的模块,主要负责执行各种分析语句或代码,完成各种分析任务。
作业管理与调度模块:负责分析作业的管理和定时调度,包括作业的增删改查、查看修改历史、设置调度定时和执行引擎等。
资源分配与调度模块:主要负责在多作业同时运行的场景下,有效协调和分配集群的资源,使资源利用率最大化。
责任编辑人:CC
-
大数据
+关注
关注
64文章
8862浏览量
137279 -
大数据分析
+关注
关注
1文章
132浏览量
16869
发布评论请先 登录
相关推荐
评论