0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据系统包括哪些

RG15206629988 来源:行业学习与研究 2023-02-16 18:24 次阅读

目前,主流的大数据平台包括:Hadoop、Spark。

Hadoop是分布式(根据网络资料理解:分布式与集中式相对应,对于大量数据计算,集中于一台计算机中计算需耗费较长时间,通过将计算分布于多个计算机,节约整体计算时间)系统基础架构。Hadoop的两个功能包括:数据存储(HDFS)、数据处理(MapReduce)。

Spark是专为大规模数据处理而设计的快速通用计算引擎。Spark不提供文件管理系统,没有数据存储功能;Spark的数据计算基于内存实现,数据处理速度快。

一、HDFS(分布式文件存储)

数据通过HDFS放置于一个Hadoop集群中,Hadoop集群通常由几台至上千台的计算机组成。根据课程介绍理解,百度公司最大的Hadoop集群已超过4000台计算机。

数据在存储于HDFS前,被分割成若干数据块,每个数据块储存于一台计算机中。不同Hadoop版本所分割的数据块大小不同,Hadoop1.0版本中数据块大小为64MB,Hadoop2.0版本中数据块大小为128MB。Hadoop也可以设置数据块大小(含个人理解)。

e1266bfa-addb-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

二、MapReduce(分布式数据处理架构)

MapReduce是分布式计算框架。开发人员在运用MapReduce处理数据时,MapReduce将指定某一Map函数,将一组键值对(根据网络资料理解:键值对可以根据一个值获得对应的一个值)映射成一组新的键值对,并指定并发的Reduce函数,保证所有Map函数映射的结果可以进行Reduce规约(根据网络资料理解:通过某一连接动作将所有元素汇总为一个结果的过程)运算。

e1bec99a-addb-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

在运用MapReduce框架编写计算机程序时,开发人员只需考虑业务逻辑,不需考虑并行管理。

三、MapReduce的WordCount示例

WordCount是统计文件夹所有文本中某一词出现的次数。

其中,WordCount的Map函数程序代码如下:

Map(K, V){

For each word w in V

Collect(w,1);

}

WordCount的Map函数中的K代表文本中的词,WordCount的Map函数的功能是将文本中的每个词与1建立键值对,即每个词对应一个“1”。

WordCount的Reduce函数程序代码如下:

Reduce(K.V[]){

int count=0;

For each v in V

count+= v;

Collect(K,count);

}

WordCount的Reduce函数将经过WordCount的Map函数处理的相同词对应的“1”求和,得出某一词的出现的次数。

该WordCount示例中,Map和Reduce函数的具体运行如图一所示:

首先,所有数据被整理成单行数据,图一流程图中具有三个节点(个人理解:节点可被认为是计算机),图一中的三行数据被分行输入到三个节点中。

然后,Map函数运行,将每个词与1建立键值对。

Map函数运行结束后,Shuffle过程运行,Shuffle过程是MapReduce内设过程,可将具有相同词的键值对中的“1”集合至一个List(列表)中。如图一所示,因为“Bear”一词出现了两次,所以经过Shuffle过程后,“Bear”所对应的List为(1,1)。

最后,Reduce函数运行,将Shuffle过程所生成的List求和,完成对某一词出现的次数统计。

e1f1375e-addb-11ed-bfe3-dac502259ad0.png

图一,图片来源:学堂在线《大数据导论》





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据存储
    +关注

    关注

    5

    文章

    948

    浏览量

    50767
  • HDFS
    +关注

    关注

    1

    文章

    30

    浏览量

    9537
  • 大数据系统
    +关注

    关注

    0

    文章

    7

    浏览量

    1867

原文标题:大数据相关介绍(9)——大数据系统(上)

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用CYW20829的BLE进行最大数据发送应用,BLE丢失数据如何解决?

    我目前正在使用 CYW20829 的 BLE 进行最大数据发送应用,我使用的是 FREERTOS(例程 Bluetooth_LE_GATT_Throughput_Server 是我的参考),蓝牙被
    发表于 07-23 07:56

    大数据在军事方面的应用

    决策支持:大数据技术为战争决策提供了全新的思路和工具。军事机关指挥系统通过搜集和分析大量的战场数据,可以建立复杂的决策模型,快速分析敌我态势,评估作战可行性,并推荐最优的战术方案。这种基于
    的头像 发表于 07-16 09:44 470次阅读

    多通道数据采集系统的工作原理包括什么

    多通道数据采集系统是一种用于从多个传感器或信号源同时获取数据的电子系统。它广泛应用于工业自动化、科研、医疗、航空航天等领域。本文将详细介绍多通道数据
    的头像 发表于 07-01 16:01 508次阅读

    大数据采集系统分为几类

    大数据采集系统大数据生态系统中的重要组成部分,它负责从各种数据源收集、整合和存储数据。根据不同
    的头像 发表于 07-01 15:44 1053次阅读

    大数据分析平台网站

    大数据分析平台是一种用于处理和分析大规模数据集的系统,旨在从海量数据中提取有价值的信息和洞察。以下是大数据分析平台的主要功能和应用场景: 主
    的头像 发表于 06-28 15:46 332次阅读

    大数据在军事方面的应用有哪些

    大数据技术为战争决策提供了全新的思路和工具。军事机关指挥系统通过搜集和分析大量的战场数据,可以建立复杂的决策模型,快速分析敌我态势,评估作战可行性,并推荐最优的战术方案。 利用大数据
    的头像 发表于 06-23 10:34 605次阅读

    CYBT-343026传输大数据时会丢数据的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模块。 我根据 SPP 样本制作了一个操作 SPP 的应用程序。 但是,传输大数据时有时会丢失数据。 它从
    发表于 03-01 15:04

    简析大数据技术下智能充电桩在网络系统中的应用

    简析大数据技术下智能充电桩在网络系统中的应用 张颖姣 安科瑞电气股份有限公司 上海嘉定 201801 摘要:*近几年来随着我国经济社会的飞速发展,各方面实力都有了明显的提升,尤其是步入21世纪以来
    的头像 发表于 02-26 10:57 332次阅读
    简析<b class='flag-5'>大数据</b>技术下智能充电桩在网络<b class='flag-5'>系统</b>中的应用

    大数据技术是干嘛的 大数据核心技术有哪些

    的核心技术,包括数据采集、存储与管理、处理与分析等方面。 一、大数据技术背景和概念 1.1 背景 随着互联网技术的迅猛发展,人们可以通过各种途径产生、获取和传输数据,使
    的头像 发表于 01-31 11:07 2435次阅读

    分布式可视化控制系统助力大数据中心数字化升级!

    维分布式可视化控制系统,该系统以全IP网络架构为基础,利用现代网络技术、计算机技术和音频处理技术,通过网络将大数据中心系统的运营管理、安全监控、应急指挥等系统进行整合,搭建了信息采集、
    的头像 发表于 12-29 14:59 405次阅读

    针对大数据安全架构设计的思路和原则

    数据分类与标记:对于大数据系统中的数据进行分类和标记,根据数据的敏感程度和重要性确定相应的安全级别。这可以帮助确定如何处理、存储和传输
    的头像 发表于 12-27 11:18 1079次阅读
    针对<b class='flag-5'>大数据</b>安全架构设计的思路和原则

    Get职场新知识:做分析,用大数据分析工具

    、多维动态分析,业务人随时按需分析,更灵活,更高效。 3、指标计算能力极强,能很好地完成计算组合多变、计算量极大的财务分析指标计算。 现在登录奥威BI SaaS平台,即可享受在线连接系统,下载方案,执行方案后立得百张BI报表的极速大数据分析体验。
    发表于 12-05 09:36

    modbus在通信的过程中如何实现大数据包的传输?

    modbus在通信的过程中如何实现大数据包的传输
    发表于 10-15 12:23

    STM8L在低功耗模式下进行大数据运算会增加功耗吗?

    STM8L在低功耗模式下进行大数据运算会增加功耗吗
    发表于 10-13 07:23

    曙光生态环境大数据解决方案助力我国生态环境“大数据”建设

    相通、数据不规范等难题。通过构建智慧高效的生态环境大数据体系成为推动我国生态环境保护的重要支撑。 为全面提升生态环境系统化、科学化、精细化管理水平,曙光推出生态环境大数据解决方案。综合
    的头像 发表于 10-11 15:51 487次阅读