大数据系统包括哪些-电子发烧友网

目前，主流的大数据平台包括：Hadoop、Spark。

Hadoop是分布式（根据网络资料理解：分布式与集中式相对应，对于大量数据计算，集中于一台计算机中计算需耗费较长时间，通过将计算分布于多个计算机，节约整体计算时间）系统基础架构。Hadoop的两个功能包括：数据存储（HDFS）、数据处理（MapReduce）。

Spark是专为大规模数据处理而设计的快速通用计算引擎。Spark不提供文件管理系统，没有数据存储功能；Spark的数据计算基于内存实现，数据处理速度快。

一、HDFS（分布式文件存储）

数据通过HDFS放置于一个Hadoop集群中，Hadoop集群通常由几台至上千台的计算机组成。根据课程介绍理解，百度公司最大的Hadoop集群已超过4000台计算机。

数据在存储于HDFS前，被分割成若干数据块，每个数据块储存于一台计算机中。不同Hadoop版本所分割的数据块大小不同，Hadoop1.0版本中数据块大小为64MB，Hadoop2.0版本中数据块大小为128MB。Hadoop也可以设置数据块大小（含个人理解）。

图片来源：学堂在线《大数据导论》

二、MapReduce（分布式数据处理架构）

MapReduce是分布式计算框架。开发人员在运用MapReduce处理数据时，MapReduce将指定某一Map函数，将一组键值对（根据网络资料理解：键值对可以根据一个值获得对应的一个值）映射成一组新的键值对，并指定并发的Reduce函数，保证所有Map函数映射的结果可以进行Reduce规约（根据网络资料理解：通过某一连接动作将所有元素汇总为一个结果的过程）运算。

图片来源：学堂在线《大数据导论》

在运用MapReduce框架编写计算机程序时，开发人员只需考虑业务逻辑，不需考虑并行管理。

三、MapReduce的Wor dCount示例

WordCount是统计文件夹所有文本中某一词出现的次数。

其中，WordCount的Map函数程序代码如下：

Map(K, V){

For each word w in V

Collect(w,1);

}

WordCount的Map函数中的K代表文本中的词，WordCount的Map函数的功能是将文本中的每个词与1建立键值对，即每个词对应一个“1”。

WordCount的Reduce函数程序代码如下：

Reduce(K.V[]){

int count=0;

For each v in V

count+= v;

Collect(K,count);

}

WordCount的Reduce函数将经过WordCount的Map函数处理的相同词对应的“1”求和，得出某一词的出现的次数。

该WordCount示例中，Map和Reduce函数的具体运行如图一所示：

首先，所有数据被整理成单行数据，图一流程图中具有三个节点（个人理解：节点可被认为是计算机），图一中的三行数据被分行输入到三个节点中。

然后，Map函数运行，将每个词与1建立键值对。

Map函数运行结束后，Shuffle过程运行，Shuffle过程是MapReduce内设过程，可将具有相同词的键值对中的“1”集合至一个List（列表）中。如图一所示，因为“Bear”一词出现了两次，所以经过Shuffle过程后，“Bear”所对应的List为（1,1）。

最后，Reduce函数运行，将Shuffle过程所生成的List求和，完成对某一词出现的次数统计。

图一，图片来源：学堂在线《大数据导论》

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据存储

数据存储

+关注

关注
5

文章
971

浏览量
50909
HDFS

HDFS

+关注

关注
1

文章
30

浏览量
9597
大数据系统

大数据系统

+关注

关注
0

文章
7

浏览量
1878

原文标题：大数据相关介绍（9）——大数据系统（上）

文章出处：【微信号：行业学习与研究，微信公众号：行业学习与研究】欢迎添加关注！文章转载请注明出处。

缓存对大数据处理的影响分析

缓存对大数据处理的影响显著且重要，主要体现在以下几个方面：一、提高数据访问速度在大数据环境中，数据存储通常采用分布式存储系统，

发表于 12-18 09:45 •130次阅读

上位机系统优化技巧上位机如何处理大数据

1. 数据预处理在大数据的处理过程中，数据预处理是至关重要的第一步。这包括数据清洗、转换和归一化，以确保

发表于 12-04 10:27 •184次阅读

ADS1675最大数据吞吐率是是多少？

ADS1675 24bit的ADC的采样率最大是4Msps，请问这款adc的最大数据吞吐率是是多少？怎么算的，在datasheet中有明确写出来吗

发表于 11-28 07:56

raid 在大数据分析中的应用

RAID（Redundant Array of Independent Disks，独立磁盘冗余阵列）在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析中

发表于 11-12 09:44 •249次阅读

智慧城市与大数据的关系

智慧城市与大数据之间存在着密切的关系，这种关系体现在大数据对智慧城市建设的支撑和推动作用，以及智慧城市产生的大量数据对大数据技术的应用需求。 大数据

发表于 10-24 15:27 •663次阅读

基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

处理超大数据集。 Hadoop的生态系统非常丰富，包括许多相关工具和技术，如Hive、Pig、HBase等，这些工具可以方便地构建复杂的大数据应用。Hadoop广泛应用于各种场景，

发表于 10-08 15:12 •160次阅读

使用CYW20829的BLE进行最大数据发送应用，BLE丢失数据如何解决？

我目前正在使用 CYW20829 的 BLE 进行最大数据发送应用，我使用的是 FREERTOS（例程 Bluetooth_LE_GATT_Throughput_Server 是我的参考），蓝牙被

发表于 07-23 07:56

大数据在军事方面的应用

决策支持：大数据技术为战争决策提供了全新的思路和工具。军事机关指挥系统通过搜集和分析大量的战场数据，可以建立复杂的决策模型，快速分析敌我态势，评估作战可行性，并推荐最优的战术方案。这种基于大

发表于 07-16 09:44 •1075次阅读

多通道数据采集系统的工作原理包括什么

多通道数据采集系统是一种用于从多个传感器或信号源同时获取数据的电子系统。它广泛应用于工业自动化、科研、医疗、航空航天等领域。本文将详细介绍多通道数据

发表于 07-01 16:01 •1332次阅读

大数据采集系统分为几类

大数据采集系统是大数据生态系统中的重要组成部分，它负责从各种数据源收集、整合和存储数据。根据不同

发表于 07-01 15:44 •1526次阅读

大数据分析平台网站

大数据分析平台是一种用于处理和分析大规模数据集的系统，旨在从海量数据中提取有价值的信息和洞察。以下是大数据分析平台的主要功能和应用场景：主

发表于 06-28 15:46 •668次阅读

大数据在军事方面的应用有哪些

： 大数据技术为战争决策提供了全新的思路和工具。军事机关指挥系统通过搜集和分析大量的战场数据，可以建立复杂的决策模型，快速分析敌我态势，评估作战可行性，并推荐最优的战术方案。利用大数据

发表于 06-23 10:34 •1027次阅读

CYBT-343026传输大数据时会丢数据的原因？

我正在使用 CYBT-343026 (CYW-20706 Silicon) 模块。我根据 SPP 样本制作了一个操作 SPP 的应用程序。但是，传输大数据时有时会丢失数据。它从

发表于 03-01 15:04

简析大数据技术下智能充电桩在网络系统中的应用

简析大数据技术下智能充电桩在网络系统中的应用张颖姣安科瑞电气股份有限公司上海嘉定 201801 摘要：*近几年来随着我国经济社会的飞速发展，各方面实力都有了明显的提升，尤其是步入21世纪以来

发表于 02-26 10:57 •453次阅读

大数据技术是干嘛的 大数据核心技术有哪些

的核心技术，包括数据采集、存储与管理、处理与分析等方面。一、大数据技术背景和概念 1.1 背景随着互联网技术的迅猛发展，人们可以通过各种途径产生、获取和传输数据，使

发表于 01-31 11:07 •3467次阅读

搜索历史

大数据系统包括哪些

评论

缓存对大数据处理的影响分析

上位机系统优化技巧上位机如何处理大数据

ADS1675最大数据吞吐率是是多少？

raid 在大数据分析中的应用

智慧城市与大数据的关系

基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

使用CYW20829的BLE进行最大数据发送应用，BLE丢失数据如何解决？

大数据在军事方面的应用

多通道数据采集系统的工作原理包括什么

大数据采集系统分为几类

大数据分析平台网站

大数据在军事方面的应用有哪些

CYBT-343026传输大数据时会丢数据的原因？

简析大数据技术下智能充电桩在网络系统中的应用

大数据技术是干嘛的大数据核心技术有哪些