大数据相关介绍：Hadoop的生态系统构成-电子发烧友网

一、Hadoop的优点

（1）可靠性高。Hadoop具有多个工作数据副本，确保可针对失败的节点（个人理解：一个节点可理解为一台计算机或服务器）进行重新分布处理。

（2）扩展性高。Hadoop可扩展至数干节点。

（3）效率高。Hadoop以并行方式工作，处理数据速度快。

（4）成本低。与一体机、商用数据仓库等对比，Hadoop是开源的，项目的软件成本因此降低。

二、Hadoop的生态系统构成

（1）HDFS是一种分布式文件系统，运行于大型商用机集群，HDFS为Hadoop提供高可靠性的底层存储支撑。

（2）MapReduce是一种分布式数据处理模式和执行环境，为Hadoop提供高性能计算能力。

（3）HBase位于结构化存储层（根据网络资料理解：HBase位于类似windows系统中多层级文件夹的结构中），是一个分布式的列存储数据库。

（4）Zookecper是一个分布式的、高可用性的协调服务，提供分布式锁（根据百度百科：分布式锁是控制分布式系统间同步访问共享资源的方式）等基本服务，用于构建分布式应用，为Hadoop提供了稳定服务和failover机制（根据网络资料理解：failover机制是失效转移机制，当主要组件由于失效或预定关机时间原因而无法工作时，该机制将系统组件的功能转移至二级系统组件）。

（5）Hive是一个建立于Hadoop基础之上的数据仓库，它提供在Hadoop文件中用于数据整理、特殊查询、分析存储的数据集工具。

（6）Pig是一种数据流语言和运行环境，用于检索大的数据集，可简化Hadoop常见工作任务。

（7）Sqoop为HBasc提供了方便的RDBMS（根据百度百科：关系数据库管理系统）数据导入功能，可较为方便地将传统数据库数据迁移至HBase中。

图片来源：学堂在线《大数据导论》

三、Spark介绍

Spark是另一种大数据系统，由一系列解决不同种类问题的系统和编程库构成。下文以APACHE Spark为例，介绍Spark。

APACHE Spark由Spark SQL、Spark Streaming、MLlib、GraphX组成。

Spark SQL可以通过编写SQL程序的方式处理数据。因为Spark所有计算依赖于内存，中途计算结果不会被存储，所以Spark的一个优势是数据处理速度快，但同时，Spark对内存的要求较高。

Spark Streaming可实现数据流计算（根据百度百科理解：因为数据的价值随着时间的流逝而降低，传统的数据库管理系统无法快速且无法持续的处理大量且不断更新的大数据，所以产生了可实现数据一出现就处理的数据流计算）。

MLlib是机器学习库，可以辅助研发人员编写机器学习算法。

GraphX是图计算框架（根据网路资料理解：图计算框架是在大数据中高效计算、存储、管理图数据的框架）。

四、Spark的优点

（1）Spark基于内存的迭代计算，计算速度快。

（2）Spark引入RDD（弹性分布式数据集：可将RDD视为一个对象，所有的数据处理均封装于此对象中），容错性高。

（3）Spark可提供更多的数据集操作类型，数据处理能力更强。数据集操作类型可分为Transformations和Actions两类（根据网络资料：Transformations可提供包括Map函数等操作，Actions可提供包括Reduce函数等操作）。

（4）Spark可支持更多编程语言，包括：Scala（根据网络资料：类似java的编程语言）、Java、Python、R。

编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Hadoop

Hadoop

+关注

关注
1

文章
90

浏览量
16306
HDFS

HDFS

+关注

关注
1

文章
31

浏览量
9811
大数据

大数据

+关注

关注
64

文章
8945

浏览量
139241

原文标题：大数据相关介绍（10）——大数据系统（下）

文章出处：【微信号：行业学习与研究，微信公众号：行业学习与研究】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

大数据相关介绍：Hadoop的生态系统构成

评论

X-NUCLEO-53L4A2: VL53L4CX飞行时间传感器具测量扩展板

ATA-2022H高压放大器西安安泰电子双通道

按摩仪方案PCBA设计

MK17系列干簧传感器

鸿诚志远RK系列行业主板套件

合众恒跃

48

下载

大大通

92

下载

斯丹麦德电子

35

下载

斯丹麦德电子

58

下载

RA生态工作室

194

下载

48V高效降压电源方案：英诺赛科推出2kW四相交错设计

TurMass™ 时隙高并发解决方案

低功耗×低抖动×多封装：FCom富士晶振FCO-PJ系列时钟方案解析

高效能电动工具控制方案：基于STM32G473和STDRIVE101的参考设计

适配1.8V/2.5V/3.3V电压的高稳定晶振方案（含MCU推荐）

搜索历史

大数据相关介绍：Hadoop的生态系统构成

评论

有几种电平转换电路，适用于不同的场景

瑞萨RA8系列教程 | 基于 RASC 生成 Keil 工程

共赴之约 | 第二十七届中国北京国际科技产业博览会圆满落幕

道生物联与巍泰技术联合发布 RTK 无线定位系统：TurMass™ 技术与厘米级高精度定位的深度融合

智能家居中的清凉“智”选，310V无刷吊扇驱动方案--其利天下

电源入口处防反接电路-汽车电子硬件电路设计

半导体芯片需要做哪些测试

解决方案 | 芯佰微赋能示波器：高速ADC、USB控制器和RS232芯片——高性能示波器的秘密武器！

硬件设计基础----运算放大器

ElfBoard技术贴|如何调整eMMC存储分区

米尔基于MYD-YG2LX系统启动时间优化应用笔记

运放技术——基本电路分析

飞凌嵌入式携手中移物联，谱写全国产化方案新生态

ATA-2022B高压放大器在螺栓松动检测中的应用

MOS管驱动电路——电机干扰与防护处理