关于MPP架构的介绍与批处理架构异同点及OLAP引擎详解-电子发烧友网

面试官：说下你知道的MPP架构的计算引擎？

这个问题不少小伙伴在面试时都遇到过，因为对MPP这个概念了解较少，不少人都卡壳了，但是我们常用的大数据计算引擎有很多都是MPP架构的，像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。

采用MPP架构的很多OLAP引擎号称：亿级秒开。

本文分为三部分讲解，第一部分详解MPP架构，第二部分剖析MPP架构与批处理架构的异同点，第三部分是采用MPP架构的OLAP引擎介绍。

一、MPP架构

MPP是系统架构角度的一种服务器分类方法。

目前商用的服务器分类大体有三种：

SMP（对称多处理器结构）NUMA（非一致存储访问结构）MPP（大规模并行处理结构）

我们今天的主角是 MPP，因为随着分布式、并行化技术成熟应用，MPP引擎逐渐表现出强大的高吞吐、低时延计算能力，有很多采用MPP架构的引擎都能达到“亿级秒开”。

先了解下这三种结构：

1． SMP

即对称多处理器结构，就是指服务器的多个CPU对称工作，无主次或从属关系。SMP服务器的主要特征是共享，系统中的所有资源（如CPU、内存、I／O等）都是共享的。也正是由于这种特征，导致了SMP服务器的主要问题，即扩展能力非常有限。

2． NUMA

即非一致存储访问结构。这种结构就是为了解决SMP扩展能力不足的问题，利用NUMA技术，可以把几十个CPU组合在一台服务器内。NUMA的基本特征是拥有多个CPU模块，节点之间可以通过互联模块进行连接和信息交互，所以，每个CPU可以访问整个系统的内存（这是与MPP系统的重要区别）。但是访问的速度是不一样的，因为CPU访问本地内存的速度远远高于系统内其他节点的内存速度，这也是非一致存储访问NUMA的由来。

这种结构也有一定的缺陷，由于访问异地内存的时延远远超过访问本地内存，因此，当CPU数量增加时，系统性能无法线性增加。

3． MPP

即大规模并行处理结构。MPP的系统扩展和NUMA不同，MPP是由多台SMP服务器通过一定的节点互联网络进行连接，协同工作，完成相同的任务，从用户的角度来看是一个服务器系统。每个节点只访问自己的资源，所以是一种完全无共享（Share Nothing）结构。

MPP结构扩展能力最强，理论可以无限扩展。由于MPP是多台SPM服务器连接的，每个节点的CPU不能访问另一个节点内存，所以也不存在异地访问的问题。

MPP架构图：

MPP架构

每个节点内的CPU不能访问另一个节点的内存，节点之间的信息交互是通过节点互联网络实现的，这个过程称为数据重分配。

但是MPP服务器需要一种复杂的机制来调度和平衡各个节点的负载和并行处理过程。目前，一些基于MPP技术的服务器往往通过系统级软件（如数据库）来屏蔽这种复杂性。举个例子，Teradata就是基于MPP技术的一个关系数据库软件（这是最早采用MPP架构的数据库），基于此数据库来开发应用时，不管后台服务器由多少节点组成，开发人员面对的都是同一个数据库系统，而无需考虑如何调度其中某几个节点的负载。

MPP架构特征：

任务并行执行；数据分布式存储（本地化）；分布式计算；高并发，单个节点并发能力大于300用户；横向扩展，支持集群节点的扩容；Shared Nothing（完全无共享）架构。

NUMA和MPP区别：

二者有许多相似之处，首先NUMA和MPP都是由多个节点组成的；其次每个节点都有自己的CPU，内存，I／O等；都可以都过节点互联机制进行信息交互。

那它们的区别是什么呢，首先是节点互联机制不同，NUMA的节点互联是在同一台物理服务器内部实现的，MPP的节点互联是在不同的SMP服务器外部通过I／O实现的。

其次是内存访问机制不同，在NUMA服务器内部，任何一个CPU都可以访问整个系统的内存，但异地内存访问的性能远远低于本地内存访问，因此，在开发应用程序时应该尽量避免异地内存访问。而在MPP服务器中，每个节点只访问本地内存，不存在异地内存访问问题。

二、批处理架构和MPP架构

批处理架构（如 MapReduce）与MPP架构的异同点，以及它们各自的优缺点是什么呢？

相同点：

批处理架构与MPP架构都是分布式并行处理，将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。

不同点：

批处理架构和MPP架构的不同点可以举例来说：我们执行一个任务，首先这个任务会被分成多个task执行，对于MapReduce来说，这些tasks被随机的分配在空闲的Executor上；而对于MPP架构的引擎来说，每个处理数据的task被绑定到持有该数据切片的指定Executor上。

正是由于以上的不同，使得两种架构有各自优势也有各自缺陷：

批处理的优势：

对于批处理架构来说，如果某个Executor执行过慢，那么这个Executor会慢慢分配到更少的task执行，批处理架构有个推测执行策略，推测出某个Executor执行过慢或者有故障，则在接下来分配task时就会较少的分配给它或者直接不分配，这样就不会因为某个节点出现问题而导致集群的性能受限。

批处理的缺陷：

任何事情都是有代价的，对于批处理而言，它的优势也造成了它的缺点，会将中间结果写入到磁盘中，这严重限制了处理数据的性能。

MPP的优势：

MPP架构不需要将中间数据写入磁盘，因为一个单一的Executor只处理一个单一的task，因此可以简单直接将数据stream到下一个执行阶段。这个过程称为pipelining，它提供了很大的性能提升。

MPP的缺陷：

对于MPP架构来说，因为task和Executor是绑定的，如果某个Executor执行过慢或故障，将会导致整个集群的性能就会受限于这个故障节点的执行速度（所谓木桶的短板效应），所以MPP架构的最大缺陷就是——短板效应。另一点，集群中的节点越多，则某个节点出现问题的概率越大，而一旦有节点出现问题，对于MPP架构来说，将导致整个集群性能受限，所以一般实际生产中MPP架构的集群节点不易过多。

举个例子来说下两种架构的数据落盘：要实现两个大表的join操作，对于批处理而言，如Spark将会写磁盘三次（第一次写入：表1根据join key进行shuffle；第二次写入：表2根据join key进行shuffle；第三次写入：Hash表写入磁盘），而MPP只需要一次写入（Hash表写入）。这是因为MPP将mapper和reducer同时运行，而MapReduce将它们分成有依赖关系的tasks（DAG），这些task是异步执行的，因此必须通过写入中间数据共享内存来解决数据的依赖。

批处理架构和MPP架构融合：

两个架构的优势和缺陷都很明显，并且它们有互补关系，如果我们能将二者结合起来使用，是不是就能发挥各自最大的优势。目前批处理和MPP也确实正在逐渐走向融合，也已经有了一些设计方案，技术成熟后，可能会风靡大数据领域，我们拭目以待！

三、 MPP架构的OLAP引擎

采用MPP架构的OLAP引擎有很多，下面只选择常见的几个引擎对比下，可为公司的技术选型提供参考。

采用MPP架构的OLAP引擎分为两类，一类是自身不存储数据，只负责计算的引擎；一类是自身既存储数据，也负责计算的引擎。

1）只负责计算，不负责存储的引擎

1． Impala

Apache Impala是采用MPP架构的查询引擎，本身不存储任何数据，直接使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。

提供了类SQL（类Hsql）语法，在多用户场景下也能拥有较高的响应速度和吞吐量。它是由Java和C＋＋实现的，Java提供的查询交互的接口和实现，C＋＋实现了查询引擎部分。

Impala支持共享Hive Metastore，但没有再使用缓慢的 Hive＋MapReduce 批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由 Query Planner、Query Coordinator 和 Query Exec Engine 三部分组成），可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据，从而大大降低了延迟。

Impala经常搭配存储引擎Kudu一起提供服务，这么做最大的优势是查询比较快，并且支持数据的Update和Delete。

2． Presto

Presto是一个分布式的采用MPP架构的查询引擎，本身并不存储数据，但是可以接入多种数据源，并且支持跨数据源的级联查询。Presto是一个OLAP的工具，擅长对海量数据进行复杂的分析；但是对于OLTP场景，并不是Presto所擅长，所以不要把Presto当做数据库来使用。

Presto是一个低延迟高并发的内存计算引擎。需要从其他数据源获取数据来进行运算分析，它可以连接多种数据源，包括Hive、RDBMS（Mysql、Oracle、Tidb等）、Kafka、MongoDB、Redis等。

2）既负责计算，又负责存储的引擎

1． ClickHouse

ClickHouse是近年来备受关注的开源列式数据库，主要用于数据分析（OLAP）领域。

它自包含了存储和计算能力，完全自主实现了高可用，而且支持完整的SQL语法包括JOIN等，技术上有着明显优势。相比于hadoop体系，以数据库的方式来做大数据处理更加简单易用，学习成本低且灵活度高。当前社区仍旧在迅猛发展中，并且在国内社区也非常火热，各个大厂纷纷跟进大规模使用。

ClickHouse在计算层做了非常细致的工作，竭尽所能榨干硬件能力，提升查询速度。它实现了单机多核并行、分布式计算、向量化执行与SIMD指令、代码生成等多种重要技术。

ClickHouse从OLAP场景需求出发，定制开发了一套全新的高效列式存储引擎，并且实现了数据有序存储、主键索引、稀疏索引、数据Sharding、数据Partitioning、TTL、主备复制等丰富功能。以上功能共同为ClickHouse极速的分析性能奠定了基础。

2． Doris

Doris是百度主导的，根据Google Mesa论文和Impala项目改写的一个大数据分析引擎，是一个海量分布式 KV 存储系统，其设计目标是支持中等规模高可用可伸缩的 KV 存储集群。

Doris可以实现海量存储，线性伸缩、平滑扩容，自动容错、故障转移，高并发，且运维成本低。部署规模，建议部署4－100＋台服务器。

Doris3 的主要架构：DT（Data Transfer）负责数据导入、DS（Data Seacher）模块负责数据查询、DM（Data Master）模块负责集群元数据管理，数据则存储在 Armor 分布式 Key－Value 引擎中。Doris3 依赖 ZooKeeper 存储元数据，从而其他模块依赖 ZooKeeper 做到了无状态，进而整个系统能够做到无故障单点。

3． Druid

Druid是一个开源、分布式、面向列式存储的实时分析数据存储系统。

Druid的关键特性如下：

亚秒级的OLAP查询分析：采用了列式存储、倒排索引、位图索引等关键技术；在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作；实时流数据分析：Druid提供了实时流数据分析，以及高效实时写入；实时数据在亚秒级内的可视化；丰富的数据分析功能：Druid提供了友好的可视化界面；SQL查询语言；高可用性与高可拓展性：Druid工作节点功能单一，不相互依赖；Druid集群在管理、容错、灾备、扩容都很容易；

4． TiDB

TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库，是一款同时支持OLTP与OLAP的融合型分布式数据库产品。

TiDB 兼容 MySQL 5．7 协议和 MySQL 生态等重要特性。目标是为用户提供一站式 OLTP 、OLAP 、HTAP 解决方案。TiDB 适合高可用、强一致要求较高、数据规模较大等各种应用场景。

5． Greenplum

Greenplum 是在开源的 PostgreSQL 的基础上采用了MPP架构的性能非常强大的关系型分布式数据库。为了兼容Hadoop生态，又推出了HAWQ，分析引擎保留了Greenplum的高性能引擎，下层存储不再采用本地硬盘而改用HDFS，规避本地硬盘可靠性差的问题，同时融入Hadoop生态。

3）常用的引擎对比

一张图总结下常用的OLAP引擎对比：

常见OLAP引擎对比

编辑：lyn

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SMP

SMP

+关注

关注
0

文章
74

浏览量
19662
OLAP

OLAP

+关注

关注
0

文章
24

浏览量
10096
MPP

MPP

+关注

关注
0

文章
24

浏览量
10591

ISP算法及架构分析介绍

一、ISP算法及架构分析介绍 ISP即Image Signal Processor，是一种图像处理架构，不是我们用的下载器。 ISP其实算是图像处理

发表于 11-26 10:05 •387次阅读

架构与设计常见微服务分层架构的区别和落地实践

的架构风格越倾向于清晰的职责定位，且让领域模型成为架构的核心。基于这些架构风格，在软件架构设计过程中又有非常多的架构分层模型。传统三层

发表于 10-22 15:34 •233次阅读

电源反接制动和倒拉反接制动有何异同点

电源反接制动和倒拉反接制动是两种电机制动方式，它们在工业自动化和电机控制领域中有着广泛的应用。这两种制动方式各有特点和适用场景，下面我将介绍它们的异同点。电源反接制动电源反接制动是一种电机

发表于 09-19 09:10 •1239次阅读

微处理器的指令集架构介绍

微处理器的指令集架构（Instruction Set Architecture，ISA）是计算机体系结构中至关重要的部分，它定义了微处理器能够执行的操作和指令的集合，以及这些指令如何被组织、存储

发表于 08-22 10:53 •1177次阅读

SSD架构与功能模块详解

在之前的系列文章中，我们介绍了固态硬盘的系列知识，包括闪存的介质、原理，以及作为SSD大脑的控制器设计，本文将详细介绍SSD架构以及功能模块。

发表于 07-27 10:30 •1025次阅读

中科驭数助力奇点云《2024 OLAP数据库引擎选型白皮书》发布

5月28日，奇点云2024 StartDT Day数智科技大会暨产品发布会召开，同期发布了2024年版《OLAP数据库引擎选型白皮书》，为业界伙伴提供最新的选型参考。

发表于 05-30 09:50 •438次阅读

MySQL的整体逻辑架构

支持多种存储引擎是众所周知的MySQL特性，也是MySQL架构的关键优势之一。如果能够理解MySQL Server与存储引擎之间是怎样通过API交互的，将大大有利于理解MySQL的核心基础架构

发表于 04-30 11:14 •453次阅读

嵌入式微处理器架构可分为

的性能、功耗和可靠性都有重要影响。目前，主流的嵌入式微处理器架构主要有ARM架构、x86架构和MIPS架构。下面将对这三种

发表于 04-21 14:39 •1185次阅读

交换芯片架构是什么意思交换芯片架构怎么工作

交换芯片架构是指交换芯片内部的设计和组织方式，包括其硬件组件、处理单元、内存结构、接口以及其他关键部分的布局和相互作用。交换芯片的架构决定了其处理网络数据包的能力和效率。

发表于 03-22 16:45 •764次阅读

fpga芯片架构介绍

FPGA（现场可编程门阵列）芯片架构是一种高度灵活和可编程的集成电路架构，它以其独特的结构和功能，在现代电子系统中扮演着至关重要的角色。FPGA芯片架构的核心在于其可编程性和高度的并行处理

发表于 03-15 14:56 •758次阅读

处理器多架构部署的优势有哪些？

Web 服务器、搜索引擎和内容管理系统等位于企业云基础设施前端的应用程序，是引入可扩展、高能效 arm64 架构的理想对象。

发表于 03-15 14:39 •424次阅读

NFC技术与RFID技术有哪些异同点？

NFC技术与RFID技术在一些方面相似，但也存在一些不同之处。以下是它们之间的主要异同点：相同点：都是无线通信技术：NFC和RFID都是利用无线信号进行数据传输的通信技术，它们都不需要通过物理

发表于 03-08 17:56 •2437次阅读

同样是升压电路，MCU+MOS+电感这个方式和升压芯片+MOS+电感这个方式，有哪些优缺点和异同点？

同样是升压电路，MCU+MOS+电感这个方式和升压芯片+MOS+电感这个方式，有哪些优缺点和异同点？

发表于 01-24 18:59

【RISC-V开放架构设计之道|阅读体验】学习处理器体系架构的一本好书

（Andrew Waterman），SiFive 的总工程师和联合创始人。SiFive 由RISC-V 架构的发明者们创办，旨在提供基于RISC-V 的低成本定制芯片。和其他介绍指令集架构书籍相比，该书

发表于 01-23 20:08

什么是电磁继电器？和开关有哪些异同点？

什么是电磁继电器？和开关有哪些异同点？电磁继电器是一种利用电磁原理工作的电器设备。它由电磁铁、触点组和复位机构等几个主要部分组成。通过电流通过电磁铁线圈时，会产生磁场，吸引电磁铁上的铁芯，从而

发表于 01-04 15:29 •1044次阅读