如何通过explain来验证sql的执行顺序-电子发烧友网

关于 sql 语句的执行顺序网上有很多资料，但是大多都没进行验证，并且很多都有点小错误，尤其是对于 select 和 group by 执行的先后顺序，有说 select 先执行，有说 group by 先执行，到底它俩谁先执行呢？

今天我们通过 explain 来验证下 sql 的执行顺序。

在验证之前，先说结论，Hive 中 sql 语句的执行顺序如下：

from 。. where 。. join 。. on 。. select 。. group by 。. select 。. having 。. distinct 。. order by 。. limit 。. union/union all

可以看到 group by 是在两个 select 之间，我们知道 Hive 是默认开启 map 端的 group by 分组的，所以在 map 端是 select 先执行，在 reduce 端是 group by先执行。

下面我们通过一个 sql 语句分析下：

select

sum（b.order_amount） sum_amount，

count（a.userkey） count_user

from user_info a

left join user_order b

on a.idno=b.idno

where a.idno 》 ‘112233’group by a.idno

having count_user》1limit 10;

上面这条 sql 语句是可以成功执行的，我们看下它在 MR 中的执行顺序：

Map 阶段：

执行 from，进行表的查找与加载；

执行 where，注意：sql 语句中 left join 写在 where 之前的，但是实际执行先执行 where 操作，因为 Hive 会对语句进行优化，如果符合谓词下推规则，将进行谓词下推；

执行 left join 操作，按照 key 进行表的关联；

执行输出列的操作，注意： select 后面只有两个字段（order_amount，userkey），此时 Hive 是否只输出这两个字段呢，当然不是，因为 group by 的是 idno，如果只输出 select 的两个字段，后面 group by 将没有办法对 idno 进行分组，所以此时输出的字段有三个：idno，order_amount，userkey;

执行 map 端的 group by，此时的分组方式采用的是哈希分组，按照 idno 分组，进行order_amount 的 sum 操作和 userkey 的 count 操作，最后按照 idno 进行排序（group by 默认会附带排序操作）；

Reduce 阶段：

执行 reduce 端的 group by，此时的分组方式采用的是合并分组，对 map 端发来的数据按照 idno 进行分组合并，同时进行聚合操作 sum（order_amount）和 count（userkey）；

执行 select，此时输出的就只有 select 的两个字段：sum（order_amount） as sum_amount，count（userkey） as count_user;

执行 having，此时才开始执行 group by 后的 having 操作，对 count_user 进行过滤，注意：因为上一步输出的只有 select 的两个字段了，所以 having 的过滤字段只能是这两个字段；

执行 limit，限制输出的行数为 10。

上面这个执行顺序到底对不对呢，我们可以通过 explain 执行计划来看下，内容过多，我们分阶段来看。

首先看下 sql 语句的执行依赖：

我们看到 Stage-5 是根，也就是最先执行 Stage-5，Stage-2 依赖 Stage-5，Stage-0 依赖 Stage-2。

首先执行 Stage-5：

图中标 ① 处是表扫描操作，注意先扫描的 b 表，也就是 left join 后面的表，然后进行过滤操作（图中标 ② 处），我们 sql 语句中是对 a 表进行的过滤，但是 Hive 也会自动对 b 表进行相同的过滤操作，这样可以减少关联的数据量。

接下来执行 Stage-2：

首先是 Map 端操作：

先扫描 a 表（图中标 ① 处）；接下来进行过滤操作 idno 》 ‘112233’（图中标 ② 处）；然后进行 left join，关联的 key 是 idno（图中标 ③ 处）；执行完关联操作之后会进行输出操作，输出的是三个字段，包括 select 的两个字段加 group by 的一个字段（图中标 ④ 处）；然后进行 group by 操作，分组方式是 hash（图中标 ⑤ 处）；然后进行排序操作，按照 idno 进行正向排序（图中标 ⑥ 处）。

然后是 Reduce 端操作：

首先进行 group by 操作，注意此时的分组方式是 mergepartial 合并分组（图中标 ① 处）；然后进行 select 操作，此时输出的字段只有两个了，输出的行数是 30304 行（图中标 ② 处）；接下来执行 having 的过滤操作，过滤出 count_user》1 的字段，输出的行数是 10101 行（图中标 ③ 处）；然后进行 limit 限制输出的行数（图中标 ④ 处）；图中标 ⑤ 处表示是否对文件压缩，false 不压缩。

执行计划中的数据量只是预测的数据量，不是真实运行的，所以数据可能不准！

最后是 Stage-0 阶段：

限制最终输出的行数为 10 行。

总结

通过上面对 SQL 执行计划的分析，总结以下几点：

每个 stage 都是一个独立的 MR，复杂的 hive sql 语句可以产生多个 stage，可以通过执行计划的描述，看看具体步骤是什么。

对于 group by 的 key，必须是表中的字段，对于 having 的 key，必须是 select 的字段。

order by 是在 select 后执行的，所以 order by 的 key 必须是 select 的字段。

select 最好指明字段，select * 会增加很多不必要的消耗（CPU、IO、内存、网络带宽）。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SQL

SQL

+关注

关注
1

文章
769

浏览量
44186
数据库

数据库

+关注

关注
7

文章
3832

浏览量
64534

原文标题：Hive SQL 语句的正确执行顺序

文章出处：【微信号：LinuxHub，微信公众号：Linux爱好者】欢迎添加关注！文章转载请注明出处。

通过Skyvia Connect SQL终端节点访问任何数据

通过 Skyvia Connect SQL 终端节点访问任何数据通过 Skyvia Connect SQL 终端节点访问任何数据ADO.NET 数据网关使用 Skyvia Co

发表于 01-02 09:31 •83次阅读

<b class='flag-5'>通过</b>Skyvia Connect <b class='flag-5'>SQL</b>终端节点访问任何数据

浅谈SQL优化小技巧

存储在缓存中的数据；（3）未命中缓存后，MySQL通过关键字将SQL语句进行解析，并生成一颗对应的解析树，MySQL解析器将使用MySQL语法进行验证和解析。例如，验证是否使用了错

发表于 12-25 09:59 •511次阅读

常用SQL函数及其用法

的 SQL 函数及其用法：一、聚合函数（Aggregate Functions）聚合函数对一组值执行计算，并返回单个值。 COUNT() 用途：返回匹配指定条件的行数。示例： SELECT

发表于 11-19 10:18 •354次阅读

SQL与NoSQL的区别

景。 SQL数据库 SQL数据库，也称为关系型数据库管理系统（RDBMS），是一种基于关系模型的数据库。它使用表格、行和列来组织数据，并通过SQL

发表于 11-19 10:15 •204次阅读

大数据从业者必知必会的Hive SQL调优技巧

不尽人意。本文针对Hive SQL的性能优化进行深入研究，提出了一系列可行的调优方案，并给出了相应的优化案例和优化前后的SQL代码。通过合理的优化策略和技巧，能够显著提升Hive SQL

发表于 09-24 13:30 •294次阅读

IP 地址在 SQL 注入攻击中的作用及防范策略

SQL 注入是通过将恶意的 SQL 代码插入到输入参数中，欺骗应用程序执行这些恶意代码，从而实现对数据库的非法操作。例如，在一个登录表单中，如果输入的用户名被直接拼接到

发表于 08-05 17:36 •344次阅读

如何在SQL中创建触发器

在SQL中，触发器（Trigger）是一种特殊类型的存储过程，它自动执行或激活响应表上的数据修改事件（如INSERT、UPDATE、DELETE等）。触发器可以用于维护数据库的完整性、自动化复杂

发表于 07-18 16:01 •2013次阅读

什么是 Flink SQL 解决不了的问题？

简介在实时数据开发过程中，大家经常会用 Flink SQL 或者 Flink DataStream API 来做数据加工。通常情况下选用2者都能加工出想要的数据，但是总会有 Flink SQL

发表于 07-09 20:50 •348次阅读

PLC顺序启动逆顺序停止电路如何运行

了解了顺序启动电路，今天再来看看顺序启动逆顺序停止电路如何运行。

发表于 04-09 14:13 •819次阅读

SQL全外连接剖析

SQL中的全外连接是什么？在SQL中，FULLOUTERJOIN组合左外连接和右外连接的结果，并返回连接子句两侧表中的所有（匹配或不匹配）行。接下面sojson给大家详细讲解。图解：SQL全

发表于 03-19 18:28 •2266次阅读

为什么需要监控SQL服务器？

服务器是存储、处理和管理数据的关系数据库管理系统 (RDBMS) 工具或软件，例如Microsoft的MSSQL、Oracle DB和PostgreSQL。此外，服务器执行SQL查询和命令来操作关系数据库。实际上，

发表于 02-19 17:19 •496次阅读

plc梯形图顺序执行的原则是什么

PLC（可编程逻辑控制器）梯形图（或称为梯形逻辑图）是用于描述和编程PLC的一种常用图形化编程语言。它采用了一种顺序执行的原则，即按照图中元素的排列顺序从左到右、从上到下依次执行。梯

发表于 02-05 11:13 •4703次阅读

触发器的触发顺序是什么

不同类型的触发器可能有不同的执行顺序。例如，对于同一个表上的多个触发器，插入触发器（INSERT trigger）可能先于更新触发器（UPDATE trigger）执行。

发表于 02-05 10:09 •1185次阅读

如何用Rust过程宏魔法简化SQL函数呢？

这是 RisingWave 中一个 SQL 函数的实现。只需短短几行代码，通过在 Rust 函数上加一行过程宏，我们就把它包装成了一个 SQL 函数。

发表于 01-23 09:43 •1012次阅读

查询SQL在mysql内部是如何执行？

我们知道在mySQL客户端，输入一条查询SQL,然后看到返回查询的结果。这条查询语句在 MySQL 内部到底是如何执行的呢？本文跟大家探讨一下哈，我们先来看下MySQL基本架构~

发表于 01-22 14:53 •595次阅读