Spark优化：小文件合并的步骤-电子发烧友网

我们知道，大部分Spark计算都是在内存中完成的，所以Spark的瓶颈一般来自于集群（standalone， yarn， mesos， k8s）的资源紧张，CPU，网络带宽，内存。Spark的性能，想要它快，就得充分利用好系统资源，尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内存占用，例如将小文件进行合并的操作。

一、问题现象

我们有一个15万条总数据量133MB的表，使用SELECT * FROM bi.dwd_tbl_conf_info全表查询耗时3min，另外一个500万条总数据量6.3G的表ods_tbl_conf_detail，查询耗时23秒。两张表均为列式存储的表。

大表查询快，而小表反而查询慢了，为什么会产生如此奇怪的现象呢？

二、问题探询

数据量6.3G的表查询耗时23秒，反而数据量133MB的小表查询耗时3min，这非常奇怪。我们收集了对应的建表语句，发现两者没有太大的差异，大部分为String，两表的列数也相差不大。

CREATE TABLE IF NOT EXISTS `bi`。`dwd_tbl_conf_info` （ `corp_id` STRING COMMENT ‘’， `dept_uuid` STRING COMMENT ‘’， `user_id` STRING COMMENT ‘’， `user_name` STRING COMMENT ‘’， `uuid` STRING COMMENT ‘’， `dtime` DATE COMMENT ‘’， `slice_number` INT COMMENT ‘’， `attendee_count` INT COMMENT ‘’， `mr_id` STRING COMMENT ‘’， `mr_pkg_id` STRING COMMENT ‘’， `mr_parties` INT COMMENT ‘’， `is_mr` TINYINT COMMENT ‘R’， `is_live_conf` TINYINT COMMENT ‘’ ） CREATE TABLE IF NOT EXISTS `bi`。`ods_tbl_conf_detail` （ `id` string， `conf_uuid` string， `conf_id` string， `name` string， `number` string， `device_type` string， `j_time` bigint， `l_time` bigint， `media_type` string， `dept_name` string， `UPDATETIME` bigint， `CREATETIME` bigint， `user_id` string， `USERAGENT` string， `corp_id` string， `account` string ）

因为两张表均为很简单的SELECT查询操作，无任何复杂的聚合join操作，也无UDF相关的操作，所以基本确认查询慢的应该发生的读表的时候，我们将怀疑的点放到了读表操作上。通过查询两个查询语句的DAG和任务分布，我们发现了不一样的地方。

查询快的表，查询时总共有68个任务，任务分配比如均匀，平均7~9s左右，而查询慢的表，查询时总共1160个任务，平均也是9s左右。如下图所示：

Spark优化：小文件合并的步骤

至此，我们基本发现了猫腻所在。大表6.3G但文件个数小，只有68个，所以很快跑完了。而小表虽然只有133MB，但文件个数特别多，导致产生的任务特别多，而由于单个任务本身比较快，大部分时间花费在任务调度上，导致任务耗时较长。

那如何才能解决小表查询慢的问题呢？

三、业务调优

那现在摆在我们面前就存在现在问题：

为什么小表会产生这么小文件已经产生的这么小文件如何合并

带着这两个问题，我们和业务的开发人员聊了一个发现小表是业务开发人员从原始数据表中，按照不同的时间切片查询并做数据清洗后插入到小表中的，而由于时间切片切的比较小，导致这样的插入次数特别多，从而产生了大量的小文件。

那么我们需要解决的问题就是2个，如何才能把这些历史的小文件进行合并以及如何才能保证后续的业务流程中不再产生小文件，我们指导业务开发人员做了以下优化：

使用INSERT OVERWRITE bi.dwd_tbl_conf_info SELECT * FROM bi.dwd_tbl_conf_info合并下历史的数据。由于DLI做了数据一致性保护，OVERWRITE期间不影响原有数据的读取和查询，OVERWRITE之后就会使用新的合并后的数据。合并后全表查询由原来的3min缩短到9s内完成。原有表修改为分区表，插入时不同时间放入到不同分区，查询时只查询需要的时间段内的分区数据，进一步减小读取数据量。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10922

浏览量
213280
数据库

数据库

+关注

关注
7

文章
3855

浏览量
64797
SPARK

SPARK

+关注

关注
1

文章
105

浏览量
20004

GoTo否认与Grab合并传闻

印尼网约车巨头GoTo于当地时间2月4日正式提交文件，明确否认同竞争对手Grab的合并传闻。该公司强调，在未来12个月内，除实施股票回购计划外，并无任何重大行动计划。此前，市场上有消息称Grab

发表于 02-06 10:08 •340次阅读

带通滤波器的设计步骤与优化方法

带通滤波器作为信号处理领域的重要组件，其设计步骤与优化方法对于确保滤波器性能满足特定应用需求至关重要。本文将详细阐述带通滤波器的设计步骤，并深入探讨优化方法，以期为相关领域的研究者和工

发表于 02-05 16:48 •139次阅读

hyper-v文件，hyper-v文件查找的正确步骤和操作方法是什么？

在使用Hyper-V进行虚拟化操作时，准确找到相关文件至关重要。无论是需要对虚拟机进行备份、迁移，还是对其配置进行修改，都离不开对Hyper-V文件的查找。那么，查找Hyper-V文件的正确步

发表于 01-24 14:40 •162次阅读

如何优化EPS文件以提高加载速度

用于存储矢量图形和位图图像的文件格式，它包含了PostScript语言描述的图形。由于EPS文件可以包含复杂的图形和图像数据，因此文件大小通常较大。二、优化前的准备在开始

发表于 10-30 14:32 •460次阅读

spark为什么比mapreduce快？

spark为什么比mapreduce快？首先澄清几个误区： 1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的 2;DAG计算模型

发表于 09-06 09:45 •342次阅读

labview工程文件如何生成exe

生成可执行文件（EXE）是LabVIEW程序开发过程中的一个重要步骤，它允许用户在没有安装LabVIEW的计算机上运行程序。以下是步骤和注意事项： 1. 准备工作在开始生成EXE文件

发表于 09-04 17:09 •2038次阅读

ModusToolbox 3.2在c代码中包含c++代码的正确步骤是什么？

文件，但要在 main.c 中 #include 它们时会导致构建失败。将 main.c 重命名为 main.cpp 会导致标准 XMC 库函数（如 XMC_GPIO_SetMode）中出现许多错误。在 c 代码中包含 c++ 代码的正确步骤是什么？

发表于 07-23 08:21

spark运行的基本流程

前言：由于最近对spark的运行流程非常感兴趣，所以阅读了《Spark大数据处理：技术、应用与性能优化》一书。通过这本书的学习，了解了spark的核心技术、实际应用场景以及性能

发表于 07-02 10:31 •495次阅读

Spark基于DPU的Native引擎算子卸载方案

1.背景介绍 Apache Spark（以下简称Spark）是一个开源的分布式计算框架，由UC Berkeley AMP Lab开发，可用于批处理、交互式查询（Spark SQL）、实时流处理

发表于 06-28 17:12 •776次阅读

关于Spark的从0实现30s内实时监控指标计算

前言说起Spark，大家就会自然而然地想到Flink，而且会不自觉地将这两种主流的大数据实时处理技术进行比较。然后最终得出结论：Flink实时性大于Spark。的确，Flink中的数据计算

发表于 06-14 15:52 •527次阅读

电路仿真设计步骤

电路仿真设计是一个涉及多个步骤的过程，其主要目标是通过计算机模拟来预测和优化电路的性能。

发表于 03-29 14:31 •1574次阅读

Spark基于DPU Snappy压缩算法的异构加速方案

Spark 在某些工作负载方面表现得更加优越。换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark SQL是

发表于 03-26 17:06 •887次阅读

RDMA技术在Apache Spark中的应用

背景介绍在当今数据驱动的时代，Apache Spark已经成为了处理大规模数据集的首选框架。作为一个开源的分布式计算系统，Spark因其高效的大数据处理能力而在各行各业中广受欢迎。无论是金融服务

发表于 03-25 18:13 •1621次阅读

基于DPU和HADOS-RACE加速Spark 3.x

背景简介 Apache Spark（下文简称Spark）是一种开源集群计算引擎，支持批/流计算、SQL分析、机器学习、图计算等计算范式，以其强大的容错能力、可扩展性、函数式API、多语言支持（SQL

发表于 03-25 18:12 •1440次阅读

音视频解码器优化技巧：提升播放体验的关键步骤

随着数字多媒体内容的爆炸式增长，音视频解码器在现代技术生活中扮演着至关重要的角色。从流畅的在线视频流播放到高质量的本地文件解码，解码器的性能直接影响了我们的观看体验。那么，如何优化音视频解码器以提升

发表于 02-21 14:45 •985次阅读