0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Spark SQL性能实现17.7倍的提升,是如何做到的

独爱72H 来源:砍柴网 作者:砍柴网 2019-11-14 16:32 次阅读

(文章来源:砍柴网)

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,常用来构建大型、低延迟的数据分析应用程序。Spark一个主要特点在于,其能够在内存中进行计算,这使得其数据分析效率往往高于其它计算引擎,但是,服务器内存资源的限制也使得其性能的扩展存在着一定的瓶颈,在超大规模负载中无法充分发挥其利用内存进行计算的性能优势。

某全球领先的语音识别服务提供商是最早将Spark应用到生产环境的团队之一,该公司的语音云通过几千台服务器构成的云计算平台向用户提供多样的、实时语音处理能力,日均服务终端用户超过15亿,日增数据超过100TB。2014年该公司基于Spark和AI技术构建了DMP大数据平台(用户数据管理平台)。DMP平台的主要功能就是收集、存储、分析和挖掘庞大的用户数据,以实现广告精准投放。

Spark在该公司的大数据平台中主要用于海量用户数据分析,每天支撑稳定运行的Spark SQL统计分析指标和SQL脚本有几千个。但是在将Spark SQL用于海量用户数据分析的过程中,仍然面临着一些痛点,这些都限制了该公司语音云的数据分析能力。

Spark的性能不仅受到CPU、内存、网络、磁盘等硬件设备的制约,而且Spark SQL目前还不支持索引,也严重影响了Spark SQL在进行大规模数据分析时的性能,索引能够提升数据检索的效率,降低硬盘的IO瓶颈。

随着数据量越来越大,即席分析的需求越来越强烈,即席查询是用户根据用户自己的需求,灵活选择查询条件,系统能够根据用户的选择生成响应的统计报表和结果集;在数据仓库和大数据分析系统中,即席查询使用的越多,对系统的性能要求也就越高,如果内存能够缓存更多的热点数据,能够极大的提升即席查询处理速度并降低响应延迟。

数据既有随机读的需求(即席查询-Ad-hoc),又有全表扫描的需求(机器学习);机器学习就是通过特定算法从海量的历史数据中学习规律,从而对新的样本进行分析并对未来做出预测,在模型训练的过程中会产生大量的中间结果数据,通常情况下需要将中间结果数据持久化到文件系统上,如果内存能够缓存更多的中间结果数据,可以提升模型训练的速度。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    11103

    浏览量

    102988
  • ai技术
    +关注

    关注

    1

    文章

    1256

    浏览量

    24241
收藏 人收藏

    评论

    相关推荐

    工程行业中如何做到低碳甚至零碳

    低碳的生活方式越来越多地融入我们的日常习惯当中。但是在工程行业中如何做到低碳甚至零碳呢?
    的头像 发表于 10-14 10:31 339次阅读

    TPA3251如何做到180W的功率,电压12V,电流应该多少?

    TPA3251如何做到180W的功率,电压12V,电流应该多少,请推荐DCDC
    发表于 10-11 06:54

    QPS提升10sql优化

    本次慢sql优化是大促准备时的一个优化,优化4c16g单实例mysql支持QPS从437到4610,今天发文时618大促已经顺利结束,该mysql库和应用在整个大促期间运行也非常稳定。本文复盘一下
    的头像 发表于 08-21 11:12 287次阅读
    QPS<b class='flag-5'>提升</b>10<b class='flag-5'>倍</b>的<b class='flag-5'>sql</b>优化

    spark运行的基本流程

    前言: 由于最近对spark的运行流程非常感兴趣,所以阅读了《Spark大数据处理:技术、应用与性能优化》一书。通过这本书的学习,了解了spark的核心技术、实际应用场景以及
    的头像 发表于 07-02 10:31 361次阅读
    <b class='flag-5'>spark</b>运行的基本流程

    Spark基于DPU的Native引擎算子卸载方案

    1.背景介绍 Apache Spark(以下简称Spark)是一个开源的分布式计算框架,由UC Berkeley AMP Lab开发,可用于批处理、交互式查询(Spark SQL)、实
    的头像 发表于 06-28 17:12 500次阅读
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸载方案

    请问使用lwip创建socket,该如何做到非阻塞的接收发送数据?

    请问使用lwip创建socket,该如何做到非阻塞的接收发送数据?
    发表于 06-19 06:02

    Flow Computing引领CPU性能革命:PPU技术实现性能提升

    在科技日新月异的今天,芬兰的一家科技初创公司Flow Computing以其革命性的技术突破,再次让全球科技界为之震撼。近日,该公司宣布其研发的并行处理单元(PPU)成功实现了对任何CPU架构性能高达100
    的头像 发表于 06-14 14:34 1150次阅读

    STM32在PWM输出模式中,如何做到PWM移向输出?

    在PWM输出模式中,如何做到PWM移向输出?在DSP中有时基相位寄存器,可以移向配置占空比。但是好像没有发现STM32单片机有类似的寄存器功能。请问各位大神是否有其他方法可以实现PWM移向输出呢?
    发表于 05-15 06:02

    多路电源并联输出如何做到均流不倒灌?

    如果负载所需要的功率较大,单独一路供电又满足不了需求,但是有暂时没有大的供电电源,那么是如何做到两个或者多个同样的电源做到相等输出均流不倒灌呢?有什么办法解决,其原理是什么? 举例,在两个LDO输出
    发表于 04-27 22:54

    龙芯:自主研发CPU提升性能,单核通用性能提高20

    张戈强调,龙芯CPU的主要IP核均为自主研发,这使得其性价比得到显著提升。他指出,国产CPU与主流CPU的差距主要体现在单核性能上,而非多核性能。近年来,龙芯CPU的单核通用性能
    的头像 发表于 04-25 15:26 753次阅读

    Spark基于DPU Snappy压缩算法的异构加速方案

    Spark 在某些工作负载方面表现得更加优越。换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark SQL
    的头像 发表于 03-26 17:06 734次阅读
    <b class='flag-5'>Spark</b>基于DPU Snappy压缩算法的异构加速方案

    基于DPU和HADOS-RACE加速Spark 3.x

    背景简介 Apache Spark(下文简称Spark)是一种开源集群计算引擎,支持批/流计算、SQL分析、机器学习、图计算等计算范式,以其强大的容错能力、可扩展性、函数式API、多语言支持(
    的头像 发表于 03-25 18:12 1276次阅读
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x

    光伏户用如何做到低成本获客?

    光伏户用如何做到低成本获客? 随着可再生能源的日益普及和技术的不断进步,光伏系统正逐渐走进千家万户。然而,对于光伏企业来说,如何在激烈的市场竞争中低成本地获取客户,成为了他们面临的一大挑战。本文将
    发表于 02-27 10:33

    工业级连接器如何做到高抗冲击性?选款一定要了解这几点

    连接器知识分享工业级连接器多用在工厂、车载、户外等复杂场景下,因而面临冲击等应力影响的概率极高。工业级连接器如何做到高抗冲击性,确保高可靠连接呢?这篇文章讲清楚。工业级连接器如何做到高抗冲击性?LP
    的头像 发表于 01-06 08:13 334次阅读
    工业级连接器<b class='flag-5'>如何做到</b>高抗冲击性?选款一定要了解这几点

    AD6688如何做到多板间的AD采样同步?

    大家好,JESD204B协议已让单板多片AD采样同步变得更容易了,想请教下,如何做到多板间的AD采样同步啊,有没有什么好的思路啊。 还有AD6688的采样时钟频率范围为2.5G~3.1G,芯片支持
    发表于 12-12 08:27