0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

工业大数据处理领域的“网红”——Apache Spark

格创东智 2018-12-17 10:55 次阅读

生活离不开水,同样离不开数据,我们被数据包围,在数据中生活。当数据越来越多时,就成了大数据。


在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。而想要理解大数据,就需要理解大数据相关的查询、处理、机器学习、图计算和统计分析等Apache Spark作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选

简单来讲,Spark就是一个快速、通用的大规模数据处理引擎,各种不同的应用,如实时流处理、机器学习、交互式查询等,都可以通过Spark 建立在不同的存储和运行系统上。今天的格物汇,就带大家来认识一下如日中天、高速发展的大数据处理明星——Spark。

1Spark发展历程


  • 2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目,最开始Spark只是一个实验性的项目,代码量非常少,仅有3900行代码左右,属于轻量级的框架。

  • 2010年,伯克利大学正式开源了Spark项目

  • 2013年6月,Spark成为了Apache基金会下的项目,进入高速发展期,第三方开发者贡献了大量的代码,活跃度非常高。

  • 2014年2月,Spark以飞快的速度称为了Apache的顶级项目

  • 2014年5月底Spark1.0.0发布。

  • 2016年6月Spark2.0.0发布

  • 2018年11月 Spark2.4.0 发布


Spark作为Hadoop生态中重要的一员,其发展速度堪称恐怖,从诞生到成为Apache顶级项目不到五年时间,不过在如今数据量飞速增长的环境与背景下,Spark作为高效的计算框架能收到如此大的关注也是有所依据的。

2Spark的特点


速度快

Spark通过使用先进的DAG调度器、查询优化器和物理执行引擎,可以高性能地进行批量及流式处理。使用逻辑回归算法进行迭代计算,Spark比Hadoop速度快100多倍。


简单易用

Spark目前支持多种编程语言,比如Java、Scala、Python、R。熟悉其中任一门语言的都可以直接上手编写Spark程序,非常方便。还支持超过80种高级算法,使用户可以快速构建不同应用。并且Spark还支持交互式的Python和Scala的Shell,这意味着可以非常方便的在这些Shell中使用Spark集群来验证解决问题的方法,而不是像以前一样,需要打包、上传集群、验证等。这对于原型开发非常重要。


通用性高

Spark 目前主要由四大组件,如下:

  • Spark SQL:SQL on Hadoop,能够提供交互式查询和报表查询,通过JDBC等接口调用;

  • Spark Streaming::流式计算引擎;

  • Spark MLlib:机器学习库;

  • Spark GraphX:图计算引擎。

拥有这四大组件,成功解决了大数据领域中,离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题,这些不同类型的处理都可以在同一应用中无缝使用。Spark统一的解决方案非常具有吸引力,毕竟任何公司都想用统一的平台处理问题,减少开发和维护的人力成本和部署平台的物理成本。当然还有,作为统一的解决方案,Spark并没有以牺牲性能为代价。相反,在性能方面Spark具有巨大优势。


可融合性

Spark可以运行在standalone、YARN、Mesos、Kubernetes及EC2多种调度平台上。其中Standalone模式不依赖第三方的资源管理器和调度器,这样降低了Spark的使用门槛,使得所有人可以非常容易地部署和使用Spark。

Spark可以处理所有Hadoop支持的数据,包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。这对于已部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark强大的处理能力。



3Spark相比MapReduce优势

Spark与MapReduce 同为计算框架,但作为后起之秀,Spark借鉴了MapReduce,并在其基础上进行了改进,使得算法性能明显优于MapReduce,下面大致总结一下两者差异:

1)Spark把运算的中间数据存放在内存,迭代计算效率更高;MapReduce的中间结果需要落地到磁盘,磁盘io操作多,影响性能。

2)Spark容错性高,它通过Lineage机制实现RDD算子的高效容错,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建;MapReduce的话容错可能只能重新计算了,成本较高。

3)Spark更加通用,Spark提供了transformation和action这两大类的多个功能算子,操作更为方便;MapReduce只提供了map和reduce两种操作。

4)Spark框架和生态更为复杂,首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等,很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求;MapReduce框架及其生态相对较为简单,对性能的要求也相对较弱,但是运行较为稳定,适合长期后台运行。

4Spark与工业互联平台


工业互联网带来了工业数据的快速发展,对于日益增加的海量数据,传统单机因本身的软硬件限制无法应对海量数据的处理、分析以及深度挖掘,但作为分布式计算框架的Spark却能轻松应付这些场景。在工业互联网平台上,Spark 既能快速实现工业现场海量流数据的处理转换,又能轻松应对工业大数据平台中海量数据的快速批处理分析,自身集成的机器学习框架能够对海量工业数据进行深度挖掘分析,从而帮助管理者进行决策分析。


基于Spark框架自身的优良设计理念以及社区的蓬勃发展状态,相信未来Spark会在工业互联网平台扮演越来越重要的角色。

本文作者:黄欢,格创东智大数据工程师 (转载请注明来源及作者)



声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8897

    浏览量

    137539
  • 智能制造
    +关注

    关注

    48

    文章

    5579

    浏览量

    76405
  • 工业互联网
    +关注

    关注

    28

    文章

    4324

    浏览量

    94172
  • SPARK
    +关注

    关注

    1

    文章

    105

    浏览量

    19929
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    7856
收藏 人收藏

    评论

    相关推荐

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大
    的头像 发表于 12-18 09:45 187次阅读

    cmp在数据处理中的应用 如何优化cmp性能

    CMP在数据处理中的应用 CMP(并行处理)技术在数据处理领域扮演着越来越重要的角色。随着数据量的爆炸性增长,传统的串行
    的头像 发表于 12-17 09:27 301次阅读

    上位机实时数据处理技术 上位机在智能制造中的应用

    。这种技术对于工业自动化、智能制造等领域至关重要。 在上位机实时数据处理中,关键技术包括数据采集、数据处理
    的头像 发表于 12-04 10:29 604次阅读

    FPGA在数据处理中的应用实例

    FPGA(现场可编程门阵列)在数据处理领域有着广泛的应用,其高度的灵活性和并行处理能力使其成为许多高性能数据处理系统的核心组件。以下是一些FPGA在
    的头像 发表于 10-25 09:21 458次阅读

    实时数据处理的边缘计算应用

    实时数据处理的边缘计算应用广泛,涵盖了多个行业和领域。以下是一些典型的应用场景: 一、工业制造 在工业制造领域,边缘计算技术被广泛应用于生产
    的头像 发表于 10-24 14:11 427次阅读

    基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

    处理大数据集。 Hadoop的生态系统非常丰富,包括许多相关工具和技术,如Hive、Pig、HBase等,这些工具可以方便地构建复杂的大数据应用。Hadoop广泛应用于各种场景,包括数据处理
    的头像 发表于 10-08 15:12 167次阅读
    基于Kepware的Hadoop<b class='flag-5'>大数据</b>应用构建-提升<b class='flag-5'>数据</b>价值利用效能

    spark运行的基本流程

    前言: 由于最近对spark的运行流程非常感兴趣,所以阅读了《Spark大数据处理:技术、应用与性能优化》一书。通过这本书的学习,了解了spark的核心技术、实际应用场景以及性能优化的
    的头像 发表于 07-02 10:31 431次阅读
    <b class='flag-5'>spark</b>运行的基本流程

    Spark基于DPU的Native引擎算子卸载方案

    1.背景介绍 Apache Spark(以下简称Spark)是一个开源的分布式计算框架,由UC Berkeley AMP Lab开发,可用于批处理、交互式查询(
    的头像 发表于 06-28 17:12 716次阅读
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸载方案

    工业大数据云平台在设备预测性维护中的作用

    ,只有保证设备的安全稳定运行才能保障生产的持续,质量的可靠,提升企业产品竞争力。 因此,企业就需要加强对设备状况的及时把握,并一定程度上实现工业设备预测性维护。为此,数之能提供的工业大数据云平台可以全面接入
    的头像 发表于 06-28 15:31 263次阅读

    浅谈存内计算生态环境搭建以及软件开发

    一个高效和灵活的平台,特别适合实时数据分析和在线事务处理。这一环境的优势在于其极高的数据处理速度和效率,显著减少了数据处理时间,并支持大数据
    发表于 05-16 16:40

    工业大数据发展面临的问题

    工业大数据作为工业与数字经济之间的桥梁纽带,对加快工业数字化转型、推进数实融合,支撑新型工业化建设意义重大。
    的头像 发表于 04-16 11:52 557次阅读

    如何利用DPU加速Spark大数据处理? | 总结篇

    SSD速度通过NVMe接口得到了大幅提升,并且网络传输速率也进入了新的高度,但CPU主频发展并未保持同等步调,3GHz左右的核心频率已成为常态。 在当前背景下Apache Spark大数据处理工具中,尽管存储和网络性能的提升极
    的头像 发表于 04-02 13:45 1087次阅读
    如何利用DPU加速<b class='flag-5'>Spark</b><b class='flag-5'>大数据处理</b>? | 总结篇

    Spark基于DPU Snappy压缩算法的异构加速方案

    一、总体介绍 1.1 背景介绍 Apache Spark是专为大规模数据计算而设计的快速通用的计算引擎,是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些不同之处使
    的头像 发表于 03-26 17:06 840次阅读
    <b class='flag-5'>Spark</b>基于DPU Snappy压缩算法的异构加速方案

    RDMA技术在Apache Spark中的应用

    背景介绍 在当今数据驱动的时代,Apache Spark已经成为了处理大规模数据集的首选框架。作为一个开源的分布式计算系统,
    的头像 发表于 03-25 18:13 1560次阅读
    RDMA技术在<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中的应用

    基于DPU和HADOS-RACE加速Spark 3.x

    、Python、Java、Scala、R)等特性在大数据计算领域被广泛使用。其中,Spark SQL 是 Spark 生态系统中的一个重要组件,它允许用户以结构化
    的头像 发表于 03-25 18:12 1396次阅读
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x