Apache Spark作为全球最流行的数据分析应用-电子发烧友网

Apache Spark作为全球最流行的数据分析应用，现已通过此前发布的Spark 3.0版本为超过50万用户提供革命性的GPU加速。

Databricks为用户提供了先进的企业云平台Spark，每天有超过100万台虚拟机运行该平台。在Spark + AI Summit峰会上，Databricks宣布其用于机器学习的Databricks Runtime 7.0将配备内置Spark 3.0的GPU加速器感知调度功能。该功能由Databricks与NVIDIA和其他社区成员合作开发。

Google Cloud近期宣布在Dataproc image 2.0版本上提供Spark 3.0预览版，同时指出在开源社区的协作下，现在已获得强大的NVIDIA GPU加速。NVIDIA将于7月16日与Google Cloud共同举办一场网络研讨会，深入探讨这些令数据科学家感到兴奋的新功能。

此外，用于Apache Spark的新开源RAPIDS 加速器现在可以加速ETL（提取、转换、加载）和数据传输，在无需更改任何代码的情况下提高端到端分析性能。

Spark性能的加速不仅意味着能够更快获得洞见，而且由于企业可以使用更少的基础设施来完成工作负载，因此还可以帮助企业降低成本。

加速数据分析：科学计算赋予AI更强大的力量

Spark有充分的理由成为新闻媒体报导的焦点。

数据对于帮助企业机构应对不断变化的机遇和潜在威胁至关重要。为此，他们需要破译隐藏在数据中的关键线索。

每当客户点击网站、拨打客户服务电话或生成每日销售报告时，就会给企业机构贡献大量的信息。随着AI的兴起，数据分析对于帮助公司发现趋势并保持市场领先地位所起到的作用日益重要。

前不久，数据分析还依靠小型数据集来收集历史数据和洞见，通过ETL对存储在传统数据仓库中的高度结构化数据进行分析。

ETL常常成为数据科学家在获取AI预测和建议时的瓶颈。ETL预计会占用数据科学家70％至90％的时间，这会减慢工作流程并将炙手可热的人才束缚在最普通的工作上。

当数据科学家在等待ETL时，他们无法重新训练模型来获取更好的商业洞见。传统的CPU基础设施无法通过有效的扩展来适应这些工作任务，这通常会大幅增加成本。

凭借GPU加速的Spark，ETL就不会再产生这样的麻烦。医疗、娱乐、能源、金融、零售等行业现在可以经济、高效地为其数据分析提速，更快地获取洞见。

并行处理助力数据分析

GPU并行处理使计算机可以一次执行多项操作。数据中心通过大规模横向扩展这些功能来支持复杂的数据分析项目。随着运用AI和机器学习工具的企业机构日益增加，并行处理已成为加速海量数据分析和ETL管道，进而驱动这些工作负载的关键。

比如有一家零售商希望预测下一个季节的库存。该零售商需要检查近期的销售量以及去年的数据。数据科学家还可可以此分析中添加天气模型，从而了解雨季或旱季对结果产生的影响。零售商还可以整合情绪分析数据，评估今年最流行的趋势。

由于需要分析的数据源太多，因此在对不同变量可能对销售量产生的影响进行建模时，速度就显得尤为重要。这就需要将分析加入到机器学习中，而且GPU也因此变得十分重要。

RAPIDS加速器为Apache Spark 3.0提速

随着数据科学家从使用传统的分析转而采用可以更好地对复杂市场需求进行建模的AI应用，如果继续采用CPU，则必须牺牲速度或增加成本才能跟上由此产生的处理需求。而随着AI在分析中的应用日益增加，需要有新的框架来通过GPU快速、经济高效地处理数据。

用于Apache Spark的全新RAPIDS加速器将Spark分布式计算框架与功能强大的RAPIDS cuDF库相连接，实现了GPU对Spark DataFrame和Spark SQL的运行提速。RAPIDS加速器还通过搜索在Spark节点之间移动数据的最快路径来加快Spark Shuffle的运行速度。
责任编辑：tzh

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

医疗

医疗

+关注

关注
8

文章
1800

浏览量
58650
AI

AI

+关注

关注
87

文章
30084

浏览量
268348

LLM在数据分析中的作用

随着大数据时代的到来，数据分析已经成为企业和组织决策的关键工具。数据科学家和分析师需要从海量数据中提取有价值的信息，以支持业务决策。在这个过

发表于 11-19 15:35 •109次阅读

eda与传统数据分析的区别

EDA（Exploratory Data Analysis，探索性数据分析）与传统数据分析之间存在显著的差异。以下是两者的主要区别：一、分析目的和方法论 EDA 目的：EDA的主要目的是对

发表于 11-13 10:52 •198次阅读

raid 在大数据分析中的应用

RAID（Redundant Array of Independent Disks，独立磁盘冗余阵列）在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析中

发表于 11-12 09:44 •144次阅读

SUMIF函数在数据分析中的应用

在商业和科学研究中，数据分析是一项基本且关键的技能。Excel作为最常用的数据分析工具之一，提供了多种函数来帮助用户处理和分析数据。SUMI

发表于 11-11 09:14 •222次阅读

智能制造中的数据分析应用

随着工业4.0的推进，智能制造已经成为制造业转型升级的关键。数据分析作为智能制造的核心驱动力，正逐步改变传统的生产方式，为企业带来更高的效率和更大的竞争力。一、数据分析在智能制造中的重要性提高

发表于 11-07 09:56 •151次阅读

数据分析除了spss还有什么

Sciences）是一款非常流行的统计分析软件，但除了SPSS之外，还有许多其他数据分析工具和方法。引言 数据分析是一个跨学科的领域，涉及到统计学、计算机科学、

发表于 07-05 15:01 •535次阅读

数据分析的工具有哪些

数据分析是一个涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中，使用正确的工具至关重要。以下是一些主要的数据分析工具，以及它们的功能和用途的介绍。 Excel Exc

发表于 07-05 14:54 •752次阅读

数据分析有哪些分析方法

数据分析是一种重要的技能，它可以帮助我们从大量的数据中提取有价值的信息，从而做出更明智的决策。在这篇文章中，我们将介绍数据分析的各种方法，包括描述性分析、诊断性

发表于 07-05 14:51 •523次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中学习规律，为企业和组织提

发表于 07-02 11:22 •543次阅读

Spark基于DPU的Native引擎算子卸载方案

和 R 等多种高级编程语言，这使得Spark可以应对各种复杂的大数据应用场景，例如金融、电商、社交媒体等。 Spark 经过多年发展，作为基础的计算框架，不管是在

发表于 06-28 17:12 •500次阅读

求助，关于AD采集到的数据分析问题

问题描述：使用AD采集一个10Hz到2MHz的脉冲，脉冲底部可能大于零，由采集到的数据分析出该脉冲的上升时间，幅值和占空比。备注：在分析的时候已经知道脉冲的频率，精度为2X10^-5. 在分析

发表于 05-09 07:40

Spark基于DPU Snappy压缩算法的异构加速方案

一、总体介绍 1.1 背景介绍 Apache Spark是专为大规模数据计算而设计的快速通用的计算引擎，是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些不同之处使

发表于 03-26 17:06 •734次阅读

RDMA技术在Apache Spark中的应用

背景介绍在当今数据驱动的时代，Apache Spark已经成为了处理大规模数据集的首选框架。作为一个开源的分布式计算系统，

发表于 03-25 18:13 •1462次阅读

基于DPU和HADOS-RACE加速Spark 3.x

背景简介 Apache Spark（下文简称Spark）是一种开源集群计算引擎，支持批/流计算、SQL分析、机器学习、图计算等计算范式，以其强大的容错能力、可扩展性、函数式API、多语

发表于 03-25 18:12 •1276次阅读

Get职场新知识：做分析，用大数据分析工具

为什么企业每天累积那么多的数据，也做数据分析，但最后决策还是靠经验？很大程度上是因为这些数据都被以不同的指标和存储方式放在各自的系统中，这就导致了数据的

发表于 12-05 09:36