开源社区通过对NVIDIA GPU的原生支持加速Spark 3.0;
实现数百TB数据的飞速ETL和SQL处理;
Adobe在Databricks上使用Spark 3.0将模型训练速度提高7倍
加利福尼亚州圣克拉拉市 - GTC 2020大会 - 2020年5月14日 – NVIDIA于今日宣布其正在与开源社区合作,为Apache Spark 3.0带来端到端的GPU加速。Apache Spark 3.0是一个热门的分析引擎,被全球范围内超过50万名数据科学家用于大数据处理。
随着Spark 3.0预计将于春季晚些时候发布,数据科学家和机器学习工程师将首次能够把革命性的GPU加速应用于普遍使用SQL数据库操作进行的ETL(提取、转换和加载)数据处理工作负载中。
此外,他们还将首次能够在同一Spark集群上处理AI模型训练任务,而无需将工作负载作为单独流程在单独的基础架构上运行。这样就可以对整个数据科学的处理流程进行高性能数据分析,对从数据湖到模型训练所涉及的数十、乃至数千TB的数据进行加速,而且无需对已被应用于本地和云端Spark应用程序的现有代码进行修改。
NVIDIA企业计算主管Manuvir Das表示:“数据分析是当今企业和研究者所面临最大的高性能计算挑战。从ETL到训练再到推理,整个Spark 3.0 方案的原生GPU加速为用户提供了最终将大数据潜力与AI性能相连所需的性能和规模。”
作为NVIDIA的战略AI合作伙伴,Adobe是最早在Databricks上运行Spark 3.0预览版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速数据分析技术进行产品开发,并为各项推进数字化业务进程的功能提供支持。在初步测试中其已将性能提高了7倍,并节省了90%的成本。
性能提升后的Spark 3.0让科学家能够训练包含有更大数据集的模型,并增加反复训练模型的频率,从而提高模型的精度。现在,数据科学家每天可以处理数TB的新数据,这对于需要为在线推荐系统提供支持或分析新研究数据的数据科学家们而言至关重要。此外,处理速度的加快,减少了交付结果所需的硬件资源,从而节省了大量成本。
Adob机器学习高级总监William Yan表示:“相比于在CPU上运行Spark,NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴随着GPU性能的飞跃性提升,也将为我们全套Adobe Experience Cloud应用中AI功能的提升带来新的可能性。”
Databricks和NVIDIA为Spark提速
Apache Spark最初是由Databricks的创始人创建。Databricks的云端统一数据分析平台每天在一百多万台虚拟机上运行。NVIDIA与Databricks已开展合作,使用专为Databricks开发的RAPIDSTM软件套件优化Spark,将GPU加速应用于在Databricks上运行的医疗、金融、零售等众多行业的数据科学和机器学习工作负载中。
Apache Spark最初的创建者兼Databricks首席技术员Matei Zaharia表示:“我们与NVIDIA开展了长期合作,用专为Apache Spark 3.0和Databricks开发的RAPIDS相关优化来提高性能,使得像Adobe这样的我们两家公司共同的客户能够得以受益。我们所作出的这些努力加快了数据处理流程、模型训练和评分的速度,直接为我们的数据工程师和数据科学家社区带来更多的突破和洞见。”
NVIDIA GPU加速Spark中的ETL和数据传输
NVIDIA正在提供一种用于Apache Spark的全新开源RAPIDS加速器,帮助数据科学家提高其数据流程的端到端性能。该加速器能够将之前需要在CPU上运行的功能,转到GPU上运行,以发挥GPU的性能:
·在无需更改任何代码的情况下显著提高Spark SQL和DataFrame的运行性能,从而加速Spark中的ETL数据流程。
·无需独立的机器学习和深度学习集群,即可在相同的基础架构上加速数据准备和模型训练。
·加速Spark分布式集群中各节点之间的数据传输性能。这些资源库使用UCF Consortium 的开源UCX(Unified Communication X)框架,并通过使数据直接在GPU内存之间移动来最大程度地减少延迟。
Apache Software Foundation 上现已提供Spark 3.0的预览版。该产品预计将在未来几个月内全面上市。
-
NVIDIA
+关注
关注
14文章
5141浏览量
104736 -
gpu
+关注
关注
28文章
4841浏览量
129893 -
数据分析
+关注
关注
2文章
1464浏览量
34404 -
大数据
+关注
关注
64文章
8929浏览量
138471 -
SPARK
+关注
关注
1文章
105浏览量
20133
发布评论请先 登录
相关推荐
NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机

NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

NVIDIA助力百度提升数据分析效能
eda与传统数据分析的区别
raid 在大数据分析中的应用
云计算在大数据分析中的应用
数据分析的工具有哪些
数据分析有哪些分析方法
机器学习在数据分析中的应用
Spark基于DPU的Native引擎算子卸载方案

求助,关于AD采集到的数据分析问题
RDMA技术在Apache Spark中的应用

基于DPU和HADOS-RACE加速Spark 3.x

评论