0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

革命性的图形分析: NVIDIA cuGraph 加速的下一代架构

eeDesigner 来源:11 作者:11 2024-06-04 17:54 次阅读

在我们的 先前的图分析探索 中,我们使用 NVIDIA cuGraph 揭示了 GPU-CPU 融合的变革力量。基于这些见解,我们现在引入了一种革命性的新架构,它重新定义了图处理的边界。

图形处理的发展

在我们早期涉足图形分析的过程中,我们在使用的架构方面面临着各种挑战。这种体系结构虽然有效,但也造成了阻碍设置和性能的障碍。

wKgZomZe5FCAL8S_AAEY-MAzTj4698.png

图 1.(以前的体系结构)使用 TigerGraph、cuGraph 和 GSQL 进行高性能图形分析的过程

以前体系结构的挑战

对磁盘的依赖关系:我们在 TigerGraph 和 cuGraph 之间使用基于磁盘的数据传输,这会对可扩展性和性能造成限制。组件之间的数据传输依赖于临时磁盘,从而引入延迟和潜在的性能瓶颈。

Python 依赖项:使用 Python 运行 cuGraph 将引入开销和复杂性,从而影响性能,特别是在图形处理等计算密集型任务中。

节俭层:节俭的通信会增加复杂性和开销,从而可能影响系统的可靠性。

对设置和性能的影响

这些依赖关系不仅使设置过程复杂化,而且对实现最佳性能也提出了挑战。对共享磁盘基础设施的需求,加上基于 Python 的服务和 Thrift 通信,造成了一个难以有效配置和扩展的系统。

在我们寻求加速图形分析的过程中,很明显,范式转变是必要的。进入下一代架构,这是一种革命性的方法,旨在克服前代架构的局限性,开启图形处理的新领域。让我们详细探讨一下这一突破性的体系结构。

介绍下一代架构

在我们寻求彻底改变图形分析的过程中,我们精心打造了代表图形处理范式转变的下一代架构。该体系结构完全构建在 C++中,利用尖端技术实现了前所未有的性能和可扩展性。

理解 TigerGraph 中的 GSQL 查询执行过程

在深入研究我们新体系结构的复杂性之前,了解 GSQL 查询传统上是如何在 TigerGraph 集群中执行的至关重要:

步骤 1:编译
GSQL 查询将经编译,然后转换为 C++ 代码。随后,编译这些代码,并将其与专有的 TigerGraph 库进行链接,以便执行准备。

第 2 步:执行
编译后,将使用图形处理引擎(GPE)在 TigerGraph 集群上执行查询。GPE 负责管理集群通信,并协调分布式环境中算法的执行。

升级下一代体系结构

在我们的下一代体系结构中,我们对编译和执行阶段进行了重大升级,利用 GPU 加速的力量并简化了处理流程:

步骤 1:增强加速的查询编译
我们通过将 cuGraph CUDA 库直接集成到 TigerGraph 中,实现了对 GPU 加速图形处理功能的无缝访问。基于 cuGraph 库,我们开发了 ZettaAccel,这是一个自定义的 C++ 库,它公开了在 GSQL 查询中可用作用户定义函数(UDF)的函数。现在,在查询编译过程中,GSQL 查询被编译并与 TigerGraph、CUDA cuGraph 和 ZettaAccel 库链接,从而解锁其核心的加速图处理能力。

wKgaomZe5FCAJcGTAABqWN-wCZo720.jpg

图 2:加速 GSQL 编译

步骤 2:通过 GPU 资源管理优化执行
在执行时,我们的体系结构使用 RAPID 生态系统库动态分配 GPU 资源,以确保可用硬件的最佳利用率。图形数据通过 ZettaAccel 库从 TigerGraph 高效地传输到 GPU 内存,其中它被无缝转换为可供处理的图形结构。然后,算法直接在 GPU 上执行,利用其并行处理能力获得无与伦比的性能提升。最后,生成的数据被无缝地传输回 CPU 和 TigerGraph,以进行进一步的分析和集成。

wKgZomZe5FCAD28DAABz0wORKBg499.jpg

图 3。加速 GSQL 执行

下一代架构的优势

下一代架构代表了图形处理效率和可扩展性的巨大飞跃:

前所未有的性能:通过充分利用 GPU 加速和精简处理管道,我们的架构提供了无与伦比的性能提升,从而能够快速执行复杂的图形算法。

简化的设置:通过将 cuGraph 和 ZettaAccel 集成到 TigerGraph 中,我们简化了设置过程,消除了对复杂依赖关系的需求,并减少了配置开销。

可扩展性和灵活性:借助动态 GPU 资源管理和高效的数据传输机制,我们的架构可以轻松扩展,以处理大规模的图形数据集和多样化的处理工作负载。

利用加速的 GSQL 构造进行图形处理

为了利用加速的 GSQL 构造的力量进行高效的图形处理,用户可以遵循分为三个阶段的结构化方法:流式图形构造、算法执行和结果检索。

让我们以 pagerank 为例来看看所有三个阶段:-

1.流图构建:

在这个阶段,用户通过指定数据处理所需的关系和累加器来定义流图。

SELECT s FROM Start:s -(friend:f)- :t ACCUM
int graph_obj=@@graph_per_server.get(server_id)
udf_stream_edges(graph_obj,getvid(s),getvid(t),store_transposed);

在这里,用户可以建立初始的图结构,并积累相关信息,如图对象和自定义流功能。这个udf_stream_edges 函数能够有效地处理边缘流并更新图形结构。

2.执行算法:

一旦构建了流图,用户就可以使用 GSQL 结构高效地执行他们想要的算法。

V = SELECT s FROM vertex_per_server:s
ACCUM
udf_prank_execute(@@graph_per_server.get(s.@server_id),@@vertices_per_server.get(s.@server_id));

在这个阶段,用户使用加速的 GSQL 构造来执行像 PageRank 这样的算法。这个udf_prank_execute函数可以有效地计算分布在服务器上的顶点的 PageRank 分数,从而优化算法执行时间。

3.检索结果:

在执行算法之后,用户从图中取回计算结果,用于进一步分析或可视化。

V = SELECT s FROM Start:s
ACCUM s.@score=udf_pagerank_score(@@graph_per_server.get(server_id),getvid(s));

在这里,用户检索在算法执行期间计算的 PageRank 分数,并将其存储为顶点属性,用于后续分析或可视化。

通过遵循这三个阶段,用户可以有效地利用加速的 GSQL 构造来简化图形处理任务,优化算法执行,并高效地从图形数据中检索有价值的见解。

绩效基准和结果

图形算法性能比较

该基准测试在 2 节点集群上进行,每个节点都具有 4x NVIDIA A100 40GB GPU、AMD EPYC 7713 64 核处理器和 512GB RAM

基准数据集

Graphalytics 是由链接数据基准委员会(LDBC)开发的综合基准套件,旨在评估图形数据库管理系统(GDBMS)和图形处理框架的性能。它提供了真实世界的数据集、不同的工作负载和一系列图形算法,以帮助研究人员和组织评估系统的效率和可扩展性。欲了解更多信息,请参阅 LDBC 图形分析基准。

图表 顶点 边缘 TigerGraph 群集(秒) cuGraph+TigerGraph(python)(秒) cuGraph+TigerGraph(本机)(秒)
图 22 239 万​ 6400 万 311.162 12.14(25 倍) 6.91(45 倍)
图 23 460 万​ 1.29 亿 617.82 14.44(42X) 9.04(68 倍)
图 24 887 万 260 米 1205.34 24.63(48 倍) 14.69(82 倍)
图表 25 1706 万​ 5.23 亿 2888.74 42.5(67 倍) 21.09(137 倍)
图 26 3280 万​ 10.5 亿 4842.4 73.84(65 倍) 41.01(118 倍)

表 1。与 cuGraph 加速(Python 和 Native)集成方法相比,基于 TigerGraph CPU 的解决方案

优化图形处理:在 TigerGraph 中集成 cuGraph 的成本分析

在追求增强图形处理能力的过程中,cuGraph 与 TigerGraph 的集成已被证明是游戏规则的改变者。通过在 TigerGraph 框架内利用 cuGraph 的 GPU 加速功能,我们不仅实现了显著的速度提高,还显著降低了总体成本。

机器信息:以下是机器的详细信息:

实例名称:m7a.32xlarge

节点总数:2 个

按需时薪:7.41888 美元

vCPU 数量:128

内存大小:512 GiB

实例名称:p4d.24xlarge

节点总数:1 个

按需时薪:$32.77

vCPU 数量:96

内存大小:1152 GiB

GPU 信息:

规格: NVIDIA A100 GPU

计数:8

内存:320 GB HBM2

图表 TigerGraph 群集(秒) cuGraph+TigerGraph(本机)(秒) CPU 成本 GPU 成本 收益(X)
图 22 311.162 6.91(45 倍) $1.28 $0.06 20
图 23 617.82 9.04(68 倍) $2.55 $0.08 31
图 24 1205.34 14.69(82 倍) $4.97 $0.13 37
图表 25 2888.74 21.09(137 倍) $11.91 $0.19 62
图 26 4842.4 41.01(118 倍) $19.96 $0.37 53

表 2。与我们的基准机器相似的 AWS 机器的成本分析

这些结果表明,当将 cuGraph 与 TigerGraph 集成时,图形处理的速度显著提高了 100 倍。同时,成本分析显示,总体成本大幅降低了 50 倍,显示了这种集成的效率和成本效益。这种优化不仅确保了卓越的性能,而且为图形分析工作负载提供了更经济的解决方案。

总结

在对图形分析的全面探索中,我们开始了一段彻底改变处理和分析复杂图形数据方式的旅程。从传统架构的挑战到我们下一代解决方案的推出,本文涵盖了一系列主题,展示了先进技术和创新方法的变革力量。

图形处理技术的发展:

我们首先剖析了传统图形处理架构的局限性,强调了对共享磁盘基础设施、Python 和 Thrift 通信层的依赖性。这些挑战凸显了对图形分析新方法的需求,这种方法可以释放新的性能、可扩展性和效率水平。

介绍下一代架构:下一代架构的引入。

进入我们的下一代架构——图形处理中改变游戏规则的范式转变。我们的体系结构完全构建在 C++中,利用一系列尖端技术,包括 cuGraph、Raft、NCCL 和 ZettaAccel,将图形分析加速到前所未有的高度。

关键进展和创新:

通过我们的新体系结构,我们彻底改变了图形处理的编译和执行阶段。通过将 cuGraph 和 ZettaAccel 直接集成到 TigerGraph 中,我们简化了编译过程,消除了复杂的依赖关系,并解锁了 GPU 加速的图形处理的核心。我们的体系结构的动态 GPU 资源管理和精简的数据传输机制确保了各种图形处理任务的最佳性能和可扩展性。

前所未有的性能和可扩展性:无与伦比的计算能力和灵活的架构设计。

结果不言自明——我们的下一代架构提供了无与伦比的性能提升,实现了复杂图形算法的快速执行和处理大规模数据集的无缝可扩展性。通过利用 GPU 加速和创新 C++技术的力量,我们重新定义了图形分析的边界,使组织能够释放新的见解,推动不同领域的创新。

未来的发展方向和机遇:

当我们展望未来时,可能性是无限的。随着 GPU 技术、算法优化以及与新兴框架的集成的不断进步,我们的体系结构将继续发展,突破图形分析的极限。

开始使用

如果你渴望利用加速图形处理的力量,以下是你如何开始你的旅程:

检查您的要求:确保您的 TigerGraph 版本 3.9.X 和 NVIDIA GPU 配备了 RAPID 支持。这些先决条件对于释放加速图形处理的潜力至关重要。

表达您的兴趣:如果您对探索加速图形处理感兴趣,请联系 TigerGraph 或Zettabolt。无论您是经验丰富的数据科学家还是图形分析的新手,他们的团队都会随时为您提供帮助。

指导和支持:一旦您表达了兴趣,TigerGraph 或 Zettabolt 的专家将指导您完成最初的步骤,为您提供所有必要的信息,以启动您的加速图形处理之旅。从设置基础架构到微调性能,他们的支持确保了实施的顺利和成功。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4940

    浏览量

    102816
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4701

    浏览量

    128705
  • 算法
    +关注

    关注

    23

    文章

    4599

    浏览量

    92643
  • 图形分析
    +关注

    关注

    0

    文章

    3

    浏览量

    875
收藏 人收藏

    评论

    相关推荐

    NVIDIA下一代7nm GPU效率比Turing高两倍

    据悉,基于NVIDIA下一代Ampere GPU的GeForce图形卡将比Turing GPU更快,更高效。据说NVIDIA都准备在2020年下半年推出其
    的头像 发表于 01-06 01:56 5125次阅读

    NVIDIA火热招聘GPU高性能计算架构

    .comWechat :hrallenlinGPU高性能计算架构师 (功能验证)- 校招/社招工作职责: * 深入了解下一代GPU架构与GPU高性能计算领域的最新功能* 与GPU架构
    发表于 09-01 17:22

    为什么说射频前端的体化设计决定下一代移动设备?

    随着移动行业向下一代网络迈进,整个行业将面临射频组件匹配,模块架构和电路设计上的挑战。射频前端的体化设计对下一代移动设备真的有影响吗?
    发表于 08-01 07:23

    下一代SONET SDH设备

    下一代SONET/SDH设备
    发表于 09-05 07:05

    Nvidia发布首款Kepler架构GPU,提高图形处理性能

      北京时间3月22日晚间消息,Nvidia今日发布了首款基于下一代 Kepler图形架构的GPU(图形处理器)
    发表于 03-23 08:29 912次阅读

    下一代网络核心技术概览

    下一代网络技术(NGN)的概念起源于美国克林顿政府1997年10月10日提出的下一代互联网行动计划(NGI)。其目的是研究下一代先进的组网技术、建立试验床、开发革命性应用。NGN
    发表于 01-14 16:18 0次下载

    Imagination推出全新一代PowerVR Furian GPU架构 满足下一代消费类设备图形运算需求

    Imagination Technologies 宣布推出新一代的 PowerVR Furian 架构,这是专为满足下一代消费类设备持续演进的图形与运算需求所设计的全新 GPU
    发表于 03-10 01:03 875次阅读

    在英特尔架构上启用下一代分析

    在英特尔架构上启用下一代分析
    的头像 发表于 05-31 09:17 2685次阅读

    人工智能成下一代技术革命

    Rolandberger发布了新报告“下一代技术革命‘AI’来袭”,分析了人们是否准备好迎接下一代技术革命
    的头像 发表于 01-07 10:37 4111次阅读

    RDNA 2架构全面改进,AMD展示革命性光线追踪技术

    NVIDIA图灵架构的RTX 20系列显卡带来了革命性的光线追踪技术,AMD则将在下一代的RNDA 2架构上加入硬件光追,而且凭借后发优势,
    的头像 发表于 03-07 09:15 1797次阅读

    NVIDIA下一代GPU曝光

    图灵(Turing)和安培(Ampere)之后,很早就有爆料NVIDIA下一代GPU将以“Hopper(赫柏)”知名,Hopper被誉为编译之母,是伟大的女性程序员。
    的头像 发表于 12-22 09:15 2284次阅读

    使用Memgraph和NVIDIA cuGraph算法运行大规模图形分析

      通过最新的 Memgraph 高级图形扩展( MAGE )版本,您现在可以在几秒钟内从 Memgraph 运行 GPU 支持的图形分析,同时使用 Python 。由 NVIDIA
    的头像 发表于 10-10 16:38 1357次阅读

    革命性的小芯片 GPU 设计时代开启

    由于单片设计中的现代高端图形处理器地变得越来越复杂和昂贵,AMD 决定为其 RDNA3 图形
    发表于 01-06 09:36 496次阅读

    NVIDIA推动中国下一代车辆发展

    NVIDIA推动中国下一代车辆发展
    的头像 发表于 08-01 14:52 872次阅读

    使用NVIDIA Holoscan for Media构建下一代直播媒体应用

    NVIDIA Holoscan for Media 现已向所有希望在完全可重复使用的集群上构建下一代直播媒体应用的开发者开放。
    的头像 发表于 04-16 14:04 600次阅读