0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用NVIDIA DGX cuQuantum设备实现超级计算规模的量子电路仿真

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-10-12 09:26 次阅读

量子电路模拟对于开发量子计算机的应用程序和算法至关重要。由于已知量子计算算法和用例的破坏性,政府、企业和学术界的量子算法研究人员正在开发新的量子算法,并在更大的量子系统上进行基准测试。

在没有大规模纠错量子计算机的情况下,开发这些算法的最佳方法是通过量子电路模拟。量子电路模拟需要大量计算, GPU 是计算量子态的天然工具。 为了模拟更大的量子系统,有必要将计算分布在多个 GPU 和多个节点上,以充分利用超级计算机的计算能力。

NVIDIA cuQuantum 是一个软件开发工具包( SDK ),使用户可以使用 GPU 轻松加速和缩放量子电路模拟,为探索量子优势提供了新的能力。

此 SDK 包括最近发布的 NVIDIA DGX cuQuantum Appliance ,这是一个支持部署的软件容器,具有多 GPU 状态向量模拟支持。通用多 GPU API 现在也可在 cuStateVec 中使用,以便轻松集成到任何模拟器中。对于张量网络模拟, cuQuantum cuTensorNet library 提供的切片 API 可实现分布在多个 GPU 或多个节点上的加速张量网络收缩。这使得用户可以利用 DGX A100 系统的近线性强伸缩性。

NVIDIA cuQuantum SDK 具有状态向量和张量网络方法库。这篇文章主要关注用于多节点状态向量模拟的 cuStateVec 和 DGX cuQuantum 设备 。如果您有兴趣了解更多关于 cuTensorNet 和张量网络方法的信息,请参见 使用 NVIDIA cuTensorNet 扩大 Quantum Circuit Simulation 。

什么是多节点、多 GPU 状态矢量仿真

节点是由紧密互连的处理器组成的单个封装单元,这些处理器经过优化,可以在保持机架就绪外形的同时协同工作。多节点多 GPU 状态向量模拟利用了一个节点内的多个 GPU 和 GPU 的多个节点,以提供比其他方式更快的解决时间和更大的问题规模。

DGX 使用户能够利用高内存、低延迟和高带宽。 DGX H100 system 由八个 H100 张量芯 GPU 组成,利用了 第四代 NVLink 和第三代 NVSwitch 。该节点是量子电路模拟的发电站。

在 DGX A100 节点上运行,所有八个 GPU 上都有启用 NVIDIA 多 GPU 的 DGX cuQuantum Appliance ,对于三种常见的量子计算算法:量子傅里叶变换、肖氏算法和 Sycamore Supremacy 电路,在双 64 核 AMD EPYC 7742 处理器上的速度提高了 70 到 290 倍。这使得用户能够使用单个 DGX A100 节点(八个 GPU ),通过全状态矢量方法模拟多达 36 个量子比特。图 1 所示的结果比我们上次宣布此功能的基准测试高出 4.4 倍,这是因为我们的团队已经实现了只使用软件的增强。

poYBAGNGF9CAWQAlAACj7-etYr8358.png

图 1.DGX cuQuantum Appliance 多 GPU 加速超过最先进的双插槽 CPU 服务器

NVIDIA cuStateVec 团队深入研究了除单个节点内的多个 GPU 之外,利用多个节点的性能方法。因为大多数门应用程序都是完全并行的操作,所以节点内和跨节点的 GPU 可以被编排以进行分而治之。

在模拟过程中,状态向量被分割并分布在 GPU 之间,每个 GPU 可以对其状态向量的一部分并行应用一个门。在许多情况下,这可以在本地处理;然而,高阶量子比特的门应用需要分布式状态向量之间的通信

一种典型的方法是首先对量子比特重新排序,然后在每个 GPU 中应用门,而不访问其他 GPU 或节点。这种重新排序本身需要设备之间的数据传输。为了有效地做到这一点,高互连带宽变得极其重要。在多个节点上有效地利用这种并行性是非常重要的。

介绍多节点 DGX cuQuantum Appliance

这里给出了基于性能和任意尺度状态矢量的量子电路模拟的答案。 NVIDIA 很高兴宣布新 DGX cuQuantum Appliance 提供的多节点、多 GPU 功能。在我们的下一版本中,任何 cuQuantum 容器用户都将能够快速、轻松地利用 IBM Qiskit 前端在世界上最大的 NVIDIA 系统上模拟量子电路。

cuQuantum 的任务是使尽可能多的用户能够轻松加速和缩放量子电路模拟。为此, cuQuantum 团队正在努力将 NVIDIA 多节点方法生产成 API ,该 API 将于明年初正式上市。通过这种方法,您将能够利用更广泛的基于 NVIDIA GPU 的系统来扩展状态向量量子电路模拟。

NVIDIA 多节点 DGX cuQuantum 设备正处于开发的最后阶段,您很快就能利用 NVIDIA DGX SuperPOD 系统 的最佳性能。这将作为 NGC 托管的容器映像提供,您可以在 Docker 和几行代码的帮助下快速部署。

NVIDIA DGX H100 拥有所有 DGX 系统中最快的 I / O 架构,是大型 AI 群集(如 NVIDIA -DGX SuperPOD )的基础构建块,是可扩展 AI 的企业蓝图,现在是量子电路仿真基础设施。 DGX H100 中的八台 NVIDIA H100 GPU 使用新的高性能第四代 NVLink 技术,通过四台第三代 NVSwitch 进行互连。

第四代 NVLink 技术提供了上一代 1.5 倍的通信带宽,比 PCIe Gen5 快 7 倍。它提供了高达 7.2 TB / s 的 GPU 总吞吐量至 – GPU ,比上一代 DGX A100 提高了近 1.5 倍。

DGX H100 系统与随附的八个 NVIDIA ConnectX-7 InfiniBand / Ethernet 适配器(每个适配器都以 400 GB / s 的速度运行)一起,提供了强大的高速结构,可在分布于多个节点的状态矢量之间的全局通信中节省开销。多节点、多 GPU cuQuantum 与大规模 GPU 加速计算相结合,利用最先进的网络硬件和软件优化,这意味着 DGX H100 系统可以扩展到数百或数千个节点,以应对最大的挑战,例如将全状态矢量量子电路模拟扩展到 50 个量子比特以上。

为了对这项工作进行基准测试,多节点 DGX cuQuantum Appliance 运行在 NVIDIA Selene Supercomputer 上,这是 NVIDIA DGX SuperPOD 系统的参考体系结构。截至 2022 年 6 月, Selene 在超级计算系统 TOP500 榜单中排名第八 ,以 63.5 petaflops 的速度执行高性能 Linpack ( HPL )基准测试,并以 24.0 giaflops /瓦特的速度在 Green500 名单上排名第 22 。

NVIDIA 利用多节点 DGX cuQuantum Appliance 运行基准测试: Quantum Volume 、 Quantum 近似优化算法( QAOA )和 Quantum 相位估计。量子体积电路的深度为 10 和 30 。 QAOA 是一种常用算法,用于解决相对而言近期量子计算机上的组合优化问题。我们用两个参数运行它。

在前面的算法中演示了弱标度和强标度。很明显,扩展到像 NVIDIA DGX SuperPOD 这样的超级计算机对于加快解决时间和扩展相空间研究人员可以利用状态矢量量子电路模拟技术探索的相空间都很有价值。

pYYBAGNGF9GANn1sAACWZzl6YCo818.png

图 2.DGX cuQuantum Appliance 多节点弱扩展性能,从 32 到 40 量子比特

我们正在通过更新的 DGX cuQuantum Appliance 进一步帮助用户实现规模化。通过引入多节点功能,我们允许用户在一个 GPU 上移动 32 个量子比特,在一个 NVIDIA 安培架构节点上移动 36 个量子比特。我们用 32 个 DGX A100 节点模拟了总共 40 个量子比特。用户现在可以根据系统配置进一步扩展,软件限制为 56 量子位或数百万 DGX A100 节点。我们在 NVIDIA Hopper GPU 上的其他初步测试表明,这些数字在我们的下一代架构上会更好。

我们还衡量了我们多节点能力的强大扩展性。为了简单起见,我们专注于 Quantum Volume 。图 3 描述了当我们多次改变 GPU 的数量来解决同一问题时的性能。与最先进的双插槽服务器 CPU 相比,在利用 16 个 DGX A100 节点时,我们获得了 320 到 340 倍的加速。这也比以前最先进的量子体积实现快 3.5 倍(对于只有两个 DGX A100 节点的 36 个量子比特,深度= 10 )。当添加更多节点时,这种加速会变得更加显著。

poYBAGNGF9KAP2p8AACUG0A4Wqs215.png

图 3.与最先进的 CPU 服务器相比, DGX cuQuantum Appliance 多节点加速 32 qubit Quantum Volume

在最大的 NVIDIA 系统上模拟和缩放量子电路

NVIDIA 的 cuQuantum 团队正在将状态向量模拟扩展到多节点、多 GPU 。这使得终端用户能够对比以往任何时候都大的全状态矢量进行量子电路模拟。 cuQuantum 不仅支持扩展,还支持性能,显示节点之间的扩展能力较弱,扩展能力较强。

此外, cuQuantum 推出了第一个由 cuQuantom 支持的 IBM Qiskit 映像。在我们的下一个版本中,您将能够拉动这个容器,从而使用这个流行的框架更容易、更快地扩展量子电路模拟。

关于作者

Tom Lubowe 是 NVIDIA 的量子计算产品经理。 Tom 擅长理解用户需求,并将其与技术能力相协调。在加入之前,他曾在 Xanadu 、 Rigetti 等量子计算硬件初创公司和其他量子机器学习软件初创公司担任业务开发和产品管理职务。在致力于将量子计算带给用户之前,他曾在 SEI Investments 从事 FinTech 产品方面的工作。

Takuma Yamaguchi 是 NVIDIA 的 CUDA 数学库小组的高级软件工程师,在那里他致力于 cuStateVec 中量子算法的优化。他拥有东京大学土木工程博士学位。

Shinya Morino 是NVIDIA 高级解决方案架构师,隶属于NVIDIA 人工智能技术中心( NVAITC )。他已经在 NVAITC 中原型化了一个 GPU 加速状态向量模拟器,并正在利用他的知识推动 cuStateVec 的开发。新亚拥有日本东京大学的工程学博士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4693

    浏览量

    102123
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4515

    浏览量

    127595
  • 服务器
    +关注

    关注

    12

    文章

    8349

    浏览量

    83538
收藏 人收藏

    评论

    相关推荐

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    CPU和72个Blackwell GPU,并通过NVIDIA NVLink技术连接。DGX SuperPOD可以通过NVIDIA Quantum InfiniBand连接多个机架,实现
    发表于 05-13 17:16

    电路仿真模拟器怎么

    电路仿真模拟器是电子工程师和学生必备的一类软件工具。通过使用电路仿真模拟器,用户可以在计算机上模拟和分析各种电路设计,从而避免在实际搭建电路
    的头像 发表于 05-04 10:53 1115次阅读

    电路仿真软件如何使用 电路仿真软件有哪些好用

    电路仿真软件是一种通过计算机模拟电路行为的工具,可以帮助工程师和电子爱好者设计、分析和优化电路。它可以帮助用户验证电路设计、预测
    的头像 发表于 05-04 10:51 889次阅读

    电路仿真软件如何使用 电路仿真软件操作流程

    电路仿真软件是一种用于设计、测试和验证电路的工具,它可以模拟实际电路的行为和性能。本文将详细介绍电路仿真软件的使用流程,包括软件的安装、电路
    的头像 发表于 05-04 10:39 825次阅读

    电路仿真是什么意思 电路仿真怎么连线

    电路仿真是一种通过电脑模拟电路行为和性能的技术。 在电路设计过程中,仿真是一个重要的环节,它可以帮助工程师在实际制作之前预测电路的性能和行为
    的头像 发表于 04-21 10:47 1411次阅读

    电路仿真什么软件好

    电路设计和仿真过程中,选择合适的软件工具非常重要。以下是几个常用的电路仿真软件,并对其进行了详细介绍。 SPICE仿真软件: SPICE(Simulation Program
    的头像 发表于 04-21 10:42 1333次阅读

    什么是电路仿真 数字电路仿真软件哪个好用

    电路仿真是指借助计算机软件模拟电路的工作原理和性能的过程。通过电路仿真,可以在不实际进行硬件搭建的情况下,预测和分析电路的功能、稳定性、可靠
    的头像 发表于 04-21 10:26 1539次阅读

    电路仿真分析的方法步骤

    电路仿真分析是一种通过计算机软件模拟电路的工作原理和性能的方法。它可以帮助电路设计师在设计过程中更好地了解和预测电路的行为,减少实际的试错成
    的头像 发表于 04-21 10:25 1049次阅读

    电路仿真原理是什么

    电路仿真原理基于电路的基本物理原理和数学表达式,通过计算机模拟真实电路的行为和特性,以预测和分析电路的性能。
    的头像 发表于 03-29 14:57 546次阅读

    电路仿真设计步骤

    电路仿真设计是一个涉及多个步骤的过程,其主要目标是通过计算机模拟来预测和优化电路的性能。
    的头像 发表于 03-29 14:31 669次阅读

    NVIDIA Blackwell DGX SuperPOD助力万亿级生成式AI计算

    全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构,基于 NVIDIA DGX GB200 系统构建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超级
    发表于 03-21 09:49 117次阅读

    NVIDIA推出搭载GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD™

    NVIDIA 于太平洋时间 3 月 18 日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级
    的头像 发表于 03-21 09:49 453次阅读

    NVIDIA 推出 Blackwell 架构 DGX SuperPOD,适用于万亿参数级的生成式 AI 超级计算

    ——  NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的
    发表于 03-19 10:56 226次阅读
    <b class='flag-5'>NVIDIA</b> 推出 Blackwell 架构 <b class='flag-5'>DGX</b> SuperPOD,适用于万亿参数级的生成式 AI <b class='flag-5'>超级</b><b class='flag-5'>计算</b>

    亚马逊云科技与 NVIDIA 宣布开展战略合作,为生成式 AI 提供全新超级计算基础架构、软件和服务

    NVL32 的 NVIDIA DGX 云 即将登陆亚马逊云科技。 两家公司联合开展“Project Ceiba”合作项目,即全球最快的 GPU 驱动 AI 超级计算机和最新
    的头像 发表于 11-29 21:00 439次阅读
    亚马逊云科技与 <b class='flag-5'>NVIDIA</b> 宣布开展战略合作,为生成式 AI 提供全新<b class='flag-5'>超级</b><b class='flag-5'>计算</b>基础架构、软件和服务

    cuQuantum 与 PennyLane 推动超级计算机上的量子模拟大幅加速

    借助 NVIDIA cuQuantum 和 Xanadu 的 PennyLane,科学家们首次实现了超算规模量子模拟加速。 有很多研究人员
    的头像 发表于 10-27 09:40 221次阅读
    <b class='flag-5'>cuQuantum</b> 与 PennyLane 推动<b class='flag-5'>超级</b><b class='flag-5'>计算</b>机上的<b class='flag-5'>量子</b>模拟大幅加速