0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Cygnus超算成为第一台进入超算top500榜单的GPU、FPGA混合加速超级计算机

DPVg_AI_era 来源:lp 2019-04-21 09:39 次阅读

异构超级计算机时代已经到来。近日,日本筑波大学上线的Cygnus超算成为第一台进入超算top500榜单的GPUFPGA混合加速超级计算机。在如何让CPU、GPU、FPGA多硬件协调、高效、同步提供算力上迈出了重要一步。

如果说“异构超级计算机”的时代已经到来,那么本月早些时候在日本筑波大学上线的 CPU、GPU、FPGA混合硬件超算系统就是这个时代的首批探索者之一。

这台超算名为Cygnus,由NEC制造,目前在日本筑波大计算科学中心(CCS)运行,由Intel Xeon CPU,Nvidia Tesla GPU和Intel Stratix 10 FPGA共同提供硬件支持。

Cygnus系统架构:所有80个Cygnus节点都配备了两个Xeon“Skylake”黄金 CPU和四个Tesla V100 GPU,同时在32个节点中,还和GPU搭载了两个Stratix 10 FPGA。48个CPU-GPU专用节点称为“Deneb节点”(以最亮的Cygnus A星命名),而32个CPU-GPU-FPGA节点称为Albireo节点(以Cygnus A双星命名)。

FPGA型号为Bittware 520N PCIe卡,供应商为Nallatech,这些“重型”FPGA卡可以提供10 teraflops的单精度性能,以及四组DDR4内存。尤其是,该卡配备了四个100G光纤网络端口,共提供400Gbps带宽,可以通过自身结构直接与其他520N FPGA进行通信。在Cygnus中,可将8×8的2D环形网络中的64个FPGA相互连接。Bittware包括一个板级支持包(BSP),可供OpenCL开发人员使用。

每个Cygnus节点的双精度浮点性能为30 teraflops,其中28个节点算力由四个V100 GPU提供。由两个Stratix 10器件在配备FPGA的节点上提供20个单精度teraflops。整机可提供算力为2.4 petaflop(64位浮点)或5.12 petaflop(32位浮点)算力。

目前,Cygnus正在取代该机构之前使用的COMA,COMA是一款由Intel Xeon CPU和Xeon Phi协处理器驱动的Cray CS300计算机集群。它于2014年组建,今年3月底退役,为Cygnus让位。

Mellanox HDR InfiniBand负责Cygnus上的系统互连,与独立的FPGA网络一样,系统设计人员确保了足够的带宽来进行节点间通信。每个节点使用四个100Gbps HDR通道,连接为全二分fat树网络。InfiniBand网络还用于访问托管在DataDirect Networks ES14KX设备上的2.5 PB Lustre文件系统。

尽管“双加速硬件”的设定很新潮,但其实Cygnus并不是试验机。其组建的主要用途是为宇宙学、粒子物理学、生命科学和人工智能等领域科学研究提供生产力。通过CPUGPUFPGA的组合,力求在实际科学研究中最有效地发挥这些硬件各自的计算优势。

具体来说,GPU负责提供粗粒度并行计算,主要擅长SIMD友好型计算,而FPGA提供细粒度并行计算,更适合应用于非SIMD算法。而对于气候模拟,生物信息学、分子动力学、地球物理学和线性代数中使用的一些特定算法,FPGA已经证明能够实现比CPU、GPU更快、更高效的运算。不过,在科学上可以通过代码同时高效利用这两种架构。

Cygnus系统架构图

Cygnus的目标应用之一是模拟早期宇宙,模拟光源的辐射传输。模拟过程是在一个套为ARGOT的代码中实现的,其中名为“ART”(真实辐射传输)的光线追踪算法是该模拟中的重要部分,ART部分更适合FPGA硬件平台上的大规模运行。

不过,ARGOT的其他部分在GPU上运行更合适,因此利用“双硬件加速”成为最佳解决方案。该应用程序在GPU和FPGA之间使用基于PCIe的直接存储器访问来实现协调,避免了使CPU受到影响而出现延迟。

ART实现是使用相对较高级别的OpenCL实现的,这表明其他开发人员也可以这样做。Bittware方面表示,使用OpenCL实现的用户与严格使用硬件描述语言(HDL)实现的用户进行对比发现,在许多情况下,OpenCL实现在性能方面与后者“足够接近”。

过去几年来,FPGA软件开发的进展促使微软、亚马逊和百度等巨头越来越广泛地采用FPGA硬件,尤其是在机器学习和推理等应用上。

但是,在高性能计算平台中,使用FPGA的设备更少。筑波大学的这台Cygnus将是唯一一个进入超算TOP500榜单的采用FPGA加速的超级计算机。德国帕德博恩大学去年安装了一台使用FPGA的超算,Cray CS500超级计算机,配备了32块Bittware 520N卡,不过该机没有配备GPU。

还有一些其他FPGA式的HPC集群遍布世界各地,包括美国佛罗里达州的CHREC(现改称SHREC)的Nova-G#系统,英国Hartree中心的Maxeler HPC-X以及Catapult 1和TACC的HARP v2计算机集群。

未来是否会有更多更强大的异构超级计算机诞生?这不仅取决于使用者的需求,更多还要取决于硬件厂商开发者是否继续从上到下推动生态系统建设。

从Bittware的角度来看,关键的推动力一定是来自中间层面的,同时有赖于对高级语言和更成熟的开发工具更充分的支持。目前的好消息是,业界最大的两家FPGA制造商——英特尔和赛林思都在为开发人员提供更好的工具,并将这些工具与下一代FPGA产品整合在一起。

从这一点上看,我们似乎可以对异构超算的未来保持一份谨慎的乐观。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1626

    文章

    21678

    浏览量

    602006
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4703

    浏览量

    128725
  • 超级计算机
    +关注

    关注

    2

    文章

    460

    浏览量

    41925

原文标题:迎接“异构超算”新时代:日本Cygnus超算GPU和FPGA双硬件加持,TOP500榜单只此一台

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    TOP500第二E级算出现,AMD要在HPC上逆袭英特尔?

    电子发烧友网报道(文/周凯扬)在今年的ISC2024上,新期的TOP500全球榜单发布。除了瑞典
    的头像 发表于 05-15 09:11 2363次阅读
    <b class='flag-5'>TOP500</b>第二<b class='flag-5'>台</b>E级<b class='flag-5'>超</b>算出现,AMD要在HPC上逆袭英特尔?

    NVIDIA加速全球大多数超级计算机推动科技进步

    HPCwire 读者和编辑选择奖。 自 2006 年发布 CUDA 以来,NVIDIA 不断推动 AI 和加速计算的进步,最新发布的全球最强超级计算机
    的头像 发表于 11-24 14:38 230次阅读
    NVIDIA<b class='flag-5'>加速</b>全球大多数<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>推动科技进步

    NVIDIA助力丹麦发布首台AI超级计算机

    这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设,是一台 NVIDIA DGX SuperPOD 超级计算机
    的头像 发表于 10-27 09:42 395次阅读

    力芯片 高性能 CPU/GPU/NPU 微架构分析》第1-4章阅读心得——力之巅:从基准测试到CPU微架构的深度探索

    尤为贴切。TOP500的演变历程,从最初的向量超级计算机到如今的异构并行系统,就是生动诠释这点的写照。TOP500采用HPL基准测试来评估
    发表于 10-19 01:21

    【「力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    EPYC9004处理器 6.7 Sapphire Rapids 微架构Xeon处理器 6.8 Tesla Dojo超级计算机和D处理器 第7章 从图形到计算GPU 架构演进 7
    发表于 10-15 22:08

    名单公布!【书籍评测活动NO.43】 力芯片 | 高性能 CPU/GPU/NPU 微架构分析

    和像素统的G80到现在重金难求的H100;AMD的Zen系列CPU和RDNA系列GPU两线作战;中国的高性能计算芯片逐步获得更多TOP500排名;华为Ascend 910 NPU芯片
    发表于 09-02 10:09

    预定下代第一?富士通144核Arm处理器公开

    电子发烧友网报道(文/周凯扬)相信对市场有过定了解的朋友,都对曾经的第一名富岳不陌生。
    的头像 发表于 06-24 00:26 2708次阅读
    预定下代<b class='flag-5'>超</b><b class='flag-5'>算</b><b class='flag-5'>第一</b>?富士通144核Arm处理器公开

    这个“六一”,起组装人生第一台量子计算机

    自主量子计算机群开放授课活动”上30多名少先队员在“本源悟空”硬件研制团队负责人孔伟成博士的指导下动手组装人生第一台量子计算机与中国第三代自主超导量子计算机“本源悟
    的头像 发表于 06-02 08:22 276次阅读
    这个“六一”,<b class='flag-5'>一</b>起组装人生<b class='flag-5'>第一台</b>量子<b class='flag-5'>计算机</b>

    QPU与GPU,经典和量子计算的协同

    真正应用起来还有相当远的距离,但量子计算方面的推进刻也没有停下,国内外不少企业和研究机构都在推进量子计算方面的研究。   量子计算QPU   ISC上,Nvidia表示正在
    的头像 发表于 05-21 01:35 2437次阅读

    NVIDIA和Recursion利用AI超级计算机加快新药研发

    BioHive 由 NVIDIA AI 驱动,用于加速医疗领域科学家的工作。在全球超级计算机 TOP500 榜单中,它的排名上升了 100
    的头像 发表于 05-16 09:46 1235次阅读
    NVIDIA和Recursion利用AI<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>加快新药研发

    最新Top500榜单公布:Frontier再夺魁首,Aurora破百亿大关

    此次Top500排行榜中只有个显著变动:瑞士国家超级计算机中心的Alps凭借270 PFl
    的头像 发表于 05-14 09:36 763次阅读

    中国第三代自主超导量子计算机“本源悟空”入驻国家互联网

    中国第三代自主超导量子计算机“本源悟空”日前正式入驻国家互联网平台,中国最先进的量子力、超级
    的头像 发表于 04-04 08:21 292次阅读
    中国第三代自主超导量子<b class='flag-5'>计算机</b>“本源悟空”入驻国家<b class='flag-5'>超</b><b class='flag-5'>算</b>互联网

    埃尼集团宣布启动HPC6超级计算机项目,预计最高力达600 PFlop/s 

    据了解,Eni 是全球知名石油巨头之,同时也是意大利规模最大的三家企业之,其股权结构中有约三分之来自意大利政府。其目前已有两超级
    的头像 发表于 01-30 13:43 517次阅读

    欧盟首台百亿亿次级超级计算机JUPITER建设成果显著,进入新阶段

    欧洲超级计算机联盟 EuroHPC JU 曾于 2023 年 10 月宣布,将投资 2.73 亿欧元打造欧洲第一台超大规模超级计算机——JU
    的头像 发表于 01-25 14:40 550次阅读

    详细解读GPU的起源及发展

    最早的力引擎。是人类的大脑,后来演变成草绳、石头、算筹(种用于计算的小棍子)、算盘。到了20世纪40年代,世界上第一台数字式电子计算机E
    发表于 12-25 10:07 2288次阅读
    详细解读<b class='flag-5'>GPU</b>的起源及发展