0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Cygnus超算成为第一台进入超算top500榜单的GPU、FPGA混合加速超级计算机

DPVg_AI_era 来源:lp 2019-04-21 09:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

异构超级计算机时代已经到来。近日,日本筑波大学上线的Cygnus超算成为第一台进入超算top500榜单的GPUFPGA混合加速超级计算机。在如何让CPU、GPU、FPGA多硬件协调、高效、同步提供算力上迈出了重要一步。

如果说“异构超级计算机”的时代已经到来,那么本月早些时候在日本筑波大学上线的 CPU、GPU、FPGA混合硬件超算系统就是这个时代的首批探索者之一。

这台超算名为Cygnus,由NEC制造,目前在日本筑波大计算科学中心(CCS)运行,由Intel Xeon CPU,Nvidia Tesla GPU和Intel Stratix 10 FPGA共同提供硬件支持。

Cygnus系统架构:所有80个Cygnus节点都配备了两个Xeon“Skylake”黄金 CPU和四个Tesla V100 GPU,同时在32个节点中,还和GPU搭载了两个Stratix 10 FPGA。48个CPU-GPU专用节点称为“Deneb节点”(以最亮的Cygnus A星命名),而32个CPU-GPU-FPGA节点称为Albireo节点(以Cygnus A双星命名)。

FPGA型号为Bittware 520N PCIe卡,供应商为Nallatech,这些“重型”FPGA卡可以提供10 teraflops的单精度性能,以及四组DDR4内存。尤其是,该卡配备了四个100G光纤网络端口,共提供400Gbps带宽,可以通过自身结构直接与其他520N FPGA进行通信。在Cygnus中,可将8×8的2D环形网络中的64个FPGA相互连接。Bittware包括一个板级支持包(BSP),可供OpenCL开发人员使用。

每个Cygnus节点的双精度浮点性能为30 teraflops,其中28个节点算力由四个V100 GPU提供。由两个Stratix 10器件在配备FPGA的节点上提供20个单精度teraflops。整机可提供算力为2.4 petaflop(64位浮点)或5.12 petaflop(32位浮点)算力。

目前,Cygnus正在取代该机构之前使用的COMA,COMA是一款由Intel Xeon CPU和Xeon Phi协处理器驱动的Cray CS300计算机集群。它于2014年组建,今年3月底退役,为Cygnus让位。

Mellanox HDR InfiniBand负责Cygnus上的系统互连,与独立的FPGA网络一样,系统设计人员确保了足够的带宽来进行节点间通信。每个节点使用四个100Gbps HDR通道,连接为全二分fat树网络。InfiniBand网络还用于访问托管在DataDirect Networks ES14KX设备上的2.5 PB Lustre文件系统。

尽管“双加速硬件”的设定很新潮,但其实Cygnus并不是试验机。其组建的主要用途是为宇宙学、粒子物理学、生命科学和人工智能等领域科学研究提供生产力。通过CPUGPUFPGA的组合,力求在实际科学研究中最有效地发挥这些硬件各自的计算优势。

具体来说,GPU负责提供粗粒度并行计算,主要擅长SIMD友好型计算,而FPGA提供细粒度并行计算,更适合应用于非SIMD算法。而对于气候模拟,生物信息学、分子动力学、地球物理学和线性代数中使用的一些特定算法,FPGA已经证明能够实现比CPU、GPU更快、更高效的运算。不过,在科学上可以通过代码同时高效利用这两种架构。

Cygnus系统架构图

Cygnus的目标应用之一是模拟早期宇宙,模拟光源的辐射传输。模拟过程是在一个套为ARGOT的代码中实现的,其中名为“ART”(真实辐射传输)的光线追踪算法是该模拟中的重要部分,ART部分更适合FPGA硬件平台上的大规模运行。

不过,ARGOT的其他部分在GPU上运行更合适,因此利用“双硬件加速”成为最佳解决方案。该应用程序在GPU和FPGA之间使用基于PCIe的直接存储器访问来实现协调,避免了使CPU受到影响而出现延迟。

ART实现是使用相对较高级别的OpenCL实现的,这表明其他开发人员也可以这样做。Bittware方面表示,使用OpenCL实现的用户与严格使用硬件描述语言(HDL)实现的用户进行对比发现,在许多情况下,OpenCL实现在性能方面与后者“足够接近”。

过去几年来,FPGA软件开发的进展促使微软、亚马逊和百度等巨头越来越广泛地采用FPGA硬件,尤其是在机器学习和推理等应用上。

但是,在高性能计算平台中,使用FPGA的设备更少。筑波大学的这台Cygnus将是唯一一个进入超算TOP500榜单的采用FPGA加速的超级计算机。德国帕德博恩大学去年安装了一台使用FPGA的超算,Cray CS500超级计算机,配备了32块Bittware 520N卡,不过该机没有配备GPU。

还有一些其他FPGA式的HPC集群遍布世界各地,包括美国佛罗里达州的CHREC(现改称SHREC)的Nova-G#系统,英国Hartree中心的Maxeler HPC-X以及Catapult 1和TACC的HARP v2计算机集群。

未来是否会有更多更强大的异构超级计算机诞生?这不仅取决于使用者的需求,更多还要取决于硬件厂商和开发者是否继续从上到下推动生态系统建设。

从Bittware的角度来看,关键的推动力一定是来自中间层面的,同时有赖于对高级语言和更成熟的开发工具更充分的支持。目前的好消息是,业界最大的两家FPGA制造商——英特尔和赛林思都在为开发人员提供更好的工具,并将这些工具与下一代FPGA产品整合在一起。

从这一点上看,我们似乎可以对异构超算的未来保持一份谨慎的乐观。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1664

    文章

    22571

    浏览量

    640654
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5321

    浏览量

    136192
  • 超级计算机
    +关注

    关注

    2

    文章

    485

    浏览量

    43522

原文标题:迎接“异构超算”新时代:日本Cygnus超算GPU和FPGA双硬件加持,TOP500榜单只此一台

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    千比特量子计算机横空出世!国产企业进入商业化“快车道”

      电子发烧友网报道(文/莫婷婷)随着人工智能大模型对力需求的指数级爆发,量子计算成为解决算力问题的前沿技术之。随着企业的研发投入,量子计算
    的头像 发表于 04-14 09:07 5819次阅读
    千比特量子<b class='flag-5'>计算机</b>横空出世!国产企业<b class='flag-5'>进入</b>商业化“快车道”

    AI驱动量子化学计算!4100万核心国产取得世界级突破!

    电子发烧友网报道(文/梁浩斌)中国的高光时刻,是2016年到2017年期间,神威·太湖之光连续四次登顶全球超级计算机TOP
    的头像 发表于 10-26 06:15 1.1w次阅读

    基于openEuler平台的CPU、GPUFPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样力支持 方面表现出
    的头像 发表于 04-08 11:02 1376次阅读
    基于openEuler平台的CPU、<b class='flag-5'>GPU</b>与<b class='flag-5'>FPGA</b>异构<b class='flag-5'>加速</b>实战

    上汽大众第一台EA211黄金增程器正式下线

    近日,上汽大众第一台EA211黄金增程器正式下线,并将率先搭载于ID. ERA 9X车型,新车将于3月底正式开启预售。作为MQB平台的核心动力基石之,EA211发动机家族自2011年诞生以来,全国累计保有量已突破2,000万
    的头像 发表于 03-03 16:32 794次阅读

    迈向云端力巅峰:昆仑芯K200 AI加速卡全面解读

    槽位设计,支持从计算机视觉到自然语言处理的混合精度计算。K200与边缘侧K100共享软件生态,实现云边端力协同,为金融、政务等领域提供了高性能国产化
    的头像 发表于 12-14 11:17 2476次阅读
    迈向云端<b class='flag-5'>算</b>力巅峰:昆仑芯K200 AI<b class='flag-5'>加速</b>卡全面解读

    深圳中国首个光量子计算机制造工厂落成

    据央视新闻报道;在24日;深圳南山区国内首个光量子计算机制造工厂正式进入小规模生产阶段,据悉该工厂是隶属于玻色量子;总面积约5000平方米,集研发、制造、测试于体,用于实现光量子计算机
    的头像 发表于 11-25 17:17 2325次阅读

    能发布节点服务器,128颗BM1690芯片组成

    的BM1690芯片组成的128颗芯片节点,每层有16颗芯片,共8层,统装在个服务器里。   节点是通过高速互联技术,将大量服务器芯
    的头像 发表于 08-03 07:33 8378次阅读
    <b class='flag-5'>算</b>能发布<b class='flag-5'>超</b>节点服务器,128颗BM1690芯片组成

    力板卡:驱动智能时代的核心引擎

    在人工智能、大数据和云计算高速发展的今天,力已成为推动技术进步的关键资源。作为力的物理载体,力板卡(如
    的头像 发表于 08-01 10:25 1827次阅读

    NVIDIA助力AI超级计算机Isambard-AI投入使用

    英国布里斯托大学的超级计算机 Isambard-AI 采用 NVIDIA Grace Hopper 超级芯片,其 AI 力达到了 21 ExaFLOPS,不仅是英国最快的系统,同时也
    的头像 发表于 07-28 15:07 1528次阅读

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    ,研究人员用个人电脑构建了强大的集群,甚至改造游戏显卡,把它们用于科学研究。 当今的高性能计算系统专为高速计算而设计,其中许多都采用了 NVIDIA 加速计算技术。在 ISC 2025
    的头像 发表于 06-26 19:39 1493次阅读
    NVIDIA驱动的现代<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>如何突破速度极限并推动科学发展

    【「力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    自家GPU 提出的多卡力互连技术,是早期为了应对深度学习对超高力需求而单卡力不足的局面的解决方案,当然这都是官方用来吹牛的话术。我自己在2019年左右
    发表于 06-18 19:31

    软通智完成亿级A轮融资,加速AI力产业布局

    北京 2025年6月18日 /美通社/ -- 近日,软通动力旗下软通智科技(广东)集团有限公司(以下简称"软通智")完成亿级A轮融资,本轮融资由盛景嘉成创投领投,广发信德、毅达资本等多家知名
    的头像 发表于 06-18 15:37 762次阅读

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨中心(LRZ)将迎来全新超级计算机 Blue Lion,其力比该中心现有的 SuperMUC-NG 高性能
    的头像 发表于 06-12 15:39 1449次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级计算机,其运行 HPC
    的头像 发表于 06-12 15:33 1761次阅读

    加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,力才是硬通货。你有没有发现,现在越来越多的AI企业不光用
    的头像 发表于 06-05 13:39 2029次阅读
    智<b class='flag-5'>算</b><b class='flag-5'>加速</b>卡是什么东西?它真能在AI战场上干掉<b class='flag-5'>GPU</b>和TPU!