0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超级计算与 HPC 之间的界限日趋模糊

颖脉Imgtec 2025-03-17 10:33 次阅读

本文由半导体产业纵横(ID:ICVIEWS)编译自semiengineering

由于人工智能和分解而加速的性能改进正在推动计算前沿的重大变革。

由于人工智能的普及,超级计算机和高性能计算机变得越来越难以区分,这推动了商业和科学应用性能的巨大提升,也给两者带来了类似的挑战。虽然超级计算和高性能计算 (HPC) 的目标一直很相似(超快处理速度),但它们所服务的市场却截然不同。超级计算机(例如Top 500 榜单上的超级计算机)通常是科学和学术计算的展示,其性能通常以百亿亿次浮点运算来衡量。另一方面,HPC 的目标是更传统的应用,使用高带宽内存、快速处理器通信和每秒大量浮点运算 (FLOPS)。但随着对 AI 训练和推理的关注,这些计算架构之间的相似性正在增加。“从根本上讲,HPC 基于高带宽内存访问、快速且低延迟的处理器间通信以及大量单精度和双精度 FLOPS,”Eliyan 首席架构师 Paul Hylander 解释道。“在过去 20 年中,HPC 一直依靠基于服务器的计算,因为 HPC 的容量不足以证明其本身需要专用网络、处理和内存开发。现在,随着大量资金投入 AI 计算,人们重新重视更高带宽的内存、更高带宽的网络和更好的散热解决方案——以及更重要的,芯片解决方案,以便能够扩展每个节点的计算量。”

如今,超级计算机可以分为两大类。Arteris 产品管理总监 Ashley Stevens 表示:“有些超级计算机纯粹基于处理器,包括配备加速器的超级计算机,通常是 GPU 等。有些问题的代码可以追溯到几年前。有些甚至可以追溯到 20 世纪 60 年代的科学领域,如核建模等,而且只能在通用计算机上运行。但还有一类问题比较新,可以重新编码以在加速器系统上运行。因此,目前,性能最高的系统和最节能的系统将配备加速器,通常是 GPU。”具体来说,超级计算机之所以成为超级计算机,是因为它包含一个具有一致互连的节点,以及一个节点到节点互连,因此它们可以相互通信。“通常使用消息传递接口 (MPI),”史蒂文斯说。“因此,有办法将问题拆分为多个节点,在两个节点之间使用 MPI,或者有时使用远程 DMA (rDMA),其中一台计算机可以将数据 DMA 传输到另一台计算机。这就是超级计算机的定义。它们具有系统间通信。”


混合策略

AI 对超级计算和 HPC 都产生了深远的影响。过去五年来,异构环境中 CPU 和 GPU 的集成发生了重大变化。GPU 曾经主要用于游戏和比特币挖矿,现在已成为加速 AI 计算任务的必备工具。GPU 如此受欢迎的原因在于其可扩展性。

Alphawave Semi ASIC IP 解决方案总监 Shivi Arora 表示:“一切都归结于系统所包含的内核数量。这取决于您是面向 HPC 数据中心,还是关注 DPU/CPU 类型的市场。HPC 和超级计算机都朝着同一个方向发展。系统上可以安装的 CPU 数量决定了您要支持的市场。”这种混合搭配的粒度为混合系统打开了大门,结合了经典计算、超级计算甚至量子计算,以满足各种应用程序的性能、可靠性和安全性需求。是德科技流程和数据管理总经理兼业务部负责人 Simon Rance 表示:“总体而言,超级计算正在不断发展。但量子计算也正在真正获得发展势头。

在高数学类型的计算应用中(需要以非常快、激进的速度进行计算),我们看到越来越多的超级计算进入量子计算。这是量子计算现在真正强大的领域。当它处理来自各种来源的信息时,例如对于人工智能来说,试图理解它试图实时处理的内容,这就是我们看到的超级计算的自然演变。”然而,这加剧了一些常见的挑战。IBM 高性能计算全球负责人 CT Rusert 表示:“当我们对比 5 年前和现在的超级计算机时,会发现它们取得了惊人的进步。我们的超级计算机能够以前所未有的速度进行百亿亿次级的建模计算,而 5 年前我们还做不到这一点。这也带来了挑战。随着我们成为一个更加注重能源和效率的社会,有了这些超级计算机,我们如何让它们更节能呢?”

如今,这些挑战已经跨越到两个计算领域,人工智能对更多马力提出了无尽的需求,以训练多模型并解决庞大而复杂的计算问题。Cadence 战略与新业务集团总监 Rob Knoth 表示:“人工智能工厂的概念,即消费和生产代币,是一项计算密集型的研究。它正像野火一样蔓延,推动整个生态系统发生变化,包括人们对超级计算机的看法、消费设备中可接受的计算量、汽车中的计算规模、人形机器人无人机的计算规模。需要大量的计算,而每种计算对功率计算、热范围、电网连接的要求都不同。它能在无需充电的情况下走动或飞行多长时间?“超级计算机”这个词因人工智能而改变,以及它如何改变人工智能,这真是令人着迷、美丽、可怕和鼓舞。超级计算机的规模使我们能够制作这些新前沿模型,制作这些多模式模型,能够开始谈论物理人工智能,谈论制造一个可维修的人形机器人所需的后果,以及它与汽车中的芯片或新数据中心中的芯片有何不同。”


关键推动因素

这种融合的核心是技术进步,例如高带宽内存、不同芯片内部和之间的高带宽通信以及可大规模扩展的基于小芯片的解决方案。所有这些都是满足人工智能需求的关键,因为人工智能需要强大的计算能力来训练多模态模型和执行推理任务。“在年度超级计算大会上,过去五到七年来一直在讨论融合这个话题,” Rambus研究员、杰出发明家 Steven Woo 表示。“从最高层次来看,如果你看看 500 强榜单中的顶级超级计算机,你会发现它们不仅配备了传统 CPU(例如英特尔AMD 的 CPU),还配备了大量来自英伟达或 AMD 的显卡或 AI 引擎。如果你从高层次看这些专门的 AI 集群,你会发现它们并没有什么不同。至于 AI 引擎与传统 CPU 的比例,这将根据超级计算机或 AI 集群的构成而变化。

但如果从 30,000 英尺的高度来看,它们非常相似。然后你会开始意识到人们在超级计算领域运行的许多基准测试在这些 AI 超级集群上也能很好地运行,反之亦然,因此这引发了更多关于融合的讨论。“是否需要有一类单独的机器专门服务于超级计算市场?同时,人工智能是否变得如此基础以至于这两者正在融合在一起?”这种融合也带来了挑战。由于超级计算机消耗大量电力,因此能源效率和可持续性是主要问题。冷却系统和先进的封装技术对于管理热封套和确保高效电力输送必不可少。此外,数据移动的成本已经高于计算成本,因此需要采用新方法来最大限度地减少数据传输并提高整体系统效率。人工智能中的许多技术驱动因素都进入了超级计算机,反之亦然。“如果你看看超级计算机项目,你会发现它们大多是由国家推动的,”Woo 说。“美国的项目大约每 10 年运行一次。大约每五年左右,就会有一台新的超级计算机问世。因此,五年的时间用于研究和思考原型和其他东西,五年的时间用于执行以构建机器。三个最大的超级计算机项目包括一个由美国赞助的项目,日本一直赞助一个非常大的项目,然后中国有自己的项目。美国上一次做的超级计算机项目被称为 Exascale 项目。美国传统上表示下一个标准将比之前的机器性能高 1,000 倍,它被称为 Exascale。此外,美国政府与工业界合作,为学术界和工业界提供大量投资资金来开发新技术,然后这些技术进入超级计算机。它们也进入了商业产品。”

人工智能也有助于缩小超级计算机和 HPC 之间的性能差距。“NVIDIA 的 Grace Blackwell 去年问世,Rubin 将于今年问世,因此您可以看到这一年的性能进步令人惊叹。两者都是极其重要的技术驱动因素,但人工智能目前似乎处于更快的发展周期。机器之间的目标不一定像超级计算机程序那样崇高,超级计算机程序的目标是性能提高 1,000 倍。在人工智能中,很难逐年做到这一点,但它们确实每一代都取得了巨大的进步。”


数据移动的挑战

超级计算发展面临的另一个压力是数据移动。“十多年来,人们已经充分认识到数据移动是一个大问题。Exascale 计划进行了大量研究,并且有一些很棒的演示,如果你只是遵循技术发展曲线,你会发现数据移动的成本比计算成本更高,”Woo 说。“当时有一些预测,以及经过深思熟虑和非常清晰的研究,它们得出结论,这将是一个问题。有几种方法可以解决这个问题。要么把组件放得更近,要么想办法制造现在人们所说的超级芯片。”

过去,问题在于光罩。“芯片尺寸只能这么大。但现在他们正在寻找方法来超越这个尺寸,将多个光罩大小的芯片拼接在一起,现在它们彼此紧挨着,所以如果你从五英尺外看,它看起来就像一个大芯片,它们连接在一个基板上,”Woo 解释道。“所有这些都是由先进封装和业界一直在研究的基于 HBM 等技术实现的。人工智能、高性能计算和超级计算之间存在着良性互动,其中物理原理没有改变,问题很大,它们之间有细微的差别,但数据移动已被证明是最大的问题之一。你可以从逻辑上说,‘我们不要把数据移动太远’,但这又带来了行业必须解决的其他挑战,比如热问题。你如何处理热问题?我们知道液体冷却注定会在未来几年成为主流。另一个挑战是电力输送。我如何将所有的功率、电流和电压集中到这个相对较小的区域?我们以前不常这样做。这并不是说我们做不到。这更像是寻找经济的方法。你如何以一种非常易于制造的方式来做到这一点?”

所有这些也带来了一些复杂的分区挑战,因为距离会影响获得结果的时间。“我们现在拥有如此强大的处理计算能力,但我们现在面临着处理器之间的延迟问题,以及处理和显示或实时返回结果的问题,”Keysight 的 Rance 说。“这是我们从超级计算发展而来的一部分。这不仅仅是一台超级计算机在计算一些东西。它是信息共享,并将其带回,然后在一毫秒内做出决定。”


准确性现在是个问题

而人工智能又带来了另一个问题。与传统计算不同,人工智能是概率性的。结果基于分布,而分布并不总是完全准确的。这在超级计算中是不可接受的。

“它需要不同的精度,”Arteris 的 Stevens 说。“在科学计算中,通常使用双精度 64 位,偶尔使用 32 位。但这些 AI 东西可能只使用 8 位或 16 位。OpenAI 显然是 AI,而不是传统的超级计算机类型的应用程序,但运行多年前的代码是有要求的。最近很多都是 AI 训练。我过去参与的事情更多是尝试以良好的性能运行 60 年代的旧 Fortran 代码。今天,最高效的机器是带有加速器的机器,因为一般来说,硬件越专业,效率就越高。它越通用,效率就越低。GPU 只适合某些东西。如果某些代码是用 Fortran 编写的,那么完成它并不容易。即使它们支持,虽然它们支持 IEEE 浮点,但它们不一定支持普通计算机支持的所有不同模式和极端情况。因此,它们适用于某些类型的问题,但不一定适用于所有类型的问题。我们现在看到的可能是越来越多的专业化,尤其是在人工智能领域。你已经看到了这一点,人们更专注于一个特定的问题,而不是更通用的计算。这使得它更有效率。”


不仅仅是技术除了技术层面,“超级计算机”一词还具有重要的文化和启发价值。它代表着技术的最前沿,是下一代工程师和科学家的灯塔。

“超级计算机不仅仅与工程有关,”Cadence 的 Knoth 说道。“在超级计算大会上,很多人会告诉你‘超级计算机’的确切科学定义,但我认为这并不重要。‘超级计算机’这个词对于科学交流比对于科学更重要。它具有力量,因为它随着时间而变化。房间里有 ENIAC 的照片,然后人们从口袋里掏出手机说,‘我这里有它。’所以,对我来说,超级计算机这个词在文化和激励背景下比在技术背景下更重要。超级计算机有助于激励下一代工程师。它们是一个有助于使我们的工作民主化以帮助其他人了解工程领域正在发生的事情的术语。超级计算机揭示了最前沿的事物。我们要去哪里?我们为什么要去?我们正在解决哪些真正酷的问题?与许多摆在你面前的东西相比,他们是开拓者。”


能源效率和可持续性的作用

随着超级计算和 HPC 系统的不断发展,能源效率和可持续性已成为关键考虑因素。这些系统的巨大计算能力需要大量的能源。

为了解决这些问题,研究人员和工程师正在开发新技术和新方法,以提高超级计算和 HPC 系统的能源效率。这包括使用先进的冷却系统来管理热包络并降低能耗。此外,他们还在努力优化这些系统的设计和架构,以最大限度地降低功耗并提高整体效率。

很多人认为 HPC 和超级计算面临的最大挑战是能耗和功耗。“举个最坏的例子,微软、OpenAI 和软银宣布的星际之门系统将需要 5 千兆瓦的电力,”Arteris 的史蒂文斯说。“这比英国或美国的任何核电站都要大,尽管世界上也有一些这么大的核电站。在其他国家,典型的核反应堆大约为 1 或 1.5 千兆瓦,因此星际之门将需要其中的三个。建造一座核电站至少需要 10 年。到那时他们还在建造同样的东西吗?我们这个行业的发展非常快,所以你可以想象为它建造一个发电站。你的目标可能不是你 10 年后最终做的事情。最大的挑战之一是功耗。目前顶级超级计算机需要大约 30 兆瓦的电力,有些甚至更多。近 15 年前,我曾参与过一项关于富岳超级计算机的研究。当时,人们认为极限是 10 兆瓦。但现在我们的系统耗电量是 30 兆瓦的三倍,而且他们计划建造一座千兆瓦级的发电厂。因此,能源效率将变得非常重要。计算性能的极限实际上是能耗,而这一点尚未得到真正考虑。”


以不同方式将各个部件组合在一起

超级计算机为大规模异构集成铺平了道路。小芯片概念将这种方法带到了封装级别。

Alphawave Semi 的 chiplet 首席产品线经理 Sue Hung Fung 表示:“我们现在将所有这些不同的东西都放在一个封装中。这只是一个被分解的大型单片芯片。然后我们将所有这些都放入一个封装中,这是一个系统级封装,我们正在为 AI/ML 构建这些东西,因为我们看到数据中心中大量数据的巨大驱动力,并为 AI 进行 LLM 训练和推理。根据我们在计算中放入的内核类型,我们可以从中获得什么样的性能。这将特定于该应用程序用例,取决于内核的类型,取决于您使用多少个内核。”这是一台超级计算机,还是一台高性能计算机?还是介于两者之间?答案并不总是显而易见的,而且随着给定时间内计算量的不断增加,答案也变得越来越不明显。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超级计算
    +关注

    关注

    1

    文章

    40

    浏览量

    11331
  • 人工智能
    +关注

    关注

    1800

    文章

    48138

    浏览量

    242451
  • HPC
    HPC
    +关注

    关注

    0

    文章

    329

    浏览量

    23963
收藏 人收藏

    相关推荐

    康佳特推出高性能COM-HPC模块conga-HPC/cBLS

    德国康佳特,作为嵌入式和边缘计算技术的领先供应商,近日宣布扩展其高性能COM-HPC计算机模块产品线,推出了全新的conga-HPC/cBLS模块。这款模块专为需要强大
    的头像 发表于 02-08 16:49 305次阅读

    HPC计算的技术架构

    HPC计算结合了HPC的强大计算能力和云计算的弹性、可扩展性,为用户提供了按需获取高性能计算
    的头像 发表于 02-05 14:51 164次阅读

    计算HPC软件关键技术

    计算HPC软件关键技术涉及系统架构、处理器技术、操作系统、计算加速、网络技术以及软件优化等多个方面。下面,AI部落小编带您探讨云计算HPC
    的头像 发表于 12-18 11:23 250次阅读

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 12-17 10:19 293次阅读

    计算HPC的关系

    尽管云计算HPC在架构、应用场景和成本效益等方面存在显著差异,但云计算HPC之间并非孤立存在,而是相互补充、协同发展的关系。下面,AI部
    的头像 发表于 12-14 10:35 262次阅读

    中航光电即将亮相2024年全球超级计算大会

    2024年全球超级计算大会将于11月19-21日在美国佐治亚州亚特兰大召开。本次展会为全球制造商和行业用户提供了一个绝佳的交流互动平台,共同探讨HPC及相关领域的技术创新与市场前景。
    的头像 发表于 11-12 17:04 744次阅读

    维谛技术(Vertiv):未来HPC,你想象不到的酷炫变革!

    随着AI技术的迅猛发展,高性能计算HPC)也迎来了新的变革浪潮。在2024全球超级计算机Green500排行榜上,位列前三的超算都采用了“超智融合”的技术理念。
    的头像 发表于 10-30 11:12 413次阅读
    维谛技术(Vertiv):未来<b class='flag-5'>HPC</b>,你想象不到的酷炫变革!

    NVIDIA助力丹麦发布首台AI超级计算

    这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设,是一台 NVIDIA DGX SuperPOD 超级计算机。
    的头像 发表于 10-27 09:42 606次阅读

    计算hpc的主要功能是什么

    计算HPC(High-Performance Computing)是指利用云计算技术来实现高性能计算的一种解决方案。云计算
    的头像 发表于 10-22 10:20 338次阅读

    科研计算HPC平台是什么

    高性能计算平台(HPC平台)是一个利用由成千上万个处理器核心组成的超级计算机或计算机集群来执行复杂计算
    的头像 发表于 10-21 10:43 292次阅读

    云端超级计算机怎么用

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 10-18 10:14 287次阅读

    HPC计算前景

    高性能计算HPC)与云计算的结合,正逐步成为推动科技创新和产业升级的重要引擎。随着数据规模的不断扩大和计算需求的日益复杂,HPC
    的头像 发表于 10-16 10:17 349次阅读

    计算hpc是什么意思

    计算HPC(High-Performance Computing)是指利用云计算技术来实现高性能计算的一种解决方案。
    的头像 发表于 10-15 10:01 526次阅读

    带你了解什么是高性能计算HPC

    受益于HPC更高的速度处理大量数据的能力,全球正在进入HPC大周期,高性能计算的发展水平已经成为衡量一个国家综合实力和高科技发展水平的重要标志,美国、欧盟、日本、英国都高度重视高性能计算
    的头像 发表于 07-20 08:28 835次阅读
    带你了解什么是高性能<b class='flag-5'>计算</b>(<b class='flag-5'>HPC</b>)

    AI是把双刃剑,HPC面临的全新机遇与挑战

    电子发烧友网报道(文/周凯扬)高性能计算也就是HPC(High Performance Computing),是一种利用超级计算机或高性能计算
    的头像 发表于 05-11 00:11 3900次阅读
    AI是把双刃剑,<b class='flag-5'>HPC</b>面临的全新机遇与挑战