0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

千瓦芯片时代的热管理变革

半导体芯科技SiSC 来源:半导体芯科技SiSC 作者:半导体芯科技SiS 2024-01-04 17:36 次阅读

来源:半导体芯科技编译

随着摩尔定律的放缓,芯片,尤其是用于人工智能和高性能计算(HPC)的芯片,逐渐变得炙手可热。2023 年,随着英伟达(Nvidia)GH200 超级芯片的到来,我们看到加速器的功率进入了千瓦级。

我们早已知道这些芯片会很热门--Nvidia 在两年前就已经开始预告这款 CPU-GPU 芯片。直到最近,我们才知道原始设备制造商和系统构建商将如何应对这种功率密集型部件。大多数系统会采用液体冷却吗?还是大多数会坚持使用空气冷却?他们会在一个盒子里塞进多少台这样的加速器,盒子又有多大?

现在,第一批基于 GH200 的系统已经投放市场,很明显,外形尺寸在很大程度上是由功率密度决定的。从根本上说,这取决于散热的表面积有多大。

深入研究 Supermicro、Gigabyte、QCT、Pegatron、HPE 等公司目前提供的系统,您很快就会注意到一个趋势。每个机架单元 (RU) 高达 500 W – Supermicro 的 MGX ARS-111GL-NHR 为 1 kW – 这些系统主要采用风冷。虽然温度较高,但散热负荷仍在可控范围内,每个机架的功率约为 21-24 kW。这完全在现代数据中心供电和热管理能力范围内,尤其是那些使用后门热交换器的数据中心。

但是,当系统制造商开始在每个机箱中安装超过 1 kW的加速器时,情况就会发生变化。此时,我们看到的大多数 OEM 系统都改用了直接液冷技术。例如,Gigabyte的 H263-V11 在一个 2U 机箱中最多可容纳四个 GH200 节点。

也就是说,每个机架单元的功率为 2 kW。因此,虽然像 Nvidia 的风冷 DGX H100 系统(配备 8 个 700 瓦 H100 和双蓝宝石 Rapids CPU)的 TDP 较高,为 10.2 千瓦,但其功率密度实际上较低,为 1.2 kW/RU。

除了能更有效地从这些密集的加速器中传递热量外,液体冷却还有几个优点。系统功率越高,从系统中带走热量所需的静压和气流就越大。这就意味着要使用更热、更快的风扇,从而消耗更多的功率——在某些情况下可能高达系统功率的 20%。

当每个机架单元的功率超过 500 W 时,大多数原始设备制造商和原始设计制造商似乎都会选择液冷机箱,因为冷却网卡、存储和其他外设等低功耗组件所需的风扇数量更少、速度更慢。

只要看看 HPE 的 Cray EX254n 刀片,就能知道液冷机箱的作用有多大。该平台最多可支持四个 GH200。在 1U 的计算刀片中就有 4 千瓦,这还不算用于为芯片提供数据的网卡。

当然,HPE 的 Cray 部门对超高密度计算组件的冷却确实很有心得。不过,这确实说明了系统构建商在服务器上花费的心思,不仅在系统层面,而且在机架层面。

机架级起飞

正如我们之前在介绍 Nvidia DGX H100 系统时提到的那样,为多千瓦服务器单独散热是原始设备制造商非常熟悉的事情。但是,一旦要在机架上安装这些系统,情况就会变得复杂起来,机架电源和设备冷却等因素都会发挥作用。

在我们的同类出版物《下一代平台》(The Next Platform)上,我们深入探讨了像 Digital Reality 这样的数据中心运营商为支持此类系统的密集部署而必须克服的挑战。

在许多情况下,主机托管服务提供商需要重新设计其电源和冷却基础设施,以支持在单个机架中安装四个 DGX H100 系统所需的 40 多千瓦的功率和热量。

但是,如果您的数据中心或主机托管服务提供商无法提供这种功率的机架,也无法承受这种热量,那么在大部分机架都将空置的情况下,将这些系统的密度提高到这种程度就没有多大意义了。

随着 GH200 的推出,我们看到 Nvidia 不再关注单个系统,而是更加关注机架规模的部署。在今年春季的 Computex 上,我们首次看到了 DGX GH200 集群。

该系统实际上由 256 个 2U 节点组成,每个节点都装有一个 GH200 加速器,而不是一堆密集的 GPU 节点。组合起来,该系统能够提供高达 exaFLOPS 的 FP8 性能,但在设施层面的部署要容易得多。现在的功耗不再是 1.2 kW/RU,而是接近 500 W/RU,这与大多数原始设备制造商使用自己的风冷系统时的情况差不多。

最近,我们看到 Nvidia 在今年秋季的 Re:Invent 大会上与 AWS 合作发布了 GH200-NVL32,将其缩小到单个机架。

该系统在一个机架上安装了 16 个 1U 机箱,每个机箱配备两个 GH200 节点,并使用九个 NVLink 交换机托盘将它们连接在一起。不用说,这些计算能力为 2 千瓦/RU 的小系统密度很高,因此从一开始就被设计为液冷系统。

更热的芯片即将上市

虽然我们一直在关注 Nvidia 的 Grace Hopper 超级芯片,但这家芯片制造商并不是唯一一家为追求性能和效率而将 TDP 推向新极限的厂商

本月早些时候,AMD 公布了其最新AI 和 HPC GPU 和 APU,该公司的 Instinct 加速器的功耗从上一代的 560 W 跃升至 760 W。

更重要的是,AMD 首席技术官马克-帕普马斯特(Mark Papermaster)告诉《The Register》,未来几年仍有足够的空间将 TDP 推得更高。

至于这是否会最终促使芯片制造商强制要求其旗舰产品采用液冷技术,目前还没有答案。据 Papermaster 称,AMD 将在其平台上支持空气和液体冷却。但正如我们在 AMD 新的 MI300A APU 上看到的那样,继续选择风冷几乎肯定意味着性能上的让步。

MI300A的额定功率为550瓦,远远低于我们所认为的850瓦,但如果有足够的冷却,它的运行温度会更高。在HPC调整系统中,如HPE、Eviden(Atos)或联想开发的系统,芯片可以配置为760 W。

与此同时,英特尔正在探索使用两相冷却剂和珊瑚启发设计的散热片来冷却 2 千瓦芯片的新方法,以促进气泡的形成。

这家芯片制造商还宣布与基础设施和化学品供应商建立广泛的合作关系,以扩大液体冷却技术的使用范围。该公司最新的合作旨在利用 Vertiv 的泵送两相冷却技术为英特尔即将推出的 Guadi3 AI 加速器开发冷却解决方案。®

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    455

    文章

    50714

    浏览量

    423147
  • amd
    amd
    +关注

    关注

    25

    文章

    5466

    浏览量

    134091
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268886
收藏 人收藏

    评论

    相关推荐

    芯导科技GaN/SiC电源产品推荐

    智能时代,人们对电源的需求充溢着生活的方方面面。随着人工智能和生成式AI的发展,小到几十的PD充电头,大到数百、上千瓦的工业电源及服务器电源,在全球能源
    的头像 发表于 11-19 09:36 241次阅读
    芯导科技GaN/SiC电源产品推荐

    简述智慧供热管理服务平台

    智慧供热管理服务平台是一个集成了现代信息技术、物联网技术和大数据分析等先进技术的综合管理系统,旨在提高供热效率、优化能源利用、确保居民温暖过冬。以下是对智慧供热管理服务平台的详细解读: 一、平台概述
    的头像 发表于 11-15 11:42 270次阅读
    简述智慧供<b class='flag-5'>热管理</b>服务平台

    联发科携手台积电、新思科技迈向2nm芯片时代

    近日,联发科在AI相关领域的持续发力引起了业界的广泛关注。据悉,联发科正采用新思科技以AI驱动的电子设计自动化(EDA)流程,用于2nm制程上的先进芯片设计,这一举措标志着联发科正朝着2nm芯片时代迈进。
    的头像 发表于 11-11 15:52 513次阅读

    soc设计中的热管理技巧

    1. 引言 SoC设计中的热管理是确保设备在各种工作条件下正常运行的基础。随着晶体管尺寸的缩小和集成度的提高,芯片的功耗和热密度不断增加,对热管理提出了更高的要求。有效的热管理可以延长
    的头像 发表于 11-10 09:34 272次阅读

    1250千瓦变压器承载多大电流

    1250千瓦(应为伏安,即1250kVA)的变压器所能承载的电流大小取决于其额定电压。以下是基于不同额定电压下的电流承载能力的分析: 一次侧(高压侧)电流承载能力 : 若一次侧额定电压为10kV
    的头像 发表于 09-30 10:55 1721次阅读

    80的变压器可以带多少个千瓦

    80的变压器指的是变压器的额定容量为80伏安(kVA)。要计算它可以带多少个千瓦(kW),需要考虑变压器的效率、负载类型、功率因数等因素。 变压器的基本原理 变压器是一种利用电磁感应原理实现电能
    的头像 发表于 08-25 16:10 3158次阅读

    热管理需求显著增加!VC和热管的优势在哪里?

    带来的器件失效,导热硅脂、导热凝胶、石墨导热片、热管和VC均热板等技术相继出现、持续演进,散热管理已经成为5G时代电子器件的“硬需求”。 由于在散热效率方面极具优势,VC均热板已逐渐成为5G手机散热的主流方案,并加速向超薄化、结
    的头像 发表于 07-12 11:54 574次阅读
    <b class='flag-5'>热管理</b>需求显著增加!VC和<b class='flag-5'>热管</b>的优势在哪里?

    同星智能即将亮相新能源汽车热管理论坛、中国车联网安全大会

    同星一周展会TOSUN.EXHIBIT012024第二届新能源汽车热管理论坛随着新能源汽车市场的迅速扩张和智能化技术的飞跃,汽车热管理系统正经历重大变革。这一变革不仅涵盖传统冷却和空调
    的头像 发表于 06-22 08:21 375次阅读
    同星智能即将亮相新能源汽车<b class='flag-5'>热管理</b>论坛、中国车联网安全大会

    18千瓦380V用多大电容补偿器

    千瓦)和电压(380V),但没有提供功率因数。 如果已知功率因数,可以使用以下公式计算所需的电容补偿器容量: Qc​=P×2πftan(arccos(PFc​))​ 其中: QcQ_cQc​ 是所需的电容器容量(单位为千瓦乘乘乘以乘以,KVAR); PPP 是系统的有用功
    的头像 发表于 06-06 14:26 437次阅读
    18<b class='flag-5'>千瓦</b>380V用多大电容补偿器

    18.5千瓦电机就地补偿需要多大电容

    要确定18.5千瓦电机的就地补偿所需的电容量,需要考虑几个因素,包括电机的功率因数、供电系统的电压和频率等。通常情况下,电机的功率因数越低,就需要更大容量的电容器来进行补偿。 一般来说,电机的就地
    的头像 发表于 05-24 14:09 863次阅读
    18.5<b class='flag-5'>千瓦</b>电机就地补偿需要多大电容

    比亚迪宋PLUS DM-i动力系统更新,电机最大功率降至160千瓦

    值得注意的是,新款比亚迪宋PLUSDM-i的动力系统有所改变。其搭载的型号为“BYD472QC”的发动机,虽然仍为1.5升插电式混合动力系统,但最大功率已由原先的81千瓦降低至74千瓦
    的头像 发表于 05-13 15:45 932次阅读

    电池模组的热管理系统是如何设计的,有哪些高效的热管理方案?

    电池模组的热管理系统是电动汽车和储能系统中至关重要的组成部分。它负责维持电池在最佳工作温度范围内运行,以确保电池的性能、安全性和寿命。
    的头像 发表于 04-17 10:54 859次阅读

    极狐阿尔法S5续航超500公里,四驱版动力390千瓦

     据了解,阿尔法 S5 风阻系数低至 0.1925,四驱版本则配上前+后异步双电机的组合,最大综合功率达到 390 千瓦,综合扭矩为 690 牛・米。配备的四驱功能与多驾驶模式可提供出色的操控体验。
    的头像 发表于 03-27 14:15 564次阅读

    怎么计算电线平方承受的千瓦

    电线是电能传输的重要组成部分,在电力系统中起着关键的作用。为了保护电线线路的安全运行,需要准确计算电线的承载能力。电线的承载能力是指其能够承受的最大功率,通常以千瓦(kW)为单位来表示。本文将详细
    的头像 发表于 01-16 10:53 2176次阅读

    路特斯纯电轿车Emeya开启预订,预售价80万元起

    该车配备前后双电机,前电机最大输出功率225千瓦,后电机最大输出功率450千瓦,峰值扭矩985牛·米。该车拥有102千瓦时电池组,CLTC工况续航里程超过600公里,350千瓦快速充电
    的头像 发表于 12-27 14:45 652次阅读