0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

千瓦芯片时代的热管理变革

半导体芯科技SiSC 来源:半导体芯科技SiSC 作者:半导体芯科技SiS 2024-01-04 17:36 次阅读

来源:半导体芯科技编译

随着摩尔定律的放缓,芯片,尤其是用于人工智能和高性能计算(HPC)的芯片,逐渐变得炙手可热。2023 年,随着英伟达(Nvidia)GH200 超级芯片的到来,我们看到加速器的功率进入了千瓦级。

我们早已知道这些芯片会很热门--Nvidia 在两年前就已经开始预告这款 CPU-GPU 芯片。直到最近,我们才知道原始设备制造商和系统构建商将如何应对这种功率密集型部件。大多数系统会采用液体冷却吗?还是大多数会坚持使用空气冷却?他们会在一个盒子里塞进多少台这样的加速器,盒子又有多大?

现在,第一批基于 GH200 的系统已经投放市场,很明显,外形尺寸在很大程度上是由功率密度决定的。从根本上说,这取决于散热的表面积有多大。

深入研究 Supermicro、Gigabyte、QCT、Pegatron、HPE 等公司目前提供的系统,您很快就会注意到一个趋势。每个机架单元 (RU) 高达 500 W – Supermicro 的 MGX ARS-111GL-NHR 为 1 kW – 这些系统主要采用风冷。虽然温度较高,但散热负荷仍在可控范围内,每个机架的功率约为 21-24 kW。这完全在现代数据中心供电和热管理能力范围内,尤其是那些使用后门热交换器的数据中心。

但是,当系统制造商开始在每个机箱中安装超过 1 kW的加速器时,情况就会发生变化。此时,我们看到的大多数 OEM 系统都改用了直接液冷技术。例如,Gigabyte的 H263-V11 在一个 2U 机箱中最多可容纳四个 GH200 节点。

也就是说,每个机架单元的功率为 2 kW。因此,虽然像 Nvidia 的风冷 DGX H100 系统(配备 8 个 700 瓦 H100 和双蓝宝石 Rapids CPU)的 TDP 较高,为 10.2 千瓦,但其功率密度实际上较低,为 1.2 kW/RU。

除了能更有效地从这些密集的加速器中传递热量外,液体冷却还有几个优点。系统功率越高,从系统中带走热量所需的静压和气流就越大。这就意味着要使用更热、更快的风扇,从而消耗更多的功率——在某些情况下可能高达系统功率的 20%。

当每个机架单元的功率超过 500 W 时,大多数原始设备制造商和原始设计制造商似乎都会选择液冷机箱,因为冷却网卡、存储和其他外设等低功耗组件所需的风扇数量更少、速度更慢。

只要看看 HPE 的 Cray EX254n 刀片,就能知道液冷机箱的作用有多大。该平台最多可支持四个 GH200。在 1U 的计算刀片中就有 4 千瓦,这还不算用于为芯片提供数据的网卡。

当然,HPE 的 Cray 部门对超高密度计算组件的冷却确实很有心得。不过,这确实说明了系统构建商在服务器上花费的心思,不仅在系统层面,而且在机架层面。

机架级起飞

正如我们之前在介绍 Nvidia DGX H100 系统时提到的那样,为多千瓦服务器单独散热是原始设备制造商非常熟悉的事情。但是,一旦要在机架上安装这些系统,情况就会变得复杂起来,机架电源和设备冷却等因素都会发挥作用。

在我们的同类出版物《下一代平台》(The Next Platform)上,我们深入探讨了像 Digital Reality 这样的数据中心运营商为支持此类系统的密集部署而必须克服的挑战。

在许多情况下,主机托管服务提供商需要重新设计其电源和冷却基础设施,以支持在单个机架中安装四个 DGX H100 系统所需的 40 多千瓦的功率和热量。

但是,如果您的数据中心或主机托管服务提供商无法提供这种功率的机架,也无法承受这种热量,那么在大部分机架都将空置的情况下,将这些系统的密度提高到这种程度就没有多大意义了。

随着 GH200 的推出,我们看到 Nvidia 不再关注单个系统,而是更加关注机架规模的部署。在今年春季的 Computex 上,我们首次看到了 DGX GH200 集群。

该系统实际上由 256 个 2U 节点组成,每个节点都装有一个 GH200 加速器,而不是一堆密集的 GPU 节点。组合起来,该系统能够提供高达 exaFLOPS 的 FP8 性能,但在设施层面的部署要容易得多。现在的功耗不再是 1.2 kW/RU,而是接近 500 W/RU,这与大多数原始设备制造商使用自己的风冷系统时的情况差不多。

最近,我们看到 Nvidia 在今年秋季的 Re:Invent 大会上与 AWS 合作发布了 GH200-NVL32,将其缩小到单个机架。

该系统在一个机架上安装了 16 个 1U 机箱,每个机箱配备两个 GH200 节点,并使用九个 NVLink 交换机托盘将它们连接在一起。不用说,这些计算能力为 2 千瓦/RU 的小系统密度很高,因此从一开始就被设计为液冷系统。

更热的芯片即将上市

虽然我们一直在关注 Nvidia 的 Grace Hopper 超级芯片,但这家芯片制造商并不是唯一一家为追求性能和效率而将 TDP 推向新极限的厂商

本月早些时候,AMD 公布了其最新AI 和 HPC GPU 和 APU,该公司的 Instinct 加速器的功耗从上一代的 560 W 跃升至 760 W。

更重要的是,AMD 首席技术官马克-帕普马斯特(Mark Papermaster)告诉《The Register》,未来几年仍有足够的空间将 TDP 推得更高。

至于这是否会最终促使芯片制造商强制要求其旗舰产品采用液冷技术,目前还没有答案。据 Papermaster 称,AMD 将在其平台上支持空气和液体冷却。但正如我们在 AMD 新的 MI300A APU 上看到的那样,继续选择风冷几乎肯定意味着性能上的让步。

MI300A的额定功率为550瓦,远远低于我们所认为的850瓦,但如果有足够的冷却,它的运行温度会更高。在HPC调整系统中,如HPE、Eviden(Atos)或联想开发的系统,芯片可以配置为760 W。

与此同时,英特尔正在探索使用两相冷却剂和珊瑚启发设计的散热片来冷却 2 千瓦芯片的新方法,以促进气泡的形成。

这家芯片制造商还宣布与基础设施和化学品供应商建立广泛的合作关系,以扩大液体冷却技术的使用范围。该公司最新的合作旨在利用 Vertiv 的泵送两相冷却技术为英特尔即将推出的 Guadi3 AI 加速器开发冷却解决方案。®

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    449

    文章

    48667

    浏览量

    413437
  • amd
    amd
    +关注

    关注

    25

    文章

    5280

    浏览量

    132995
  • AI
    AI
    +关注

    关注

    87

    文章

    27637

    浏览量

    265231
收藏 人收藏

    评论

    相关推荐

    同星智能即将亮相新能源汽车热管理论坛、中国车联网安全大会

    同星一周展会TOSUN.EXHIBIT012024第二届新能源汽车热管理论坛随着新能源汽车市场的迅速扩张和智能化技术的飞跃,汽车热管理系统正经历重大变革。这一变革不仅涵盖传统冷却和空调
    的头像 发表于 06-22 08:21 113次阅读
    同星智能即将亮相新能源汽车<b class='flag-5'>热管理</b>论坛、中国车联网安全大会

    18千瓦380V用多大电容补偿器

    千瓦)和电压(380V),但没有提供功率因数。 如果已知功率因数,可以使用以下公式计算所需的电容补偿器容量: Qc​=P×2πftan(arccos(PFc​))​ 其中: QcQ_cQc​ 是所需的电容器容量(单位为千瓦乘乘乘以乘以,KVAR); PPP 是系统的有用功
    的头像 发表于 06-06 14:26 150次阅读
    18<b class='flag-5'>千瓦</b>380V用多大电容补偿器

    18.5千瓦电机就地补偿需要多大电容

    要确定18.5千瓦电机的就地补偿所需的电容量,需要考虑几个因素,包括电机的功率因数、供电系统的电压和频率等。通常情况下,电机的功率因数越低,就需要更大容量的电容器来进行补偿。 一般来说,电机的就地
    的头像 发表于 05-24 14:09 272次阅读
    18.5<b class='flag-5'>千瓦</b>电机就地补偿需要多大电容

    比亚迪宋PLUS DM-i动力系统更新,电机最大功率降至160千瓦

    值得注意的是,新款比亚迪宋PLUSDM-i的动力系统有所改变。其搭载的型号为“BYD472QC”的发动机,虽然仍为1.5升插电式混合动力系统,但最大功率已由原先的81千瓦降低至74千瓦
    的头像 发表于 05-13 15:45 335次阅读

    电池模组的热管理系统是如何设计的,有哪些高效的热管理方案?

    电池模组的热管理系统是电动汽车和储能系统中至关重要的组成部分。它负责维持电池在最佳工作温度范围内运行,以确保电池的性能、安全性和寿命。
    的头像 发表于 04-17 10:54 253次阅读

    极狐阿尔法S5续航超500公里,四驱版动力390千瓦

     据了解,阿尔法 S5 风阻系数低至 0.1925,四驱版本则配上前+后异步双电机的组合,最大综合功率达到 390 千瓦,综合扭矩为 690 牛・米。配备的四驱功能与多驾驶模式可提供出色的操控体验。
    的头像 发表于 03-27 14:15 272次阅读

    怎么计算电线平方承受的千瓦

    电线是电能传输的重要组成部分,在电力系统中起着关键的作用。为了保护电线线路的安全运行,需要准确计算电线的承载能力。电线的承载能力是指其能够承受的最大功率,通常以千瓦(kW)为单位来表示。本文将详细
    的头像 发表于 01-16 10:53 891次阅读

    电源管理入门:Thermal热管理

    热管理指的是在电子设备或系统中通过各种方式控制其温度来保证其正常工作或延长寿命的过程。其中包括散热设计、温度监测、温度控制等方面。热管理的重要性越来越凸显,尤其在高性能计算、人工智能等领域的应用中更为重要。
    的头像 发表于 11-29 10:09 1875次阅读
    电源<b class='flag-5'>管理</b>入门:Thermal<b class='flag-5'>热管理</b>

    印度首个360千瓦超级充电站由CHARGE+ZONE建成

    首批超级充电站计划于2023年11月在孟买和维洛尔的CCD启用。这些站点配备了180千瓦双枪充电器和360千瓦电源柜。这是该技术首次在印度引入。CHARGE+ZONE的超级充电器旨在将交流(AC)转换为直流(DC),直接向电动汽车电池提供高功率直流电压和电流,以实现快速充
    的头像 发表于 11-21 15:33 434次阅读
    印度首个360<b class='flag-5'>千瓦</b>超级充电站由CHARGE+ZONE建成

    22千瓦的电机用多少平方线?

    22千瓦的电机用多少平方线?本文主要以精准计算和估算两种方法得住结果。
    的头像 发表于 10-23 14:58 1844次阅读

    专家访谈 | 为什么新能源车企都在比拼“热管理”?

    热管理”对于大部份传统车消费者来说,既陌生又无感。但到了纯电汽车时代,由于电池成本很高,电池的能耗成了车企和用户关注的焦点,热管理的重要性就被凸显。新能源汽车为什么需要热管理?目前主
    的头像 发表于 10-08 14:58 815次阅读
    专家访谈 | 为什么新能源车企都在比拼“<b class='flag-5'>热管理</b>”?

    经纬恒润热管理系统研发服务全新升级

    经纬恒润在汽车热管理领域拥有10多年的研发服务经验,针对目前新能源汽车热管理系统设计研发问题,在热管理需求捕获、系统方案设计、虚拟验证与优化、测试验证、实车标定等服务的基础上,将热管理
    的头像 发表于 09-09 17:17 434次阅读
    经纬恒润<b class='flag-5'>热管理</b>系统研发服务全新升级

    千瓦内的开关电源是否有必要做环路调整?

      千瓦内开关电源,环路调整有无必要?
    发表于 07-31 17:50

    经纬恒润热管理系统研发服务全新升级

    针对目前新能源汽车热管理系统设计研发问题,经纬恒润在热管理需求捕获、系统方案设计、虚拟验证与优化、测试验证、实车标定等服务的基础上,将热管理系统与数字孪生技术相结合,带来了全新升级的整车热管理
    的头像 发表于 07-25 16:41 437次阅读
    经纬恒润<b class='flag-5'>热管理</b>系统研发服务全新升级

    电机热管理系统(二)

    “电机热管理系统”目的:优化电机冷却技术的选择和开发,以最大限度地提升的电机指标(重量、体积、成本、效率)。
    发表于 07-18 15:20 492次阅读
    电机<b class='flag-5'>热管理</b>系统(二)