NVIDIA 在 Hot Chips 大会展示提升数据中心性能和能效的创新技术-电子发烧友网

来源： NVIDIA

在此次大会期间举行的四场演讲中，NVIDIA 工程师详细介绍了 NVIDIA Blackwell 平台、新的液冷研究成果以及支持芯片设计的 AI 代理。

作为面向产业界和学术界、在处理器及系统架构师领域的深度技术盛会，Hot Chips 已经成为价值万亿美元的数据中心计算市场的一个重要论坛。

在本周举行的 Hot Chips 2024 上，NVIDIA 的高级工程师们展示了为 NVIDIA Blackwell 平台提供动力的最新技术进展，以及新的数据中心液冷研究成果和用于芯片设计的 AI 代理。

他们围绕如下内容展开了介绍：

NVIDIA Blackwell 集合了多种芯片、系统和 NVIDIA CUDA 软件，为跨应用场景、行业和国家的新一代 AI 提供动力。

NVIDIA GB200 NVL72——一个多节点、液冷、机架级扩展解决方案，可连接72个Blackwell GPU 和36个 Grace CPU——提升了AI系统设计的标准。

NVLink 互连技术提供多对多 GPU 间的通信，为生成式 AI 实现创纪录的高吞吐量和低延迟推理。

NVIDIA Quasar 量化系统突破物理极限，加速 AI 计算。

NVIDIA 研究人员正在构建 AI 模型，此模型将协助打造用于 AI 的处理器。

在一场关于 NVIDIA Blackwell 的演讲中，重点介绍了新架构的细节以及在 Blackwell 芯片上运行的生成式 AI 模型的示例。

另外的三场讲座，内容涵盖混合液冷解决方案如何帮助数据中心过渡到能效更高的基础设施，以及包括大语言模型驱动的 AI 代理在内的模型如何帮助工程师设计下一代处理器。

这些演讲共同展示了 NVIDIA 工程师们在数据中心计算和设计的每一个领域都在进行创新，以提供前所未有的性能、能效和优化。

为 Blackwell 做好准备

NVIDIA Blackwell 是全栈计算的极限挑战。它由多个 NVIDIA 芯片组成，包括 Blackwell GPU、Grace CPU、BlueField 数据处理器、ConnectX 智能网卡、NVLink Switch、Spectrum 以太网交换机和 Quantum InfiniBand 交换机。

NVIDIA 架构总监 Ajay Tirumala 和 Raymond Wong 现场首次展示了该平台，并解释了这些技术是如何协同配合，在提高能效的同时为 AI 和加速计算的性能确立新的标准。

多节点 NVIDIA GB200 NVL72 解决方案正是一个恰如其分的例子。LLM 推理需要低延迟、高吞吐量的 token 生成。GB200 NVL72 作为一个统一的系统，为 LLM 工作负载提供最多至 30 倍的推理速度提升，使得实时运行万亿参数模型成为可能。

Tirumala 和 Wong 还探讨了 NVIDIA Quasar 量化系统如何在低精度模型上实现高准确度，并重点介绍了使用 LLM 和视觉生成式 AI 的例子。NVIDIA Quasar 量化系统结合了算法创新、NVIDIA 软件库和工具以及 Blackwell 的第二代 Transformer 引擎。

让数据中心保持“凉爽”

通过风冷和液冷结合的混合冷却，研究人员开发出了更高效和可持续的解决方案，有望让传统风冷数据中心的嗡嗡作响成为历史。

与风冷技术相比，液冷技术能够更高效地为系统散热，从而使计算系统即使在处理大型工作负载时也更容易保持低温状态。液冷设备也比风冷系统占用更少的空间，耗电量更低，从而使数据中心可以在其设施中添加更多服务器机架，以增加更多算力。

NVIDIA 数据中心冷却和基础设施总监 Ali Heydari 介绍了几种混合冷却数据中心的设计方案。

有些设计方案利用液冷单元改造现有的风冷数据中心，为现有机架增加液冷功能提供了一种快速、便捷的解决方案。其它设计方案则需要使用冷却液分配单元，安装管道以直接对芯片进行液体冷却，或者将服务器完全浸入到冷却水箱中。尽管这些设计需要较大的前期投资，但却能够大幅降低能耗和运营成本。

Heydari 还介绍了其团队在 COOLERCHIPS 项目中的工作，这个项目旨在开发先进的数据中心冷却技术。作为该项目的一部分，Heydari 的团队正在使用 NVIDIA Omniverse 平台来创建基于物理的数字孪生，这将帮助他们对能耗和冷却效率进行建模，以优化数据中心设计。

AI 代理助力处理器设计

半导体设计在微观尺度上是一个巨大的挑战。开发尖端处理器的工程师们努力在一个几英寸大的芯片上装进尽可能多的算力，测试物理上可以实现的极限。

通过提高设计质量和生产力、提高人工流程的效率以及自动化处理一些耗时的任务，AI 模型正在为工程师们的工作提供支持。这些模型包括帮助工程师快速分析和改进设计的预测和优化工具，以及可以帮助解答工程师的问题、生成代码、调试设计问题等的 LLM。

NVIDIA 设计自动化研究总监 Mark Ren 在一场讲座中对上述这些模型及其应用进行了总体介绍。在另一场会议中，他还重点介绍了用于芯片设计的基于 AI 代理的系统。

由 LLM 驱动的 AI 代理可以被引导自主完成任务，从而在各行各业解锁广泛的应用。在微处理器设计方面，NVIDIA 研究人员正在开发基于代理的系统，这种系统可以使用定制的电路设计工具进行推理和采取行动，与经验丰富的设计师互动，并从人类和代理积累的经验的数据库中学习。

NVIDIA 专家们不仅正在打造这项技术，也在使用它。Mark Ren 分享了几个例子，包括工程师如何将 AI 代理用于时序报告分析、单元集群优化流程和代码生成。在第一届 IEEE 大语言模型辅助设计国际研讨会（LAD'24）上，这项单元集群优化工作荣膺最佳论文。

【近期会议】

10月30-31日，由宽禁带半导体国家工程研究中心主办的“化合物半导体先进技术及应用大会”将首次与大家在江苏·常州相见，邀您齐聚常州新城希尔顿酒店，解耦产业链市场布局！https://w.lwc.cn/s/uueAru

11月28-29日，“第二届半导体先进封测产业技术创新大会”将再次与各位相见于厦门，秉承“延续去年，创新今年”的思想，仍将由云天半导体与厦门大学联合主办，雅时国际商讯承办，邀您齐聚厦门·海沧融信华邑酒店共探行业发展！诚邀您报名参会：https://w.lwc.cn/s/n6FFne

声明：本网站部分文章转载自网络，转发仅为更大范围传播。转载文章版权归原作者所有，如有异议，请联系我们修改或删除。联系邮箱：viviz@actintl.com.hk，电话：0755-25988573

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5107

浏览量
104461
数据中心

数据中心

+关注

关注
16

文章
4956

浏览量
72674

解锁数据中心效能密码：一站式综合能效管理方案

解锁数据中心效能密码：一站式综合能效管理方案

发表于 03-08 08:13 •46次阅读

解锁<b class='flag-5'>数据中心</b>效能密码：一站式综合<b class='flag-5'>能</b><b class='flag-5'>效</b>管理方案

安科瑞：以综合能效管理解决方案，赋能人工智能时代的数据中心可持续发展

在人工智能与可持续发展的双重浪潮下，安科瑞凭借其综合能效管理解决方案，不仅为数据中心行业提供了降本增效的实践路径，更推动了全球数字基础设施向绿色低碳转型。未来，随着

发表于 02-21 15:37 •170次阅读

安科瑞：以综合<b class='flag-5'>能</b><b class='flag-5'>效</b>管理解决方案，赋能人工智能时代的<b class='flag-5'>数据中心</b>可持续发展

亚马逊云科技推出全新数据中心组件，支持AI创新并进一步提升能效

re:Invent全球大会上，宣布推出一系列数据中心新组件，旨在支持新一代人工智能（AI）创新并满足客户不断变化的需求。亚马逊云科技通过对电源、冷却和硬件设计等进行的一系列创新，构建

发表于 12-11 17:34 •277次阅读

超云亮相2024数据中心标准大会，展示AI全栈推理硬件创新成果

和技术领袖，共同探讨数据中心领域的最新趋势与实践成果。作为专业的数据中心产品和服务提供商，超云受邀参会，展示了全新升级的AI全栈推理硬件创新

发表于 11-22 09:54 •291次阅读

CET中电技术诚邀您参加2024数据中心标准大会

11月20-21日，2024数据中心标准大会将在北京·国家会议中心举办，本次大会以“AI之光照耀未来”为主题，汇聚了来自数据中心全行业的

发表于 11-19 01:03 •471次阅读

安森美推动数据中心能效革新

随着数据中心为了满足人工智能（AI）计算的庞大处理需求而变得越来越耗电，提高能效变得至关重要。与一般的搜索引擎请求相比，搭载AI的引擎需要消耗超过10倍的电力。加快功率半导体的创新以改善能

发表于 11-14 09:41 •329次阅读

爱立信在2024进博会展示5G及6G创新技术

在第七届中国国际进口博览会（进博会）上，全球领先的通信技术企业爱立信再次亮相，展示了其在新一代5G网络硬件、5G-A赋能可编程网络、智慧工厂

发表于 11-11 15:16 •708次阅读

当今数据中心新技术趋势

当今数据中心的新技术趋势正以前所未有的速度推动着行业的变革与创新。随着云计算、大数据、人工智能等技术的快速发展，

发表于 10-24 15:15 •649次阅读

数据中心能效管理系统对配电系统、能耗、温度、蓄电池等运行状态实时监测

数据中心综合能效管理系统采集数据中心中低压配电系统、环境等数据，通过实时监测、控制和预警可以帮助数据中心

发表于 08-22 10:09 •605次阅读

安森美引领数据中心能效革命

在当今数字化转型的浪潮中，数据中心作为支撑人工智能、云计算等关键技术的基础设施，其能耗问题日益凸显。特别是随着AI计算的蓬勃发展，数据中心对电力的需求急剧增加，传统搜索引擎请求相比，AI引擎的电力消耗更是高达十倍以上。因此，

发表于 08-12 11:13 •588次阅读

安森美推出提高数据中心能效的完整电源解决方案

650V MOSFET的强大组合为数据中心应用提供了一种完整解决方案，该方案在更小的封装尺寸下提供了无与伦比的能效和卓越的热性能。

发表于 06-13 11:01 •668次阅读

安森美新一代技术助力数据中心能效提升

在人工智能飞速发展的当下，数据中心为了满足日益增长的计算需求，正面临巨大的电力挑战。能效的提高成为行业关注的焦点，而安森美作为半导体技术的领

发表于 06-11 09:56 •501次阅读

浅析我国数据中心配电系统的能耗及能效水平

浅析我国数据中心配电系统能耗及能效水平张颖姣安科瑞电气股份有限公司上海嘉定201801 摘要：伴随着互联网技术的深入全面发展，在“互联

发表于 04-09 16:09 •432次阅读

网络解码矩阵在会展中心的应用：打造高清展示平台

随着会展行业的蓬勃发展，高清展示平台的需求日益凸显。讯维网络解码矩阵作为一种先进的视频解码技术，正逐渐成为会展中心高清展示平台建设的核心组件

发表于 03-25 17:22 •316次阅读

浅析我国数据中心配电系统能耗及能效水平

浅析我国数据中心配电系统能耗及能效水平张颖姣安科瑞电气股份有限公司上海嘉定201801 摘要：伴随着互联网技术的深入全面发展，在“互联

发表于 03-11 15:48 •429次阅读