0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用NVIDIA HGX H100加速计算数据中心平台应用

星星科技指导员 来源:NVIDIA 作者:William Tsu 2022-04-20 10:54 次阅读

NVIDIA 的使命是加快我们的时代达芬奇和爱因斯坦的工作,并赋予他们解决社会的巨大挑战。随着 人工智能AI )、 高性能计算 ( HPC )和数据分析的复杂性呈指数级增长,科学家需要一个先进的计算平台,能够在一个十年内实现百万次的加速,以解决这些非同寻常的挑战。

为了回答这个需求,我们介绍了NVIDIA HGX H100 ,一个由 NVIDIA Hopper 架构 供电的密钥 GPU 服务器构建块。这一最先进的平台安全地提供了低延迟的高性能,并集成了从网络到数据中心级计算(新的计算单元)的全套功能。

在这篇文章中,我将讨论NVIDIA HGX H100 是如何帮助我们加速计算数据中心平台的下一个巨大飞跃。

HGX H100 8-GPU

HGX H100 8- GPU 是新一代 Hopper GPU 服务器的关键组成部分。它拥有八个 H100 张量核 GPU 和四个第三代 NV 交换机。每个 H100 GPU 都有多个第四代 NVLink 端口,并连接到所有四个 NVLink 交换机。每个 NVSwitch 都是一个完全无阻塞的交换机,完全连接所有八个 H100 Tensor Core GPU 。

The HGX H100 8-GPU represents the key building block of the new Hopper generation GPU server and hosts eight H100 Tensor Core GPUs and four third generation NVSwitch.

图 1 。 HGX H100 8-GPU 的高级框图

NVSwitch 的这种完全连接的拓扑结构使任何 H100 都可以同时与任何其他 H100 通话。值得注意的是,这种通信以每秒 900 千兆字节( GB / s )的 NVLink 双向速度运行,这是当前 PCIe Gen4 x16 总线带宽的 14 倍多。

第三代 NVSwitch 还为集体运营提供了新的硬件加速,多播和 NVIDIA 的网络规模大幅缩减。结合更快的 NVLink 速度,像all-reduce这样的普通人工智能集体操作的有效带宽比 HGX A100 增加了 3 倍。集体的 NVSwitch 加速也显著降低了 GPU 上的负载。

表 1 。将 HGX A100 8- GPU 与新的 HGX H100 8-GPU 进行比较

*注: FP 性能包括稀疏性

HGX H100 8- GPU 支持 NVLink 网络

新兴的 exascale HPC 和万亿参数人工智能模型(用于精确对话人工智能等任务)需要数月的训练,即使是在超级计算机上。将其压缩到业务速度并在数小时内完成培训需要服务器集群中每个 GPU 之间的高速、无缝通信。

为了解决这些大的使用案例,新的 NVLink 和 NVSwitch 旨在使 HGX H100 8- GPU 能够通过新的 NVLink 网络扩展并支持更大的 NVLink 域。 HGX H100 8- GPU 的另一个版本具有这种新的 NVLink 网络支持。

The HGX H100 8-GPU was designed to scale up to support a larger NVLink domain with the new NVLink-Network.

图 2 。支持 NVLink 网络的 HGX H100 8- GPU 的高级框图

使用 HGX H100 8- GPU 和 NVLink 网络支持构建的系统节点可以通过八进制小尺寸可插拔( OSFP ) LinkX 电缆和新的外部 NVLink 交换机完全连接到其他系统。此连接最多支持 256 个 GPU NVLink 域。图 3 显示了集群拓扑。

表 2 。比较 256 个 A100 GPU 吊舱和 256 个 H100 GPU 吊舱

*注: FP 性能包括稀疏性

目标用例和性能优势

随着 HGX H100 计算和网络能力的大幅增加, AI 和 HPC 应用程序的性能得到了极大的提高。

今天的主流 AI 和 HPC 模型可以完全驻留在单个节点的聚合 GPU 内存中。例如, BERT -Large 、 Mask R-CNN 和 HGX H100 是最高效的培训解决方案。

对于更先进、更大的 AI 和 HPC 模型,该模型需要多个聚合 GPU 内存节点才能适应。例如,具有 TB 级嵌入式表的深度学习推荐模型( DLRM )、大量混合专家( MoE )自然语言处理模型,以及具有 NVLink 网络的 HGX H100 加速了关键通信瓶颈,是此类工作负载的最佳解决方案。

图 4 来自 NVIDIA H100 GPU 体系结构 白皮书显示了 NVLink 网络带来的额外性能提升。

所有性能数据都是基于当前预期的初步数据,可能会随着运输产品的变化而变化。 A100 集群: HDR IB 网络。 H100 集群: NDR IB 网络和 NVLink 网络,如图所示。

# GPU :气候建模 1K , LQCD 1K ,基因组学 8 , 3D-FFT 256 , MT-NLG 32 (批次大小: A100 为 4 , 1 秒 H100 为 60 , A100 为 8 , 1.5 和 2 秒 H100 为 64 ), MRCNN 8 (批次 32 ), GPT-3 16B 512 (批次 256 ), DLRM 128 (批次 64K ), GPT-3 16K (批次 512 ), MoE 8K (批次 512 ,每个 GPU 一名专家)​

HGX H100 4-GPU

除了 8- GPU 版本外, HGX 系列还具有一个 4-GPU 版本,该版本直接与第四代 NVLink 连接。

H100 对 H100 点对点对等 NVLink 带宽为 300 GB / s 双向,比今天的 PCIe Gen4 x16 总线快约 5 倍。

HGX H100 4- GPU 外形经过优化,可用于密集 HPC 部署:

多个 HGX H100 4- GPU 可以装在 1U 高液体冷却系统中,以最大化每个机架的 GPU 密度。

带有 HGX H100 4- GPU 的完全无 PCIe 交换机架构直接连接到 CPU ,降低了系统材料清单并节省了电源

对于 CPU 更密集的工作负载, HGX H100 4- GPU 可以与两个 CPU 插槽配对,以提高 CPU 与 GPU 的比率,从而实现更平衡的系统配置。

人工智能和高性能计算的加速服务器平台

NVIDIA 正与我们的生态系统密切合作,在今年晚些时候将基于 HGX H100 的服务器平台推向市场。我们期待着把这个强大的计算工具交给你们,使你们能够以人类历史上最快的速度创新和完成你们一生的工作。

关于作者

William Tsu NVIDIA HGX 数据中心产品线的产品管理。他与客户和合作伙伴合作,将世界上性能最高的人工智能、深度学习和 HPC 服务器平台推向市场。威廉最初加入NVIDIA 是作为一名图形处理器芯片设计师。他是最初的 PCI Express 行业标准规范的共同作者,也是 12 项专利的共同发明人。威廉获得了他的学士学位,硕士学位在计算机科学和 MBA 从加利福尼亚大学,伯克利。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4838

    浏览量

    102683
  • 数据中心
    +关注

    关注

    16

    文章

    4613

    浏览量

    71867
  • 人工智能
    +关注

    关注

    1789

    文章

    46545

    浏览量

    236830
  • H100
    +关注

    关注

    0

    文章

    31

    浏览量

    275
收藏 人收藏

    评论

    相关推荐

    计算数据中心的关系

    计算数据中心之间存在着密切且复杂的关系,它们相互依存、互相促进。 一、数据中心是云计算的基础设施 数据中心是一整套复杂的设施,用于传递、
    的头像 发表于 10-24 16:15 174次阅读

    利用NVIDIA RAPIDS加速DolphinDB Shark平台提升计算性能

    DolphinDB 是一家高性能数据库研发企业,也是 NVIDIA 初创加速计划成员,其开发的产品基于高性能分布式时序数据库,是支持复杂计算
    的头像 发表于 09-09 09:57 372次阅读
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b> RAPIDS<b class='flag-5'>加速</b>DolphinDB Shark<b class='flag-5'>平台</b>提升<b class='flag-5'>计算</b>性能

    Supermicro推出适配NVIDIA Blackwell和NVIDIA HGX H100/H200的机柜级即插即用液冷AI SuperCluster

    制造商,推出可立即部署式液冷型AI数据中心。此数据中心专为云原生解决方案而设计,通过SuperCluster加速各界企业对生成式AI的运用,并针对NVIDIA AI Enterpris
    发表于 06-07 15:12 226次阅读
    Supermicro推出适配<b class='flag-5'>NVIDIA</b> Blackwell和<b class='flag-5'>NVIDIA</b> <b class='flag-5'>HGX</b> <b class='flag-5'>H100</b>/<b class='flag-5'>H</b>200的机柜级即插即用液冷AI SuperCluster

    首批1024块H100 GPU,正崴集团将建中国台湾最大AI计算中心

    中国台湾当地正崴集团5月27日宣布,将与日本公司Ubitus共同打造人工智能(AI)计算中心,其中第一期将导入128个机柜,共计1024张英伟达H100旗舰计算卡,旨在构建台湾最大的AI计算中
    的头像 发表于 05-29 10:05 947次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    冷却技术,提高计算密度,减少占地面积,并通过高带宽、低延迟的GPU通信,有效减少数据中心的碳足迹和能源消耗。相较于传统的NVIDIA H100风冷基础设施,GB200在相同功耗下实现2
    发表于 05-13 17:16

    NVIDIA 通过 CUDA-Q 平台为全球各地的量子计算中心提供加速

    德国、日本和波兰的超级计算利用 Grace-Hopper 和量子-经典加速超算平台推进量子计算研究     德国汉堡 —— 国际超算大会(
    发表于 05-13 15:21 173次阅读
    <b class='flag-5'>NVIDIA</b> 通过 CUDA-Q <b class='flag-5'>平台</b>为全球各地的量子<b class='flag-5'>计算中心</b>提供<b class='flag-5'>加速</b>

    AI计算需求激增,英伟达H100功耗成挑战

    根据预测,若H100的年利用率保持在61%,那么单台设备每年将耗电3740千瓦小时左右。如果英伟达在2023年售出150万块H100,2024年再增加至200万块,那么到2024年底,将有350万块
    的头像 发表于 12-28 09:29 2095次阅读

    浅谈云数据中心、智算数据中心、超算数据中心区别,分布式电源是趋势

    数据中心、智算数据中心、超算数据中心三者区别,分布式电源是趋势 大家都在聊云数据中心、智算数据中心、超
    的头像 发表于 11-29 14:20 1899次阅读
    浅谈云<b class='flag-5'>数据中心</b>、智<b class='flag-5'>算数据中心</b>、超<b class='flag-5'>算数据中心</b>区别,分布式电源是趋势

    英伟达H100,没那么缺货了 !RTX 4090 ,大涨

    这样,在云端使用 H100 GPU 的排队时间可能会缩短。数据中心提供商和前比特币挖矿公司正在开设具有 H100 集群的数据中心。这些公司承诺以大型云提供商成本的一小部分提供
    的头像 发表于 11-23 15:59 1611次阅读

    英伟达推出用于人工智能工作的顶级芯片HGX H200

    近日,英伟达推出了一款用于人工智能工作的顶级芯片HGX H200。新的GPU升级了需求巨大的H100,内存带宽增加了1.4倍,内存容量增加了1.8倍,提高了其处理密集生成人工智能工作的能力。 在
    的头像 发表于 11-15 14:34 1406次阅读

    SC23 | NVIDIA 为全球领先的 AI 计算平台 Hopper 再添新动力

    世界顶级服务器制造商和云服务提供商即将推出 HGX H200 系统与云实例。 11月13日,NVIDIA 宣布推出 NVIDIA HGX
    的头像 发表于 11-14 20:05 413次阅读
    SC23 | <b class='flag-5'>NVIDIA</b> 为全球领先的 AI <b class='flag-5'>计算</b><b class='flag-5'>平台</b> Hopper 再添新动力

    NVIDIA 为全球领先的 AI 计算平台 Hopper 再添新动力

    NVIDIA HGXH200,为 Hopper 这一全球领先的 AI 计算平台再添新动力。NVID
    发表于 11-14 14:30 221次阅读
    <b class='flag-5'>NVIDIA</b> 为全球领先的 AI <b class='flag-5'>计算</b><b class='flag-5'>平台</b> Hopper 再添新动力

    揭秘:英伟达H100最强替代者

    目前,用于高端推理的 GPU 主要有三种:NVIDIA A100NVIDIA H100 和新的 NVIDIA L40S。我们将跳过
    的头像 发表于 11-13 16:13 1481次阅读
    揭秘:英伟达<b class='flag-5'>H100</b>最强替代者

    传英伟达新AI芯片H20综合算力比H100降80%

    但据悉,三种新型AI芯片不是“改良型”,而是“缩小型”。用于ai模型教育的hgx h20的带宽和计算速度是有限的。整体计算能力理论上比nvidia
    的头像 发表于 11-13 09:41 1613次阅读

    英伟达H100的最强替代者

    首先,我们首先要说的是,如果您现在想要训练基础模型(例如 ChatGPT),那么 NVIDIA H100 80GB SXM5 仍然是首选 GPU。一旦基础模型经过训练,通常可以在成本和功耗显着降低的部件上根据特定领域的数据或推理
    的头像 发表于 11-08 15:35 957次阅读
    英伟达<b class='flag-5'>H100</b>的最强替代者