0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达AI服务器NVLink版与PCIe版有何区别?又如何选择呢?

智能计算芯世界 来源:智能计算芯世界 2024-03-19 11:21 次阅读

人工智能领域,英伟达作为行业领军者,推出了两种主要的GPU版本供AI服务器选择——NVLink版(实为SXM版)与PCIe版。这两者有何本质区别?又该如何根据应用场景做出最佳选择呢?让我们深入探讨一下。

** NVLink版的服务器**

SXM架构,全称Socketed Multi-Chip Module,是英伟达专为实现GPU间超高速互连而研发的一种高带宽插座式解决方案。这一独特的设计使得GPU能够无缝对接于英伟达自家的DGX和HGX系统。这些系统针对每一代英伟达GPU(包括最新款的H800、H100、A800、A100以及之前的P100、V100等型号)配备了特定的SXM插座,确保GPU与系统之间实现最高效率的连接。举例来说,一张展示8块A100 SXM卡在浪潮NF5488A5 HGX系统上并行工作的图片,直观展示了这种强大的整合能力。

在HGX系统主板上,8个GPU通过NVLink技术进行了紧密耦合,构建出前所未有的高带宽互联网络。具体来说,每一个H100 GPU会连接至4个NVLink交换芯片,从而实现GPU之间的惊人传输速度——高达900 GB/s的NVLink带宽。此外,每个H100 SXM GPU还通过PCIe接口CPU相连,确保任意GPU产生的数据都能快速传送到CPU进行处理。

wKgZomX5BQCAAGCPAAaUZ9psNS4086.jpg

进一步强化这种高性能互联的是NVSwitch芯片,它把DGX和HGX系统板上的所有SXM版GPU串联在一起,形成了一个高效的GPU数据交换网络。未削减功能的A100 GPU可达到600GB/s的NVLink带宽,而H100更是提升至900GB/s,即便是针对特定市场优化过的A800、H800也能保持400GB/s的高速互连性能。

wKgZomX5BQGAcsa3AAFipZOOabM282.jpg

谈及DGX和HGX的不同之处,NVIDIA DGX可视为出厂预装且高度可扩展的完整服务器解决方案,其在同等体积内的性能表现堪称业界翘楚。多台NVIDIA DGX H800可通过NVSwitch系统轻松组合,形成包含32个乃至64个节点的超级集群SuperPod,足以应对超大规模模型训练的严苛需求。而HGX则属于原始设备制造商(OEM)定制整机方案。

** PCIe版的服务器**

相比于SXM版GPU的全域互联,PCIe版GPU的互联方式更为传统和受限。在这种架构下,GPU仅仅通过NVLink Bridge与相邻的GPU实现直接连接,如图所示,GPU 1仅能直接连接至GPU 2,而非直接相连的GPU(如GPU 1与GPU 8)间的通信则必须通过较慢的PCIe通道来实现,这过程中还需要借助CPU的协助。目前最先进的PCIe标准提供的最大带宽仅为128GB/s,远不及NVLink的超高带宽。

wKgaomX5BQCAFaBNAAMHnYTn5TA366.jpg

然而,尽管在GPU间互联带宽上PCIe版稍逊一筹,但单就GPU卡本身的计算性能而言,PCIe版与SXM版并无显著差异。对于那些并不极端依赖于GPU间高速互连的应用场景,如中小型模型训练、推理应用部署等,GPU间互联带宽的高低并不会显著影响整体性能。

对比A100 PCIe与A100 SXM各项参数的图表显示两者的计算核心性能并无太大差别。

wKgaomX5BQCAIuqBAAILd99fRPs781.jpg

** 该如何选择?**

PCIe版GPU的优势主要体现在其出色的灵活性和适应性。对于工作负载较小、追求GPU数量配置灵活性的用户,PCIe版GPU无疑是个绝佳选择。例如,某些GPU服务器仅需配备4张或者更少的GPU卡,此时采用PCIe版即可方便地实现服务器的小型化,可轻松嵌入1U或2U服务器机箱,同时降低了对数据中心机架空间的要求。

此外,在推理应用部署环境中,我们经常通过虚拟化技术将资源拆分和细粒度分配,实现CPU与GPU的一对一匹配。在这个场景下,PCIe版GPU因其较低的能耗(约300W/GPU)和普遍兼容性而受到青睐。而相比之下,SXM版GPU在HGX架构中的功率消耗可能达到500W/GPU,虽然牺牲了一些能效比,却换取了顶级的互联性能优势。

综上所述,NVLink版(SXM版)GPU与PCIe版GPU各自服务于不同的市场需求。对于对GPU间互连带宽有着极高需求的大规模AI模型训练任务,SXM版GPU凭借其无可匹敌的NVLink带宽和极致性能,成为了理想的计算平台。而对于那些重视灵活性、节约成本、注重适度性能和广泛兼容性的用户,则可以选择PCIe版GPU,它尤其适合轻量级工作负载、有限GPU资源分配以及各类推理应用部署场景。

企业在选购英伟达AI服务器时,务必充分考虑当前业务需求、未来发展规划以及成本效益,合理评估两种GPU 服务器版本的优劣,以便找到最适合自身需求的解决方案。最终的目标是在保证计算效能的同时,最大化投资回报率,并为未来的拓展留足空间。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4862

    浏览量

    102752
  • PCIe
    +关注

    关注

    15

    文章

    1213

    浏览量

    82393
  • 交换芯片
    +关注

    关注

    0

    文章

    81

    浏览量

    10983
  • 英伟达
    +关注

    关注

    22

    文章

    3727

    浏览量

    90753
  • GPU芯片
    +关注

    关注

    1

    文章

    303

    浏览量

    5771

原文标题:英伟达AI服务器NVLink版与PCIe版的差异与选择

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    美国多IP服务器和美国多服务器什么区别

    美国多IP服务器和美国多服务器什么区别 美国多IP服务器和美国多服务器在概念、功能以及应用场
    的头像 发表于 11-11 10:22 85次阅读

    英伟地表最强AI芯片GB200 NVL72服务器遭抢购

    10月28日,最新媒体报道显示,配备有英伟被誉为“地表最强AI芯片”的GB200的AI服务器已开始交付,微软、Meta等行业巨头正积极扩大
    的头像 发表于 10-29 10:42 332次阅读

    微软Azure首获英伟GB200 AI服务器

    微软Azure在社交平台上宣布了一项重要进展,公司已经成功获得了搭载英伟最新GB200超级芯片的AI服务器。这一举措使微软Azure成为全球云服务
    的头像 发表于 10-10 17:01 454次阅读

    英伟AI服务器将革新采用插槽式设计

    英伟AI服务器领域即将迎来重大变革。据里昂证券最新发布的报告预测,从明年下半年起,英伟的旗舰
    的头像 发表于 09-27 11:47 330次阅读

    英伟新业务动向:AI服务器市场的新变局

    在全球AI技术迅猛发展的浪潮中,英伟正积极布局,寻求新的业务增长点。据最新报道,英伟计划为其即将推出的GB200旗舰人工智能芯片设计
    的头像 发表于 06-21 14:11 947次阅读

    鸿海再获AI领域大单,独家供货英伟GB200 NVLink交换

    在人工智能(AI)领域的激烈竞争中,鸿海集团再次传来捷报。继成功获得英伟(NVIDIA)GB200 AI服务器代工订单的大份额后,鸿海又独
    的头像 发表于 06-19 15:04 938次阅读

    进一步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    计算工作负载、释放百亿亿次计算能力和万亿参数人工智能模型的全部潜力提供关键基础。 NVLink释放数万亿参数AI模型的加速性能,显著提升大型多GPU系统的可扩展性。每个英伟Black
    发表于 05-13 17:16

    英伟首次向OpenAI供应AI服务器,鸿海出货预期将增长

    自2017年起,鸿海便开始与英伟合作开发服务器,其中包括世界上首台AI服务器HGX1。值得注意的是,OpenAI成立之初,
    的头像 发表于 04-26 16:18 861次阅读

    全面解读英伟NVLink技术

    NVLink是一种解决服务器内GPU之间通信限制的协议。与传统的PCIe交换机不同,NVLink带宽有限,可以在服务器内的GPU之间实现高速
    发表于 04-22 11:01 1220次阅读
    全面解读<b class='flag-5'>英伟</b><b class='flag-5'>达</b><b class='flag-5'>NVLink</b>技术

    全球最小英伟GH200服务器发布:永擎制造

    服务器搭载英伟Grace及Hopper人工智能GPU,并通过NVLink实现互联功能以提升整体效能。其中,CPU部分采用72个Arm Neoverse V2核心以及480GB容量的
    的头像 发表于 02-27 15:29 637次阅读

    独立服务器和云服务器区别

    独立服务器和云服务器区别是很多用户在选择服务器时要做的课程,那么独立服务器和云
    的头像 发表于 01-17 10:58 796次阅读

    鸿海工业富联与英伟合作多年,覆盖服务器全产业链

    该合作进一步加深,公开资料显示,OpenAI成立之初,英伟CEO黄仁勋曾向特斯拉创始人马斯克赠送一台AI服务器,并在其上签注,这正是工业富联与英伟
    的头像 发表于 01-04 10:04 1236次阅读

    英伟AI服务器需求激增,超低耗损CCL供不应求

    据他介绍,AI 服务器所需的CCL数量大约为普通服务器的8倍之多。随着英伟AI
    的头像 发表于 12-14 09:35 1099次阅读

    英伟AI服务器需求助推生益科技CCL供应

    据悉,AI服务器所需的CCL用量大约是普通服务器的八倍,而当英伟AI
    的头像 发表于 12-13 15:37 1430次阅读

    刀片服务器和机架式服务器的四大区别

    刀片服务器和机架式服务器是两种不同的服务器部署形式,它们在物理设计、密度、可扩展性等方面有一些显著的区别。下面,小编给大家分析一下刀片服务器
    的头像 发表于 11-21 16:23 7798次阅读