0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

单芯片性能不抵拓展性,数据中心的交换矩阵

842221752 来源:电子发烧友 作者:周凯扬 2024-04-04 00:51 次阅读

电子发烧友网报道(文/周凯扬)在现代数据中心架构中,网络和计算设备都部署在两层甚至三层的互联矩阵中,与传统的多层架构不同,数据中心的交换矩阵促成了服务器架构的扁平化,进一步缩短了数据中心内不同端点之间的距离,提高效率的同时,也降低了延迟。

可以说交换矩阵技术决定了数据中心的扩展性,相较传统的网络交换矩阵而言,如今的复杂计算交换矩阵,也就是我们所说的芯片外互联技术,更是提高算力的重要解决方案之一。

英伟达NVLink和NV Switch

与其他公司采用的通用交换矩阵技术不同,英伟达凭借其在互联交换技术上的积累,再结合收购Mellanox获得的技术,为其GPU产品打造并迭代了NVLink和NVSwitch技术。

以目前的英伟达GPU服务器集群为例,集群内的GPU通过NVSwitch交换机,以NVLink来实现互相通信。如今NVLink技术已经发展至第五代,NVSwitch也已经发展至第四代NVLink Switch。

随着GB200的出现,英伟达已经实现了单Blackwell GPU支持18个NVLink连接的可拓展性,也使得总带宽达到了1.8TB/s,是第四代NVLink技术的两倍,更是远超PCIe 5.0。

单个GB200 NVL72服务器更是可以集成72个GB200 GPU,依靠NVLink Switch实现130TB/s的总带宽,这样的可拓展性对于提高现在的大模型训练规模和速度来说尤为重要,NVL72就可以普遍用于训练万亿参数级别的大模型。

AMD Infinity Fabric

虽然很多AI加速器初创企业或英伟达的竞争对手,都会鼓吹单个GPU或加速器的性能本身,但如果不能从扩展性上缩短差距,也很难被云服务厂商和数据中心大规模商用。以英伟达的老对手AMD为例,他们的MI300系列在交换矩阵的支持上由128链路组成,其中64个支持PCIe 5.0和自研的Infinity Fabric,另外64个则仅支持Infinity Fabric。

在单芯片或单个服务器上的性能可能会更加优异,但一旦扩展至数百个服务器的规模下,就很难继续保持优势了。AMD也很清楚自己需要缩小这一差距,但仅仅依靠自身在Infinity Fabric交换矩阵上的积累,很难打通整个生态,所以AMD选择了合作开放一途。

早在去年AMD的Advancing AI大会上,AMD就宣布向生态合作伙伴开放自己的Infinity Fabric IP(XGMI),呼吁别的交换芯片厂商对Infinity Fabric加以支持。比如博通就表示,其下一代PCIe交换芯片,除了支持PCIe、CXL之外,也将支持AMD的Infinity Fabric。

然而这里指的并不是今年下半年才送样的PCIe 6.0交换芯片,Atlas 3系列,而是PCIe 7.0的Atlas 4系列。由此看来,要想真正见到第三方交换矩阵方案支持AMD的Infinity Fabric,还得等到PCIe 7.0正式面世。

写在最后

对于市面上其他的AI加速器而言,开放标准或已有的商用标准是他们的最好选择,比如PCIe、CXL等等。除此之外,据了解一些与缓存一致性相关的专利即将过期,或许对于一些初创公司来说,未来会有开源的高端交换互联方案供他们选择。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    4956

    浏览量

    72674
收藏 人收藏

    评论

    相关推荐

    新思科技助力下一代数据中心AI芯片设计

    Multi-Die设计正成为增强数据中心现代计算性能、可扩展性和灵活性的关键解决方案。通过将传统的单片设计拆分为更小的异构或同构芯片(也称小芯片
    的头像 发表于 02-20 09:17 148次阅读
    新思科技助力下一代<b class='flag-5'>数据中心</b>AI<b class='flag-5'>芯片</b>设计

    华为稳居中国数据中心交换机市场第一

    近日,全球领先的IT市场研究和咨询公司IDC发布了最新的《IDC中国以太网交换机市场跟踪报告,2024Q3》。报告显示,在2024年第三季度,华为CloudEngine系列数据中心交换机以40.4
    的头像 发表于 12-17 09:57 1630次阅读

    诺基亚扩展与微软Azure的数据中心网络供应协议

    的进一步巩固。 作为协议扩展的重要组成部分,诺基亚将向微软Azure提供其最新的7250 IXR-10e平台。该平台以其卓越的性能、灵活性和可扩展性,在数据中心网络中发挥着关键作用。通过提供这一先进平台,诺基亚旨在助力微软Azu
    的头像 发表于 11-22 13:53 301次阅读

    数据中心对MOS管性能的要求

    数据中心作为现代信息技术的核心基础设施,承载着数据存储、处理和传输的重要任务。在这些任务中,MOS管(金属氧化物半导体场效应晶体管)作为关键的电子元件,其性能对数据中心的整体效率和稳定性起着至关重要的作用。本文将详细探讨
    的头像 发表于 10-11 11:22 417次阅读

    怎样保障数据中心不间断电源不断电 提供可靠安全的供配电#数据中心

    数据中心配电系统
    安科瑞王金晶
    发布于 :2024年08月29日 14:51:36

    园区交换机 VS 数据中心交换

    园区交换机和数据中心交换机是交换机领域的两大类别,很多人都很熟悉。但是,这两者之间的区别并不是很清楚。在本文中,我们将对园区交换机和
    的头像 发表于 06-24 15:33 777次阅读
    园区<b class='flag-5'>交换</b>机 VS <b class='flag-5'>数据中心</b><b class='flag-5'>交换</b>机

    数据中心布线标准有什么

    布线标准为设计、构建和维护数据中心基础设施提供了指导方针。它们涵盖了电缆类型、连接器、安装实践等,以确保一致性、可靠性和可扩展性。这些标准由TIA、ISO和BICSI等组织制定,规范布线并影响整个数据中心的设计、建设和运营,以
    的头像 发表于 06-14 10:51 668次阅读

    数据中心交换机购买指南

    由于数据中心网络基础设施变得更加分散,数据中心交换机正在成为一种新型交换机。与传统的三层架构网络的交换机不同,
    的头像 发表于 06-11 16:37 700次阅读

    管理数据中心电缆的技巧

    一个愚蠢的字符串战场。更糟糕的是,可能不知道哪些电缆用于何处,这使得难以确保最佳设备性能并排除问题。 为了确保它看起来不像老鼠在电缆上筑巢,请考虑以下数据中心布线最佳实践: 减少电缆 首先也是最重要的是,运行
    的头像 发表于 04-12 10:21 521次阅读

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    数据中心交换机高速率发展,需要哪些电感与电容元件?

    了大功率数据机架和更高效的数据中心建设,云计算数据中心网络拓扑结构也在持续升级演进,市场对数据中心光互联技术提出了更高速率、更低功耗、更低成本等需求。  
    的头像 发表于 04-05 00:03 3534次阅读

    #mpo光纤跳线 #数据中心光纤跳线

    光纤数据中心
    jf_51241005
    发布于 :2024年03月22日 10:18:31

    rapidio交换芯片是什么

    RapidIO交换芯片是一种基于RapidIO协议的专用交换芯片,它能够实现高速、低延迟的数据传输和交换
    的头像 发表于 03-16 16:40 2641次阅读

    交换机分布缓存_述说数据中心交换机的重要性能指标——缓存

    交换机是数据中心不可缺少的网络设备,在数据中心里发挥着重要作用。在平时使用和采购时,大多数都关注交换机的背板带宽、端口密度、端口速度、协议
    的头像 发表于 03-15 17:39 1057次阅读

    模块化机房:数据中心的未来

    随着数字化转型加速,数据中心已成为企业运营的核心。传统的数据中心面临空间利用不足、能源效率低下、扩展性差和维护成本高等问题。模块化机房应运而生,它不仅克服了传统设计的局限,还为数据中心
    的头像 发表于 03-12 17:26 1083次阅读