0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

奇异摩尔赋能万卡集群互联

奇异摩尔 来源:奇异摩尔 2024-09-19 13:03 次阅读

近日,IntelAMD博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、Meta和微软(Microsoft)在内的八家公司宣布他们已经为人工智能数据中心网络制定了新的互联技术UALink(Ultra Accelerator Link),以打破英伟达NVLink技术垄断的消息受到了广泛的关注。

“本期奇说芯语Kiwi Talks 将从万卡集群大模型算力需求的挑战说起,来解读这场军备赛的背后原理…”

智算网络催生万卡集群

随着大模型的持续爆发,其对算力的需求也在迅猛增长,这促使算力集群不断向万卡以上的规模演进。这一趋势不仅代表着计算能力的飞跃,也对网络提出了前所未有的超高要求。

万卡集群是指由一万张及以上的加速卡(包括GPU、TPU及其他专用AI加速芯片)组成的高性能计算系统,主要用于加速人工智能模型的训练和推理过程。这种集群的构建旨在解决大模型训练对算力需求的巨大增长问题,尤其是现在模型参数量从百亿级、千亿级迈向万亿级。大模型的训练和推理任务需要海量的计算资源和高效的网络连接。

万卡级别的算力集群意味着将有数以万计的高性能计算节点协同工作,它们之间的数据传输和同步必须达到毫秒级甚至微秒级的延迟,以确保模型训练的高效性和准确性。首先,大模型训练对于GPU之间的互联通信要求极高,无论是机内GPU的通信还是服务器之间的GPU通信。特别是在模型并行和数据并行等模式下,通信数据量更是达到了百GB级别。因此,网络必须支持高速互联协议,并且能够提供足够的单端口带宽和总带宽。

我们知道PCIe(Peripheral Component Interconnect Express):它是一种计算机总线标准,用于在计算机内部连接各种设备和组件(例如显卡、存储设备、扩展卡等)。PCIe接口以串行方式传输数据,具有较高的通信带宽,适用于连接各种设备。然而,由于其基于总线结构,同时连接多个设备时可能会受到带宽的限制受限于带宽、延迟、数据传输效率,已成为大规模计算集群的互联瓶颈。

英伟达NVLink的无损网络护城河

英伟达的NVLink是其开发并推出的一种总线及其通信协议。NVLink采用点对点结构、串列传输,用于中央处理器CPU)与图形处理器(GPU)之间的连接,也可用于多个图形处理器之间的相互连接。与PCI Express不同,一个设备可以包含多个NVLink,并且设备之间采用网格网络而非中心集线器方式进行通信。该协议于2014年3月首次发布,采用专有的高速信号互连技术(NVHS)。目前NVLink已经升级到5.0版本。第五代 NVLink 大幅提高了大型多 GPU 系统的可扩展性。单个 NVIDIA Blackwell Tensor Core GPU 支持多达 18 个 NVLink 100 GB/s 连接,总带宽可达 1.8 TB/s,比上一代产品提高了两倍,是 PCIe 5.0 带宽的 14 倍之多。

NVLink 就是这种“多节点无损网络”的代表,由一个强大的软件协议组成,通常通过印在计算机板上的多对导线实现,可以让处理器以极高的速度收发共享内存池中的数据。NVLink 设计的主要设计目的,就是突破PCIe的屏障,达成GPU-GPU及CPU-GPU的片间高效数据交互。

NVLink虽拥有优秀的性能,但私有协议无法兼容不同来源的产品,这样的封闭生态已成为行业发展掣肘。受到巨大的需求推动,以及为抵抗这种市场挤压 ,AMD、谷歌、微软、英特尔(Intel)、博通(Broadcom)、思科(Cisco)构成联盟建立一个开放的行业互联标准即UALink。UALink将使系统OEM、IT专业人员和系统集成商能够为其人工智能连接数据中心创建一条更易于集成、更具灵活性和可扩展性的途径。

据官方消息,UALink 1.0规范支持连接多达1024个AI加速器,并允许在一个计算集群(Pod)内,让接入的GPU等加速器附带的内存之间实现直接加载和存储。

奇异摩尔赋能万卡集群互联

目前包括各大芯片厂商以及生态内的服务器厂商开始不断提及甚至对标英伟达NVLink,都想要打破其所造的护城河。整个行业生态包括奇异摩尔在内的企业正在积极探索如何解决满足集群通信间通讯,片间互联的高效互联的解决方案。

目前,奇异摩尔基于自身的互联技术优势,较早布局IO Die、Base Die等高性能互联芯粒,并基于Kiwi-Link统一互联架构,提供涵盖集群间、片间、Die间的全链路高性能互联解决方案

GPU片间互联

奇异摩尔的高性能网络加速芯粒 – Kiwi NDSA,内建RoCE V2高性能 RDMA (Remote Direct Memory Access) 和数十种卸载/加速引擎,可作为独立芯粒应用于GPU的传输加速器。奇异摩尔自研的全球首创GPU Link Chiplet “NDSA-G2G”,通过RDMA和D2D技术,在芯片间搭建了高速数据交换网络,可实现近TB/s的超高速数据传输,其性能达到全球领先水平,满足AI芯片对于片间交换不断增长的需求。

集群间通信

奇异摩尔 Kiwi NDSA SNIC是全球首款支持800G带宽的RDMA NIC产品,具备极高的集群扩展能力,可以大幅提升集群节点间的交互效率,使得更大规模的集群设计成为可能。除带宽升级到800G之外,延时也降至纳秒级,并支持数十GB的超大规模数据包,性能媲美目前全球标杆ASIC产品。

业界纷纷提出集群通讯互联的重要性

中国移动研究院网络与IT技术研究所主任研究员陈佳媛在近期公开演讲中提及必须突破GPU卡间互联技术瓶颈,提高卡间互联带宽,提升端口数量以满足集群算力纵向扩展升级需求;低延迟通信,减少GPU通信跳数,优化数据传输路径。 新华三集团高级副总裁、云与计算存储产品线总裁徐润安此前也谈到算力互联。在他看来,过去,大家的目标可能是做更强算力的单颗芯片,现在会从另一个角度努力,怎样将芯片做成更大集群,同时使得集群的通信效果更高,集群的处理能力更强;

浪潮信息高级副总裁刘军发表的观点是,实现更大的算力已经不在芯片,而是在算法层面做创新,比如怎么把算力分布到系统层面上,怎么解决卡间互联问题,怎么让更多的GPU高效协同。

写在最后,数据中心和算力集群是AI的核心,网络则是它的命脉,它们共同构筑了AI大模型底层网络基础设施,实现了数据和智能的无缝传递。然而AI芯片性能及软件生态存在的差距,万卡集群建设存在芯片间、卡之间、集群间的互联问题,这些都需要更开放的平台去持续地解决。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3634

    浏览量

    89824
  • 算力
    +关注

    关注

    1

    文章

    827

    浏览量

    14567
  • 奇异摩尔
    +关注

    关注

    0

    文章

    39

    浏览量

    3279
  • 大模型
    +关注

    关注

    2

    文章

    2131

    浏览量

    1969

原文标题:Kiwi Talks | 智算网络催生万卡集群,all in通信互联军备赛

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    摩尔线程与羽人科技完成大语言模型训练测试

    近日,摩尔线程与羽人科技携手宣布,双方已成功实现夸娥(KUAE)千智算集群与羽人系列模型解决方案的训练兼容适配。在本次测试中,羽人科技通过摩尔线程夸娥千
    的头像 发表于 08-27 16:19 392次阅读

    奇异摩尔上海总部进驻上海浦东科海大楼

    。 三年风雨兼程  三年春华秋实 奇异摩尔于2021年在上海创立,依托于Chiplet和RDMA高性能网络互联技术,旨在打造了一整套全栈式AI智算集群
    的头像 发表于 07-01 18:57 911次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>上海总部进驻上海浦东科海大楼

    集群解决大模型训算力需求,建设面临哪些挑战

      电子发烧友网报道(文/李弯弯)集群是指由一万张及以上的加速(包括GPU、TPU及其他专用AI加速芯片)组成的高性能计算系统,主要用于加速人工智能模型的训练和推理过程。这种
    的头像 发表于 06-02 06:18 4184次阅读
    <b class='flag-5'>万</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>解决大模型训算力需求,建设面临哪些挑战

    国产GPU可替代!摩尔线程千集群点亮新成就

    摩尔线程、无问芯穹联合宣布,双方已经正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训,基于摩尔线程国产全功能GPU MTT S4000组成的千集群,以及无问芯穹的
    的头像 发表于 05-29 11:27 535次阅读
    国产GPU可替代!<b class='flag-5'>摩尔</b>线程千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>点亮新成就

    摩尔线程千智算集群与滴普企业大模型已完成训练及推理适配

    近日,摩尔线程与国内领先的数据智能服务商滴普科技共同宣布,摩尔线程夸娥(KUAE)千智算集群与滴普企业大模型Deepexi已完成训练及推理适配。
    的头像 发表于 05-29 10:28 345次阅读
    <b class='flag-5'>摩尔</b>线程千<b class='flag-5'>卡</b>智算<b class='flag-5'>集群</b>与滴普企业大模型已完成训练及推理适配

    摩尔线程、无问芯穹合作完成国产全功能GPU千集群

    据介绍,此项训练历时13.2天,过程稳定而有序,集群整体运行稳定性达到了100%。相较于单机训练,千集群的扩展效率提升了超过90%。
    的头像 发表于 05-27 14:40 511次阅读

    摩尔线程与无问芯穹宣布完成基于GPU千集群的3B规模大模型实训

    摩尔线程联合无问芯穹宣布,双方已在本周正式完成基于国产全功能GPU千集群的3B规模大模型实训。
    的头像 发表于 05-27 10:44 375次阅读
    <b class='flag-5'>摩尔</b>线程与无问芯穹宣布完成基于GPU千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>的3B规模大模型实训

    奇异摩尔携手SEMiBAY Talk 邀您畅谈互联与计算

    2024年5月25日(本周六)19:30,由深圳市半导体与集成电路产业联盟(SICA)主办的 SEMiBAY Talk“Chiplet 与先进封装技术和市场趋势”将在线上举行。奇异摩尔产品及解决方案
    的头像 发表于 05-20 18:31 830次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>携手SEMiBAY Talk 邀您畅谈<b class='flag-5'>互联</b>与计算

    奇异摩尔聚焦高速互联:Chiplet互联架构分析及其关键技术

    日前,由中国计算机互连技术联盟(CCITA联盟)、深圳市连接器行业协会共同主办的 “第三届中国互连技术与产业大会”开幕。奇异摩尔联合创始人兼产品及解决方案副总裁祝俊东在《Chiplet互联架构分析
    的头像 发表于 12-13 10:39 1182次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>聚焦高速<b class='flag-5'>互联</b>:Chiplet<b class='flag-5'>互联</b>架构分析及其关键技术

    奇异摩尔与润欣科技加深战略合作开创Chiplet及互联芯粒未来

    2023 年 11 月 23 日,上海润欣科技股份 (sz300493) 与奇异摩尔(上海)集成电路设计有限公司达成深度合作。润欣科技正式注资奇异摩尔,未来,双方将深化探索 Chipl
    的头像 发表于 11-30 11:06 2499次阅读

    奇异摩尔祝俊东:Chiplet和网络加速 互联时代两大关键技术

    为突破算力局限的新生技术,在短短几年时间内,迅速成长为全球芯片巨头的主流方案和行业公认的“摩尔定律拯救者”,其在商业领域的广泛应用又引发了从片内、片间到集群间的互联技术变迁。自此,半导体行业正式走进
    的头像 发表于 11-14 09:26 1022次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>祝俊东:Chiplet和网络加速 <b class='flag-5'>互联</b>时代两大关键技术

    奇异摩尔与智原科技联合发布 2.5D/3DIC整体解决方案

    作为全球领先的互联产品和解决方案公司,奇异摩尔期待以自身 Chiplet 互联芯粒、网络加速芯粒产品及全链路解决方案,结合智原全面的先进封装一站式服务,通力协作,深耕 2.5D int
    的头像 发表于 11-12 10:06 738次阅读

    天津市津南区区委书记王宝雨一行莅临Chiplet厂商奇异摩尔考察交流

    的交流。 宝雨书记一行全面了解了奇异摩尔的发展历程、产业布局、核心技术与产品情况,并就 Chiplet、互联为代表的创新技术对半导体行业的影响进行了探讨。 奇异
    的头像 发表于 11-08 17:34 1374次阅读
    天津市津南区区委书记王宝雨一行莅临Chiplet厂商<b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>考察交流

    Chiplet赛道火热 奇异摩尔完成亿元Pre-A轮融资

    奇异摩尔宣布完成亿元Pre-A轮融资,本轮由中国国有企业混合所有制改革基金(混改基金)领投,主要投资方包括中关村发展启航投资、历荣远昌、大米成长、津南海河智选、君昊虹石等。本轮资金将主要用于下一代高性能互联芯粒(Chiplet
    的头像 发表于 11-08 17:29 1016次阅读
    Chiplet赛道火热 <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>完成亿元Pre-A轮融资

    奇异摩尔获评“上海高新技术企业”及“上海专精特新中小企业”称号

    2023年10月16日,奇异摩尔(上海)集成电路设计有限公司,因 Chiplet 及 互联领域的技术与创新成就,成为2023年度上海市第三批 “专精特新”中小企业,同时也被认定为上海高新技术企业。这双项荣誉的获得,昭示着
    的头像 发表于 10-18 09:39 825次阅读