0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

奇异摩尔赋能万卡集群互联

奇异摩尔 来源:奇异摩尔 2024-09-19 13:03 次阅读

近日,IntelAMD博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、Meta和微软(Microsoft)在内的八家公司宣布他们已经为人工智能数据中心网络制定了新的互联技术UALink(Ultra Accelerator Link),以打破英伟达NVLink技术垄断的消息受到了广泛的关注。

“本期奇说芯语Kiwi Talks 将从万卡集群大模型算力需求的挑战说起,来解读这场军备赛的背后原理…”

智算网络催生万卡集群

随着大模型的持续爆发,其对算力的需求也在迅猛增长,这促使算力集群不断向万卡以上的规模演进。这一趋势不仅代表着计算能力的飞跃,也对网络提出了前所未有的超高要求。

万卡集群是指由一万张及以上的加速卡(包括GPU、TPU及其他专用AI加速芯片)组成的高性能计算系统,主要用于加速人工智能模型的训练和推理过程。这种集群的构建旨在解决大模型训练对算力需求的巨大增长问题,尤其是现在模型参数量从百亿级、千亿级迈向万亿级。大模型的训练和推理任务需要海量的计算资源和高效的网络连接。

万卡级别的算力集群意味着将有数以万计的高性能计算节点协同工作,它们之间的数据传输和同步必须达到毫秒级甚至微秒级的延迟,以确保模型训练的高效性和准确性。首先,大模型训练对于GPU之间的互联通信要求极高,无论是机内GPU的通信还是服务器之间的GPU通信。特别是在模型并行和数据并行等模式下,通信数据量更是达到了百GB级别。因此,网络必须支持高速互联协议,并且能够提供足够的单端口带宽和总带宽。

我们知道PCIe(Peripheral Component Interconnect Express):它是一种计算机总线标准,用于在计算机内部连接各种设备和组件(例如显卡、存储设备、扩展卡等)。PCIe接口以串行方式传输数据,具有较高的通信带宽,适用于连接各种设备。然而,由于其基于总线结构,同时连接多个设备时可能会受到带宽的限制受限于带宽、延迟、数据传输效率,已成为大规模计算集群的互联瓶颈。

英伟达NVLink的无损网络护城河

英伟达的NVLink是其开发并推出的一种总线及其通信协议。NVLink采用点对点结构、串列传输,用于中央处理器CPU)与图形处理器(GPU)之间的连接,也可用于多个图形处理器之间的相互连接。与PCI Express不同,一个设备可以包含多个NVLink,并且设备之间采用网格网络而非中心集线器方式进行通信。该协议于2014年3月首次发布,采用专有的高速信号互连技术(NVHS)。目前NVLink已经升级到5.0版本。第五代 NVLink 大幅提高了大型多 GPU 系统的可扩展性。单个 NVIDIA Blackwell Tensor Core GPU 支持多达 18 个 NVLink 100 GB/s 连接,总带宽可达 1.8 TB/s,比上一代产品提高了两倍,是 PCIe 5.0 带宽的 14 倍之多。

NVLink 就是这种“多节点无损网络”的代表,由一个强大的软件协议组成,通常通过印在计算机板上的多对导线实现,可以让处理器以极高的速度收发共享内存池中的数据。NVLink 设计的主要设计目的,就是突破PCIe的屏障,达成GPU-GPU及CPU-GPU的片间高效数据交互。

NVLink虽拥有优秀的性能,但私有协议无法兼容不同来源的产品,这样的封闭生态已成为行业发展掣肘。受到巨大的需求推动,以及为抵抗这种市场挤压 ,AMD、谷歌、微软、英特尔(Intel)、博通(Broadcom)、思科(Cisco)构成联盟建立一个开放的行业互联标准即UALink。UALink将使系统OEM、IT专业人员和系统集成商能够为其人工智能连接数据中心创建一条更易于集成、更具灵活性和可扩展性的途径。

据官方消息,UALink 1.0规范支持连接多达1024个AI加速器,并允许在一个计算集群(Pod)内,让接入的GPU等加速器附带的内存之间实现直接加载和存储。

奇异摩尔赋能万卡集群互联

目前包括各大芯片厂商以及生态内的服务器厂商开始不断提及甚至对标英伟达NVLink,都想要打破其所造的护城河。整个行业生态包括奇异摩尔在内的企业正在积极探索如何解决满足集群通信间通讯,片间互联的高效互联的解决方案。

目前,奇异摩尔基于自身的互联技术优势,较早布局IO Die、Base Die等高性能互联芯粒,并基于Kiwi-Link统一互联架构,提供涵盖集群间、片间、Die间的全链路高性能互联解决方案

GPU片间互联

奇异摩尔的高性能网络加速芯粒 – Kiwi NDSA,内建RoCE V2高性能 RDMA (Remote Direct Memory Access) 和数十种卸载/加速引擎,可作为独立芯粒应用于GPU的传输加速器。奇异摩尔自研的全球首创GPU Link Chiplet “NDSA-G2G”,通过RDMA和D2D技术,在芯片间搭建了高速数据交换网络,可实现近TB/s的超高速数据传输,其性能达到全球领先水平,满足AI芯片对于片间交换不断增长的需求。

集群间通信

奇异摩尔 Kiwi NDSA SNIC是全球首款支持800G带宽的RDMA NIC产品,具备极高的集群扩展能力,可以大幅提升集群节点间的交互效率,使得更大规模的集群设计成为可能。除带宽升级到800G之外,延时也降至纳秒级,并支持数十GB的超大规模数据包,性能媲美目前全球标杆ASIC产品。

业界纷纷提出集群通讯互联的重要性

中国移动研究院网络与IT技术研究所主任研究员陈佳媛在近期公开演讲中提及必须突破GPU卡间互联技术瓶颈,提高卡间互联带宽,提升端口数量以满足集群算力纵向扩展升级需求;低延迟通信,减少GPU通信跳数,优化数据传输路径。 新华三集团高级副总裁、云与计算存储产品线总裁徐润安此前也谈到算力互联。在他看来,过去,大家的目标可能是做更强算力的单颗芯片,现在会从另一个角度努力,怎样将芯片做成更大集群,同时使得集群的通信效果更高,集群的处理能力更强;

浪潮信息高级副总裁刘军发表的观点是,实现更大的算力已经不在芯片,而是在算法层面做创新,比如怎么把算力分布到系统层面上,怎么解决卡间互联问题,怎么让更多的GPU高效协同。

写在最后,数据中心和算力集群是AI的核心,网络则是它的命脉,它们共同构筑了AI大模型底层网络基础设施,实现了数据和智能的无缝传递。然而AI芯片性能及软件生态存在的差距,万卡集群建设存在芯片间、卡之间、集群间的互联问题,这些都需要更开放的平台去持续地解决。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3772

    浏览量

    91012
  • 算力
    +关注

    关注

    1

    文章

    969

    浏览量

    14797
  • 奇异摩尔
    +关注

    关注

    0

    文章

    49

    浏览量

    3407
  • 大模型
    +关注

    关注

    2

    文章

    2436

    浏览量

    2665

原文标题:Kiwi Talks | 智算网络催生万卡集群,all in通信互联军备赛

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    国产千GPU集群完成大模型训练测试,极具高兼容性和稳定性

    集群的方式成为了必然的选择。   2023年底,摩尔线程推出首个全国产千千亿模型训练平台“摩尔线程KUAE智算中心”。
    的头像 发表于 06-11 07:50 3263次阅读
    国产千<b class='flag-5'>卡</b>GPU<b class='flag-5'>集群</b>完成大模型训练测试,极具高兼容性和稳定性

    依托Chiplet&amp;高性能RDMA,奇异摩尔斩获全国颠覆性技术创新大赛(未来制造领域赛)优胜奖

        近日,第十三届中国创新创业大赛颠覆性技术创新大赛(未来制造领域赛)获奖结果出炉,奇异摩尔参赛项目【基于Chiplet+RDMA技术的下一代AI
    的头像 发表于 12-19 09:39 279次阅读
    依托Chiplet&amp;高性能RDMA,<b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>斩获全国颠覆性技术创新大赛(未来制造领域赛)优胜奖

    奇异摩尔分享计算芯片Scale Up片间互联新途径

    开放数据中心委员会ODCC冬季全员会议于12月4日-6日在春暖花开的昆明举行。奇异摩尔首席系统架构师朱琛作为网络工作组ETH-X超节点项目的核心成员分享了AI Networking Scale Up
    的头像 发表于 12-09 09:36 302次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>分享计算芯片Scale Up片间<b class='flag-5'>互联</b>新途径

    回顾:奇异摩尔@ ISCAS 2024 :聚焦互联技术与创新实践

    )电路与系统国际研讨会在新加坡召开。ISCAS 是IEEE电路与系统学会(Circuits and Systems, CAS)下规模最大的旗舰会议。 奇异摩尔模拟设计技术专家王彧博士,作为IEEE
    的头像 发表于 11-05 18:29 478次阅读
    回顾:<b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>@ ISCAS 2024 :聚焦<b class='flag-5'>互联</b>技术与创新实践

    智原科技与奇异摩尔2.5D封装平台量产

    近日,ASIC设计服务暨IP研发销售厂商智原科技(Faraday Technology Corporation)与AI网络全栈式互联产品及解决方案提供商奇异摩尔宣布,双方共同合作的2.5D封装平台已成功迈入量产阶段。
    的头像 发表于 10-14 16:43 405次阅读

    摩尔线程与羽人科技完成大语言模型训练测试

    近日,摩尔线程与羽人科技携手宣布,双方已成功实现夸娥(KUAE)千智算集群与羽人系列模型解决方案的训练兼容适配。在本次测试中,羽人科技通过摩尔线程夸娥千
    的头像 发表于 08-27 16:19 528次阅读

    从千集群卡到集群,燧原科技打造更好的AI算力底座

    :WAIC 2024)上,不仅有国内各大模型厂商同场竞技,也有丰富的算力基础设施展示,其中包括专注人工智能领域云端算力产品的燧原科技。   燧原科技展台 从千集群
    的头像 发表于 07-07 09:45 2308次阅读
    从千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>卡到<b class='flag-5'>万</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>,燧原科技打造更好的AI算力底座

    奇异摩尔上海总部进驻上海浦东科海大楼

    。 三年风雨兼程  三年春华秋实 奇异摩尔于2021年在上海创立,依托于Chiplet和RDMA高性能网络互联技术,旨在打造了一整套全栈式AI智算集群
    的头像 发表于 07-01 18:57 2523次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>上海总部进驻上海浦东科海大楼

    集群解决大模型训算力需求,建设面临哪些挑战

      电子发烧友网报道(文/李弯弯)集群是指由一万张及以上的加速(包括GPU、TPU及其他专用AI加速芯片)组成的高性能计算系统,主要用于加速人工智能模型的训练和推理过程。这种
    的头像 发表于 06-02 06:18 4704次阅读
    <b class='flag-5'>万</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>解决大模型训算力需求,建设面临哪些挑战

    国产GPU可替代!摩尔线程千集群点亮新成就

    摩尔线程、无问芯穹联合宣布,双方已经正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训,基于摩尔线程国产全功能GPU MTT S4000组成的千集群,以及无问芯穹的
    的头像 发表于 05-29 11:27 729次阅读
    国产GPU可替代!<b class='flag-5'>摩尔</b>线程千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>点亮新成就

    摩尔线程千智算集群与滴普企业大模型已完成训练及推理适配

    近日,摩尔线程与国内领先的数据智能服务商滴普科技共同宣布,摩尔线程夸娥(KUAE)千智算集群与滴普企业大模型Deepexi已完成训练及推理适配。
    的头像 发表于 05-29 10:28 468次阅读
    <b class='flag-5'>摩尔</b>线程千<b class='flag-5'>卡</b>智算<b class='flag-5'>集群</b>与滴普企业大模型已完成训练及推理适配

    摩尔线程、无问芯穹合作完成国产全功能GPU千集群

    据介绍,此项训练历时13.2天,过程稳定而有序,集群整体运行稳定性达到了100%。相较于单机训练,千集群的扩展效率提升了超过90%。
    的头像 发表于 05-27 14:40 622次阅读

    摩尔线程与无问芯穹宣布完成基于GPU千集群的3B规模大模型实训

    摩尔线程联合无问芯穹宣布,双方已在本周正式完成基于国产全功能GPU千集群的3B规模大模型实训。
    的头像 发表于 05-27 10:44 476次阅读
    <b class='flag-5'>摩尔</b>线程与无问芯穹宣布完成基于GPU千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>的3B规模大模型实训

    奇异摩尔携手SEMiBAY Talk 邀您畅谈互联与计算

    2024年5月25日(本周六)19:30,由深圳市半导体与集成电路产业联盟(SICA)主办的 SEMiBAY Talk“Chiplet 与先进封装技术和市场趋势”将在线上举行。奇异摩尔产品及解决方案
    的头像 发表于 05-20 18:31 985次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>携手SEMiBAY Talk 邀您畅谈<b class='flag-5'>互联</b>与计算

    中国移动将商用三个自主可控集群

    中国移动在近日举办的2024年算力网络大会上宣布了重要计划。据中国移动副总经理高同庆透露,公司今年将正式商用三个具有完全自主控制权的集群,分别位于哈尔滨、呼和浩特和贵阳。这三个集群
    的头像 发表于 05-06 10:21 570次阅读