0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

万卡集群解决大模型训算力需求,建设面临哪些挑战

Carol Li 来源:电子发烧友网 作者:李弯弯 2024-06-02 06:18 次阅读



电子发烧友网报道(文/李弯弯)万卡集群是指由一万张及以上的加速卡(包括GPU、TPU及其他专用AI加速芯片)组成的高性能计算系统,主要用于加速人工智能模型的训练和推理过程。这种集群的构建旨在解决大模型训练对算力需求的巨大增长问题,尤其是现在模型参数量从百亿级、千亿级迈向万亿级。

国内外企业积极构建万卡集群

目前,在国际上,包括微软、Google、Meta等AI领域的巨头,都已落子超万卡集群的项目部署。如Meta于2022年推出了拥有16000张算卡的超级集群中心;Google于2023年推出了一个拥有2.6万张算卡的Compute Engine A3;而持有OpenAI的微软更是传出正在进行百万规模算卡集群的筹建。

不只是国际厂商,国内厂商也在此前大量采购GPU推进万卡集群建设。尤其在今年以来,三大运营商也相继公布了对超万卡集群的部署。

近日,在中国移动算力网络大会上,中国移动副总经理高同庆宣布,今年将商用哈尔滨、呼和浩特、贵阳的三个万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练的需求。

今年1月,中国电信宣布将在上海规划建设1.5万张卡规模的算力集群,其总算力超4500P,这也将是国内首个超大规模国产算力液冷集群。中国联通表示,在今年内将在上海临港国际云数据中心,建成中国联通首个万卡集群。

除了运营商之外,2023年,蚂蚁集团宣布已建成万卡异构算力集群。此外,包括字节跳动、阿里、百度、华为及科大讯飞等在内的互联网和AI头部企业均在发力万卡集群的建设。

另外,今年5月20日,网宿科技与航锦科技正式签署战略合作协议,双方围绕NVIDIA最新一代万卡集群(L20 cluster AIDC)项目建立战略合作关系,共同开展智算中心建设、相关技术研发、市场拓展等工作,旨在打造高效、智能、绿色的算力基础设施,承载千行百业的大模型训练及推理需求。

网宿科技是全球领先的信息基础设施平台服务提供商,专注于边缘计算、云分发、云安全、云计算、云服务及绿色数据中心业务。航锦科技是由武汉市国资委控股的上市企业,控股子公司超擎数智作为AI算力和网络整体解决方案提供商,是NVIDIA Compute(GPU)、Networking(网络)的双Elite精英级合作伙伴。

构建万卡集群面临的挑战

万卡集群的建设和维护面临诸多挑战,首先是GPU的供应,由于全球超万卡集群的建设都处于起步阶段,部署模式都以英伟达GPU及配套设备为主。目前国内在获得英伟达旗舰高性能GPU方面受限,同时,国产AI芯片相比于英伟达GPU在性能上存在一定差距。

其次,在大模型场景下,算力需要大规模集中式训练,单个GPU无法完全容纳整个模型训练,需要采用分布式训练。这会带来GPU之间互联带宽受限或AI服务器之间网络互联带宽有限的问题。此外,卡数量增多后,过热、故障也会一定比例出现,模型训练成本会增加。

当然,目前各企业正在积极解决这些问题。如越来越多国产的AI芯片已经开始在集群的建设中得到使用,包括华为、海光、寒武纪、摩尔线程等公司。

如为了支撑千卡乃至超万卡的大规模算力集群,摩尔线程于2023年推出了首个国内产千卡千亿模型训练平台——夸娥智算集群,该模型深度参与中国移动大模型训练与推理环节,可以为大模型训练提供稳定、高效、高兼容的算力支撑。

摩尔线程相关负责人此前谈到,百卡或更小规模都是实验性的,千卡才是大集群的基本单元,只有千卡及以上才能满足一些基础模型的算力需求,这也是推出夸娥智算集群的目标设定。

另外,浪潮信息董事长彭震日前谈到,芯片算力并非是AI发展不起来的直接原因,更多的其实是系统问题。他认为,对于服务器厂商而言,当前已经不能再局限于提供单一硬件产品,而是要综合性解决方案,这些解决方案可能包括服务器、存储、网络、安全等方面。

浪潮信息希望从算力层提供一个平台,支撑多元算力入驻。对于芯片企业而言,只需要专注在芯片本身而不需要研究互联带宽问题。

据了解,目前不少服务器厂商也在学习英伟达的NVlink,NVlink提供一种高效可扩展的芯片通信间协议,允许所有GPU同时全速实时通信,就好像整个系统是单个GPU一样。在今年4月的GTC大会上,英伟达还宣布NVlink更新到第五代,包括可扩展至576个GPU,能够解决万亿参数混合专家模型通信瓶颈。

新华三集团高级副总裁、云与计算存储产品线总裁徐润安此前也谈到算力互联。在他看来,过去,大家的目标可能是做更强算力的单颗芯片,现在会从另一个角度努力,怎样将芯片做成更大集群,同时使得集群的通信效果更高,集群的处理能力更强。

新华三希望做更加开放的平台,做上游GPU厂商合作伙伴的最佳选择,利用自身网络优势,对网络通信的理解,帮助更多GPU厂商,将算力互联互通实现得更好。新华三提供的科学计算算力调度平台傲飞3.0,实现了跨集群统一管理,将训练任务进行切分,将合适的子任务放在合适的近端或远端模块集群实现。

写在最后

当前,万卡集群式应对大模型背景下算力需求的重要解决方案之一,对于推动人工智能技术的发展和应用具有重要意义。可以看到,国内外都在积极推进万卡集群的建设。然而,在国内,万卡集群的建设并不容易,首先是AI芯片性能及软件生态存在差距,其次是万卡集群建设存在芯片间、卡之间、集群间的互联问题,这些都还需要持续去解决。











声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算力
    +关注

    关注

    1

    文章

    846

    浏览量

    14584
  • 大模型
    +关注

    关注

    2

    文章

    2157

    浏览量

    2029
收藏 人收藏

    评论

    相关推荐

    国产千GPU集群完成大模型训练测试,极具高兼容性和稳定性

    电子发烧友网报道(文/李弯弯)随着人工智能技术的快速发展,对于计算能力的需求日益增长。特别是在大模型训练方面,对需求更是呈现指数级增长
    的头像 发表于 06-11 07:50 2994次阅读
    国产千<b class='flag-5'>卡</b>GPU<b class='flag-5'>集群</b>完成大<b class='flag-5'>模型</b>训练测试,极具高兼容性和稳定性

    模型时代的需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问
    发表于 08-20 09:04

    名单公布!【书籍评测活动NO.41】大模型时代的基础架构:大模型中心建设指南

    工作日内未联系,视为放弃本次试用评测资格! 书籍介绍 大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的及基础架
    发表于 08-16 18:33

    亿铸科技谈大芯片面临的技术挑战和解决策略

    随着人工智能技术的飞速发展,已成为推动产业变革的关键力量,但大模型的快速发展,参数的爆发,对于
    的头像 发表于 08-07 10:03 553次阅读

    从千集群卡到集群,燧原科技打造更好的AI底座

    :WAIC 2024)上,不仅有国内各大模型厂商同场竞技,也有丰富的基础设施展示,其中包括专注人工智能领域云端产品的燧原科技。  
    的头像 发表于 07-07 09:45 2007次阅读
    从千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>卡到<b class='flag-5'>万</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>,燧原科技打造更好的AI<b class='flag-5'>算</b><b class='flag-5'>力</b>底座

    摩尔线程千集群与滴普企业大模型已完成训练及推理适配

    近日,摩尔线程与国内领先的数据智能服务商滴普科技共同宣布,摩尔线程夸娥(KUAE)千集群与滴普企业大模型Deepexi已完成训练及推理适配。
    的头像 发表于 05-29 10:28 357次阅读
    摩尔线程千<b class='flag-5'>卡</b>智<b class='flag-5'>算</b><b class='flag-5'>集群</b>与滴普企业大<b class='flag-5'>模型</b>已完成训练及推理适配

    摩尔线程与无问芯穹在国产GPU上首次实现大模型

    近日,摩尔线程与无问芯穹共同宣布,双方已正式完成基于国产全功能GPU千集群的3B规模大模型。这款名为“MT-infini-3B”的模型
    的头像 发表于 05-27 10:59 558次阅读

    摩尔线程与无问芯穹宣布完成基于GPU千集群的3B规模大模型

    摩尔线程联合无问芯穹宣布,双方已在本周正式完成基于国产全功能GPU千集群的3B规模大模型
    的头像 发表于 05-27 10:44 384次阅读
    摩尔线程与无问芯穹宣布完成基于GPU千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>的3B规模大<b class='flag-5'>模型</b>实<b class='flag-5'>训</b>

    摩尔线程张建中:以国产助力数智世界,满足大模型需求

    摩尔线程创始人兼CEO张建中在会上透露,为了满足国内对AI的迫切需求,他们正在积极寻求与国内顶尖科研机构的深度合作,共同推动更大规模的AI智
    的头像 发表于 05-10 16:36 651次阅读

    中国移动将商用三个自主可控集群

    中国移动在近日举办的2024年网络大会上宣布了重要计划。据中国移动副总经理高同庆透露,公司今年将正式商用三个具有完全自主控制权的集群
    的头像 发表于 05-06 10:21 427次阅读

    北京:规划建设支撑万亿级参数大模型训练需求的超大规模智集群

    ”局面,集中建设一批智单一大集群,到2025年,本市智供给规模达到45EFLOPS,2025-2027年根据人工智能大模型发展需要和国家
    的头像 发表于 04-29 08:26 243次阅读
    北京:规划<b class='flag-5'>建设</b>支撑万亿级参数大<b class='flag-5'>模型</b>训练<b class='flag-5'>需求</b>的超大规模智<b class='flag-5'>算</b><b class='flag-5'>集群</b>

    中国电信规划在上海建设首个国产超大规模液冷集群

    中国电信规划建设首个国产超大规模液冷集群 人工智能技术的快速发展催生了巨大的
    的头像 发表于 02-22 18:48 1239次阅读

    上海电信携手徐汇区,发布人工智能公共服务产品,拟建平台

    根据计划,2024年上半年,上海市徐汇区将规划建设总算超过四千五百PFLOPS(即每秒千万亿次)的15000集群,该
    的头像 发表于 01-24 09:50 510次阅读

    网络面临三大挑战

    2024年,以AIGC为代表的人工智能技术将进一步激发需求网络、智中心、超
    的头像 发表于 01-12 10:39 827次阅读

    PODsys:大模型AI平台部署的开源“神器”

    模型是通用人工智能的底座,但大模型训练对平台的依赖非常大。大模型
    的头像 发表于 11-08 09:17 731次阅读
    PODsys:大<b class='flag-5'>模型</b>AI<b class='flag-5'>算</b><b class='flag-5'>力</b>平台部署的开源“神器”