0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

壁仞科技、中国移动等发布“芯合”异构混合并行训练系统1.0

壁仞科技Birentech 来源:壁仞科技Birentech 2024-12-03 09:36 次阅读

近日,备受瞩目的“2024中国信息通信大会暨中国通信学会学术年会”在四川成都顺利举行。此届大会以“科技领航创新,产业共筑未来”为主题,聚集了来自“政产学研用”各方代表,集中展示算力及网络通信领域的最新研究成果。

在“算力网络算网一体创新发展论坛”上,壁仞科技携手中国移动、中兴通讯等产业合作伙伴共同发布了通用异构混合并行训练系统——“芯合”异构混合并行训练系统1.0。该系统可解决大模型异构算力孤岛难题,实现同一训练任务在异构算力集群的任务拆解和协同训练,对推动我国智算产业生态融通发展,构建开放协同的新型智算基础设施具有积极意义。

当前,我国智算产业形成了软硬件绑定的竖井式生态,不同厂商、不同架构的智能算力之间无法兼容互通,限制了异构智能算力的有效整合和充分利用。大模型训练需要千卡集群甚至万卡集群资源,目前国产芯片厂家百花齐放,移动新型智算中心已经落地使用的算力资源类型多样,形成了一些算力孤岛。但由于目前Megatron等主流的分布式训练框架仅支持同构算力集群,导致无论是不同厂商的智算芯片之间,亦或是同一厂商不同代际芯片之间都无法形成“合力”,极大地限制了智算中心对现有异构算力资源使用的充分性和调度的灵活性,因此亟需面向异构算力混合训练需求进行技术研究。

为屏蔽异构硬件差异、融通智算竖井生态,中国移动充分发挥移动信息现代产业链“链长”职责,以异构混训技术为攻关要点,率先提出通用异构混合训练技术,并开展“芯合”异构混合并行训练系统1.0研发,开辟以智算软件带动智算产业融通发展的全新路径。

本次壁仞科技联合中国移动发布的“芯合”异构混合并行训练系统1.0依托基于 Inhomogeneous Task Distribution (ITD)算法的3D并行非均匀切分和基于GPUDirect RDMA(GDR)的异构芯片高速通信两大关键技术提供通用混合训练能力。其中,基于ITD算法的3D并行非均匀切分可通过通用混合训练框架实现异构数据并行、异构流水线并行,实现数据微批次大小、数量、流水线并行度等参数在异构算力上的自适应调整;基于GDR的异构芯片高速通信可在不改变芯片原有通信接口基础上,基于GDR芯片高速互联技术,通过定义数据传输架构、流程及接口标准约束,屏蔽底层硬件差异,实现顶层训练任务在异构算力集群上分布式通信的无感拆解。当前系统已实现百亿参数大模型在壁仞科技、英伟达等多家智算芯片上的交叉混合训练,异构混训效率达95%以上,未来将在提升智能算力资源利用率及促进国产算力发展等方面发挥重要作用。

此前壁仞科技的壁砺系列通用GPU算力产品已经在中国移动智算中心(呼和浩特)成功上线运营,为该智算中心提供强大算力。该项目成功上线运营,标志着双方在智能计算领域的深度合作迈出了坚实的步伐。国产GPU加快落地的过程中正在在逐步扩大算力规模,为破解这一过程中的“大模型算力孤岛”难题,壁仞科技一直在积极开展异构GPU协同训练技术攻关,已发布自主原创的异构GPU协同训练方案HGCT,业界首次支持3种及以上异构GPU混合训练同一个大模型,用一套统一方案支持多种不同厂商、不同型号的GPU,而且一行代码适配多种框架。此次壁仞科技携手中国移动强强联合,发挥双方在底层通信库和上层并行拆分策略的优势,联合打造“芯合”异构混合并行训练系统1.0,有利于帮助中国移动充分利用国产算力,加快国产GPU迁移落地,形成开放的国产智算生态。

大会同期举办了中国通信学会算力网络委员会闭门会议及委员聘用仪式,壁仞科技AI软件首席架构师丁云帆被评选为中国通信学会第一届算力网络委员会委员,其将发挥在大规模智算集群、AI平台、异构训练系统、大模型分布式并行加速等方面的经验和能力,为中国算力网络的发展贡献力量。

未来,壁仞将继续秉承开放与融合的理念,与中国移动等产业链的合作伙伴携手并进,共同推进智算异构混训系统的创新与建设,支撑更多业务场景、支持更大参数规模模型、支持更大规模异构集群、融通更多异构芯片,真正打造以基础软件栈引领的全新智算生态,为我国算力强国战略落地提供坚实的支撑。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 中国移动
    +关注

    关注

    22

    文章

    5536

    浏览量

    71008
  • 算力
    +关注

    关注

    1

    文章

    945

    浏览量

    14759
  • 壁仞科技
    +关注

    关注

    1

    文章

    54

    浏览量

    2708

原文标题:破解“算力孤岛”|壁仞科技联合中国移动等生态伙伴共同发布“芯合”异构混合并行训练系统1.0

文章出处:【微信号:Birentech,微信公众号:壁仞科技Birentech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    澎峰科技助力中国移动 重磅发布智算“”算力原生基础软件栈2.0

    11月30日 ,由中国通信学会主办、中国移动研究院承办的2024中国信息通信大会“算力网络算网一体创新发展论坛 ”在成都召开。中国移动研究院携手澎峰科技
    的头像 发表于 12-03 15:08 170次阅读
    澎峰科技助力<b class='flag-5'>中国移动</b> 重磅<b class='flag-5'>发布</b>智算“<b class='flag-5'>芯</b><b class='flag-5'>合</b>”算力原生基础软件栈2.0

    澎峰科技助力中国移动发布智算“”算力原生基础软件栈2.0

    近日 ,由中国通信学会主办、中国移动研究院承办的2024中国信息通信大会“算力网络算网一体创新发展论坛 ”在成都召开。中国移动研究院携手澎峰科技
    的头像 发表于 12-03 13:29 172次阅读

    盾时代入选中国移动安全解决方案市场洞察报告

    近日,全球领先的IT市场研究和咨询公司IDC发布中国移动安全解决方案市场洞察,2024:市场迎来新机遇,安全与管控协同发展》报告(以下简称《报告》),深度剖析了当前中国移动安全市场的现状与未来趋势
    的头像 发表于 12-02 11:26 370次阅读

    性能提升近一倍!科技携手无问穹,在千卡训练集群领域取得技术新突破

    集群、大模型推理服务领域开展了深度的研发合作。 近日,经科技与无问穹联合研发攻关,成功将
    发表于 11-05 18:45 464次阅读
    性能提升近一倍!<b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技携手无问<b class='flag-5'>芯</b>穹,在千卡<b class='flag-5'>训练</b>集群<b class='flag-5'>等</b>领域取得技术新突破

    中国移动发布广域高吞吐100Gbps网卡

    10月10日,中国移动研究院透露,在2024中国算力大会的一个分论坛上,中国移动正式推出了其广域高吞吐100Gbps网卡。   据悉,这款网卡基于中国移动自主研发的广域高吞吐协议
    的头像 发表于 10-12 15:11 407次阅读

    科技参与中国移动呼和浩特智算中心,共筑AI算力新基石

    在人工智能浪潮席卷全球的今天,高性能计算中心作为AI技术发展的核心引擎,正以前所未有的速度重塑着各个行业的面貌。近日,中国移动智算中心(呼和浩特)的盛大上线,不仅标志着我国在智能计算领域迈出了坚实
    的头像 发表于 07-09 09:37 625次阅读

    科技为中国移动呼和浩特智算中心提供强大算力

      随着人工智能技术的飞速发展,高性能计算中心成为推动AI创新和应用的关键基础设施。近日,中国移动智算中心(呼和浩特)成功上线运营。国内领先的GPU企业科技的砺系列通用GPU算力
    的头像 发表于 07-05 17:16 1246次阅读

    天数智参与建设的中国移动智算中心(呼和浩特)项目圆满完成

    近日,天数智参与建设的中国移动智算中心(呼和浩特)项目已圆满完成,全集群系统正式上线运营。
    的头像 发表于 07-05 09:58 1140次阅读

    中国移动发布全球首颗 RISC-V 内核超级 SIM 芯片

    6月26日,中国移动举办5G智能物联网产品体系发布暨推介会。大会以“新质联接,智享未来”为主题,发布中国移动5G智能物联网新产品并成立了中国移动
    的头像 发表于 06-30 08:36 370次阅读
    <b class='flag-5'>中国移动</b><b class='flag-5'>发布</b>全球首颗 RISC-V 内核超级 SIM 芯片

    科技亮相数字中国建设峰会

    能 智筑国基”人工智能生态大会上,中国移动正式宣布开放大模型训练基地、大模型评测基地、大模型产业创新基地三大人工智能基地。科技作为
    的头像 发表于 05-28 18:44 909次阅读
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技亮相数字<b class='flag-5'>中国</b>建设峰会

    中国移动已建成运营商最大单体智算中心

    中国移动在智算领域迈出重要步伐,成功建成并投产了运营商中最大的单体智算中心——中国移动智算中心(呼和浩特)。这一壮举不仅填补了我国人工智能算力需求的巨大缺口,更为交通、医疗、教育、能源、金融行业的大模型
    的头像 发表于 05-06 10:49 700次阅读

    华为联合中国移动率先部署全球容量最大512T集群路由器

    中国移动通信集团有限公司(以下简称“中国移动”)算力网络大会分论坛上,中国移动携手华为伙伴共同发布一体化算力网络系列成果
    的头像 发表于 04-30 10:36 510次阅读

    科技加入中国移动“融创未来”算力网络创新联合体

    近日,以“算力网络点亮AI新时代”为主题的2024中国移动算力网络大会在苏州举行。作为中国移动的算力合作伙伴,科技加入“融创未来”算力网络创新联合体,并与多家合作伙伴共同在现场展示
    的头像 发表于 04-30 09:36 885次阅读
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技加入<b class='flag-5'>中国移动</b>“融创未来”算力网络创新联合体

    中国移动研究院、中国移动咪咕和华为联合发布5G-A MoQ创新行动计划

    MWC24 巴塞罗那期间,中国移动研究院联合中国移动咪咕和华为发布了5G-A MoQ新媒体网络技术联合创新行动计划,并展示了最新样机测试成果。
    的头像 发表于 02-27 09:45 949次阅读

    中国移动进军光伏领域,搭建绿色5G基站与数据中心

    值得注意的是,公司董事长一职由中国移动党委书记刘宝昌担任。根据公开信息,这家新成立的企业具有重要意义,标志着中国移动正式进军光伏市场。近年来,中国移动已经开始尝试采用新型光伏电源系统
    的头像 发表于 01-02 14:43 1626次阅读