国产千卡GPU集群完成大模型训练测试，极具高兼容性和稳定性-电子发烧友网

电子发烧友网报道（文/李弯弯）随着人工智能技术的快速发展，对于计算能力的需求日益增长。特别是在大模型训练方面，对算力的需求更是呈现指数级增长。传统的单卡计算已经无法满足大模型训练的需求，因此，采用多卡集群的方式成为了必然的选择。

2023年底，摩尔线程推出首个全国产千卡千亿模型训练平台“摩尔线程KUAE智算中心”。摩尔线程相关负责人此前谈到，百卡或更小规模都是实验性的，千卡才是大集群的基本单元，只有千卡及以上才能满足一些基础模型的算力需求。

国产千卡集群完成大模型训练测试

日前，摩尔线程官方宣布，联合羽人科技，已成功实现了夸娥（KUAE）千卡智算集群与羽人系列模型解决方案的训练兼容适配，高效完成了70亿参数羽人大语言模型YuRen-7b的训练测试。

测试结果显示，训练效率达到预期，夸娥千卡智算集群展现出了高度的兼容性和稳定性。未来，羽人科技的零代码训练平台将迁移到摩尔线程夸娥千卡智算集群。

在今年5月27日，摩尔线程联合无问芯穹宣布，双方在近日正式完成基于国产全功能GPU千卡集群的3B规模大模型实训。该模型名为“MT-infini-3B”，在摩尔线程夸娥（KUAE）千卡智算集群与无问芯穹AIStudio PaaS平台上完成了高效稳定的训练。

MT-infini-3B模型训练总用时13.2天，经过精度调试，实现全程稳定训练不中断，集群训练稳定性达到100%，千卡训练和单机相比扩展效率超过90%。

5月29日，摩尔线程又与国内领先的数据智能服务商滴普科技共同宣布，摩尔线程“夸娥”（KUAE）千卡智算集群与滴普企业大模型Deepexi v1.0已完成训练、推理适配，获得产品兼容互认证明。

基于摩尔线程夸娥千卡智算集群，滴普科技成功完成了LLaMA2 700亿参数大语言模型的预训练测试。训练时长共计77小时，全程无故障连续运行，集群训练稳定性达到100%，训练效率和兼容性均达到预期。

可以看到，摩尔线程全国产夸娥千卡智算集群在大模型训练上展现出足够的实力。摩尔线程夸娥方案基于全功能MTT S4000 GPU，提供软硬一体化的全栈解决方案，具备模型覆盖、推理加速、CUDA兼容、断点续训、分布式训练、集群可靠性等8大核心能力。

MTT S4000是摩尔线程推出的大模型智算加速卡，采用第三代MUSA内核，单卡支持48GB显存容量和768GB/s的显存带宽，FP16算力为100TFLOPS。借助摩尔线程自研开发工具，MTT S4000计算卡可以充分利用现有CUDA软件生态，实现CUDA代码零成本迁移到MUSA平台。

大模型训练用千卡集群搭建需要关注的重点

可以看到，国产千卡集群已经取得实质性突破，在性能上能够达到国际先进水平，在应用上，已经有多个大模型实训案例。同时，国产企业也在积极构建和完善生态系统。

事实上，用于大模型训练的千卡集群的搭建并不容易，需要注意多方面的事情。如基础设施搭建方面，首先要考虑硬件的选择，需要选择高性能的GPU或TPU作为核心计算单元，才能够提供必要的计算能力和加速训练过程。其次是网络互联，构建能够支持万卡级别高速互联的智算集群，才能确保各个计算单元之间的数据传输效率和稳定性。还有分布式存储，需要配置分布式存储系统，满足大模型训练过程中大规模数据的存储和访问需求。

除了GPU的选择，网络互联也是千卡集群建设需要关注的重点。大模型训练千卡集群互联要求高，这样能够确保集群的高效、稳定和可靠运行。

具体来看，首先需要高带宽与与低时延，大规模GPU集群中，模型训练对卡间互联的带宽和时延提出更高要求，特别是在万亿参数量模型中，网络节点可能由百卡组建的“超节点”构成，单次通信数据量虽小但通信频繁，因此需要高带宽支持以实现快速数据传输。低时延同样重要，因为在大模型训练中，任何延迟都可能影响训练效率。

其次需要高效互联拓扑，随着智算中心向千卡万卡级别的全互联方向演进，传统的直连拓扑结构不再适用。集群需要采用更高效、更先进的互联拓扑结构，如全向智感互联（OISA）设计方案，以突破大规模卡间互联的技术瓶颈。

再者还需要支持大规模扩展，千卡集群的互联方案需要支持从单机多卡到多机多卡、从单卡到千卡集群的无缝扩展。这要求互联方案具有良好的可扩展性，能够随着集群规模的增长而灵活调整。

另外还要考虑稳定性和可靠性、安全性、兼容性等。大模型训练千卡集群的互联方案有多种，如RDMA（远程直接内存访问）网络，RDMA允许计算机之间的内存直接访问，无需操作系统和CPU的干预，从而大大降低了通信延迟，提高了数据传输速率。在千卡集群中，RDMA网络可以确保节点间的高效数据传输，支持大规模的分布式训练任务。

NVLink高速互联，NVLink是NVIDIA开发的一种GPU间高速互联技术，专为GPU到GPU的通信而设计。它提供了比PCIe更高的带宽和更低的延迟，适用于多GPU系统内的数据共享和通信。在千卡集群中，可以使用NVLink连接GPU服务器，实现节点内部GPU间的高效互联。

高性能交换机与网络拓扑，使用高性能交换机，如InfiniBand交换机或以太网交换机，来构建集群的网络拓扑。网络拓扑设计需要考虑集群的规模和通信需求，以确保所有节点之间的低延迟和高带宽连接。可能的网络拓扑包括全连接、部分连接或基于交换机的层次化结构。

还有多路径数据传输、全向智感互联（OISA）设计方案等，OISA是一个新兴的设计方案，旨在解决大规模卡间互联的技术瓶颈。OISA通过优化网络协议和拓扑结构，实现了更高的带宽、更低的延迟和更好的扩展性。该方案适用于需要高效通信的大规模GPU集群。

写在最后

千卡集群主要是用于处理大规模、高复杂度的计算任务，特别是在人工智能（AI）、深度学习、大模型训练等领域。而此前这种集群的建设都依赖国外的GPU，而如今，可以看到，全国产的千卡集群正在不断进步和完善，在当下国际GPU产品对中国限售的背景下，这对于国内人工智能，尤其是大模型的长远发展具有深远意义。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
27

文章
4507

浏览量
127512
AI

AI

+关注

关注
87

文章
27436

浏览量
265118
大模型

大模型

+关注

关注
2

文章
1862

浏览量
1485

摩尔线程与智谱AI完成大模型性能测试与适配

近日，摩尔线程与智谱AI在人工智能领域开展了一轮深入的合作，共同对GPU大模型进行了适配及性能测试。此次测试不仅涵盖了大模型的推理能力，还涉

发表于 06-14 16:40 •554次阅读

摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

近日，国内知名的GPU制造商摩尔线程与全学科教育AI大模型“师者AI”联合宣布，双方已成功完成了一项重要的大模型训练

发表于 06-14 16:31 •302次阅读

国产GPU实现千卡大模型训练测试

行业资讯

电子发烧友网官方

发布于 :2024年06月07日 16:54:46

智能测径仪：高稳定性成就高精测量之选！

环境下保持稳定的测量性能。它以其高度的准确性和可靠性，为生产过程中的直径测量提供了坚实的保障。精准测量是高稳定性智能测径仪的核心优势之一。

发表于 06-05 17:30

摩尔线程和滴普科技完成大模型训练与推理适配

近日，摩尔线程与滴普科技宣布了一项重要合作成果。摩尔线程的夸娥（KUAE）千卡智算集群与滴普科技的企业大模型Deepexi已完成训练及推理适

发表于 05-30 10:14 •192次阅读

国产GPU可替代！摩尔线程千卡集群点亮新成就

摩尔线程、无问芯穹联合宣布，双方已经正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训，基于摩尔线程国产全功能GPU MTT S4000组成的

发表于 05-29 11:27 •378次阅读

<b class='flag-5'>国产</b><b class='flag-5'>GPU</b>可替代！摩尔线程<b class='flag-5'>千卡</b><b class='flag-5'>集群</b>点亮新成就

摩尔线程千卡智算集群与滴普企业大模型已完成训练及推理适配

近日，摩尔线程与国内领先的数据智能服务商滴普科技共同宣布，摩尔线程夸娥（KUAE）千卡智算集群与滴普企业大模型Deepexi已完成训练及推理

发表于 05-29 10:28 •222次阅读

摩尔线程<b class='flag-5'>千卡</b>智算<b class='flag-5'>集群</b>与滴普企业大<b class='flag-5'>模型</b>已<b class='flag-5'>完成</b><b class='flag-5'>训练</b>及推理适配

摩尔线程、无问芯穹合作完成国产全功能GPU千卡集群

据介绍，此项训练历时13.2天，过程稳定而有序，集群整体运行稳定性达到了100%。相较于单机训练，千卡

发表于 05-27 14:40 •341次阅读

摩尔线程与无问芯穹在国产GPU上首次实现大模型实训

近日，摩尔线程与无问芯穹共同宣布，双方已正式完成基于国产全功能GPU千卡集群的3B规模大模型实训

发表于 05-27 10:59 •372次阅读

摩尔线程与无问芯穹宣布完成基于GPU千卡集群的3B规模大模型实训

摩尔线程联合无问芯穹宣布，双方已在本周正式完成基于国产全功能GPU千卡集群的3B规模大模型实训。

发表于 05-27 10:44 •240次阅读

俄罗斯自主芯片遇挫，超半数成废片

摩尔线程是第一家接入无问芯穹并成功完成千卡级别大模型训练的国产GPU公司，“夸娥”(KUAE)集群

发表于 04-02 10:27 •294次阅读

润和软件与华为昇腾AI完成兼容性测试认证

近日，江苏润和软件股份有限公司（以下简称“润和软件”）基于大模型的AI智能中枢平台AIRUNS与华为昇腾通过相互兼容性测试认证。经过严格的联合测试，润和软件AI智能中枢平台AIRUNS

发表于 01-25 16:51 •663次阅读

HarmonyOS应用兼容稳定性云测试

测试项的详细说明请参考兼容性测试标准。 兼容性测试支持 TV、智能穿戴 (Wearable)设备和 Phone。前提条件 ● 已注册华为开

发表于 12-25 10:56

运放OPAX192环路稳定性测试与模型建立

　　主要内容：测试OPAX192运放电路的稳定性及其模型建立

发表于 11-07 15:41 •750次阅读

芯启源与龙蜥社区完成兼容性认证

近日，芯启源DPU AgilioPro 系列产品与OpenAnolis龙蜥社区完成兼容性认证。经过在多计算架构上全面的测试之后，芯启源DPU在性能、功能、稳定性和安全性方面均表现优异，

发表于 08-15 10:59 •724次阅读

搜索历史

国产千卡GPU集群完成大模型训练测试，极具高兼容性和稳定性

评论

摩尔线程与智谱AI完成大模型性能测试与适配

摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

国产GPU实现千卡大模型训练测试

智能测径仪：高稳定性成就高精测量之选！

摩尔线程和滴普科技完成大模型训练与推理适配

国产GPU可替代！摩尔线程千卡集群点亮新成就

摩尔线程千卡智算集群与滴普企业大模型已完成训练及推理适配

摩尔线程、无问芯穹合作完成国产全功能GPU千卡集群

摩尔线程与无问芯穹在国产GPU上首次实现大模型实训

摩尔线程与无问芯穹宣布完成基于GPU千卡集群的3B规模大模型实训

俄罗斯自主芯片遇挫，超半数成废片

润和软件与华为昇腾AI完成兼容性测试认证

HarmonyOS应用兼容稳定性云测试

运放OPAX192环路稳定性测试与模型建立

芯启源与龙蜥社区完成兼容性认证