Yuan2.0千亿大模型在通用服务器NF8260G7上的推理部署-电子发烧友网

巨量模型的智能生产力正在逐步渗透到各行各业，但它们的部署和运行通常需要专用的AI加速卡，能否在CPU上运行千亿大模型，对千行百业智能化转型的深化与普惠至关重要。

日前，浪潮信息研发工程师基于2U4路旗舰通用服务器NF8260G7，通过张量并行、模型压缩量化等技术，解决了通用服务器的CPU计算资源不足、内存带宽瓶颈、缺乏大规模并行计算环境等问题，在业内首次实现服务器仅依靠4颗CPU即可运行千亿参数“源2.0”大模型。该方案建设成本更低，首次投入可节约80%以上建设成本，且通用服务器功耗更低，运维更便捷，能够有效降低客户TCO。

大模型推理的硬件需求：内存与带宽的双重考验

当前，大模型的推理计算面临多方面的挑战，制约了大模型服务成本的降低和应用落地。

首先是对内存容量的需求。大模型的推理过程中，需要将全部的模型权重参数、计算过程中的KV Cache等数据存放在内存中，一般需要占用相当于模型参数量2-3倍的内存空间。随着业界LLM的网络架构从GPT架构走向MOE架构，主流开源模型的尺寸越来越大，千亿及以上参数的模型已经成为主流，运行一个千亿大模型（100B），则需要200-300GB的显存空间。

其次是对计算和内存读写带宽的需求。大模型的推理主要分为预填充和解码两个阶段。预填充阶段把Prompt一次性输入给模型进行计算，对显存的需求更大；解码阶段，每次推理仅生成1个token，计算访存较低，对内存带宽的需求更大。因此，千亿大模型的实时推理，计算设备需要具备较高的计算能力，以及较高的存储单元到计算单元的数据搬运效率。

NF8260G7作为一款采用高密度设计的2U4路服务器，支持16TB大内存容量，配置了4颗具有AMX（高级矩阵扩展）的AI加速功能的英特尔至强处理器，内存带宽极限值为1200GB/s。尽管NF8260G7服务器可以轻松满足千亿大模型推理的内存需求，甚至于万亿参数的MOE架构大模型推理的内存需求。但是，按照BF16的精度计算，千亿参数大模型运行时延要小于100ms，内存与计算单元之间的通信带宽至少要在2TB/s以上。因此，要在NF8260G7上实现千亿大模型的高效运行，仅靠硬件升级还远远不够，硬件资源与软件算法协同优化至关重要。

张量并行+NF4量化，实现千亿模型极致优化

Yuan2.0-102B是浪潮信息发布的新一代基础语言大模型，参数量为1026亿，通过提出全新的局部注意力过滤增强机制（LFA：Localized Filtering-based Attention），有效提升了自然语言的关联语义理解能力。

为了尽可能提升Yuan2.0-102B模型在NF8260G7服务器上的推理计算效率，浪潮信息算法工程师采用了张量并行（tensor parallel）策略。该策略改变了传统CPU服务器串行运行的模式，把Yuan2.0-102B模型中的注意力层和前馈层的矩阵计算分别拆分到多个处理器，实现同时使用4颗CPU进行计算加速。然而，张量并行对模型参数的切分粒度较细，要求CPU在每次张量计算后进行数据同步，增加了对CPU间通信带宽的需求。在传统的使用多个基于PCIe互联的AI芯片进行张量并行时，通信占比往往会高达50%，也就是AI芯片有50%的时间都在等待数据传输，极大影响了推理效率。

NF8260G7服务器的4颗CPU通过全链路UPI（Ultra Path Interconnect）总线互连，该设计带来了两个优势：首先，全链路UPI互连允许任意两个CPU之间直接进行数据传输，减少了通信延迟；其次，全链路UPI互连提供了高传输速率，高达16GT/s（Giga Transfers per second），远高于PCIe的通信带宽，保障了4颗处理器间高效的数据传输，从而支持张量并行策略下的数据同步需求。

UPI总线互连示意图

为了进一步提升Yuan2.0-102B模型在NF8260G7服务器上的推理效率，浪潮信息算法工程师还采用了NF4量化技术，来进一步提升推理的解码效率，从而达到实时推理的解码需求。NF4（4位NormalFloat）是一种分位数量化方法，适合于正态分布的数据。它通过确保量化区间内输入张量的值数量相等，来实现对数据的最优量化。由于大型语言模型（LLM）的权重通常呈现零中心的正态分布，NF4量化技术可以通过调整标准差来适配量化数据类型的范围，从而获得比传统的4位整数或4位浮点数量化（这些量化方法的数据间隔通常是平均分布或指数分布的）更高的精度。

INT4数据类型与NF4数据类型对比

为了进一步压缩Yuan2.0-102B模型的权重参数，浪潮信息算法工程师采用了嵌套量化（Double Quant）技术，这是在NF4量化基础上进行的二次量化。NF4量化后，由于会产生大量的scale参数，如果使用32位浮点数（FP32）存储，会占用大量的内存空间。若以64个参数作为一个量化块（block size=64）来计算，对于一个千亿参数的大模型，仅存储scale参数就需要额外的6GB内存：

(100B/64) * 4 = 6GB

为了减少内存占用，浪潮信息工程师通过将这些scale参数量化到8位浮点数（FP8），可以显著减少所需的存储空间。在采用256为量化块大小（block size=256）的情况下，存储所有scale参数所需的额外空间仅为1.57GB：

（100B/64/256）* 4 + (100B/64) * 1 = 1.57GB

通过嵌套量化，模型的每个权重参数最终仅占用4字节的内存空间，这比原始的FP32存储方式减少了大量的内存占用，从内存到CPU的数据搬运效率提高了4倍。这样的优化显著减轻了内存带宽对Yuan2.0-102B模型推理解码效率的限制，从而进一步提升了模型的推理性能。

高算效，低成本

通过在NF8260G7服务器上应用张量并行和NF4量化技术，浪潮信息工程师成功实现了千亿大模型Yuan2.0-102B的实时推理，根据性能分析（profiling）的结果，可以清晰地看到模型中不同部分的计算时间分布：线性层运行时间占比50%，卷积运行时间占比20%，聚合通信时间占比20%，其它计算占比10%。在整个推理过程中，计算时间占比达到了80%，和此前相比，计算时间占比提升30%，大幅提升了算力利用率。

Yuan2.0-102B模型推理性能分析（profiling）结果图

浪潮信息基于通用服务器NF8260G7的软硬件协同创新，为千亿参数AI大模型在通用服务器的推理部署，提供了性能更强，成本更经济的选择，让AI大模型应用可以与云、大数据、数据库等应用能够实现更紧密的融合，从而充分释放人工智能在千行百业中的创新活力。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
11008

浏览量
215093
服务器

服务器

+关注

关注
12

文章
9588

浏览量
86946
浪潮

浪潮

+关注

关注
1

文章
474

浏览量
24343
大模型

大模型

+关注

关注
2

文章
2929

浏览量
3679

原文标题：服务器仅靠4颗CPU运行千亿大模型的“算法秘籍”

文章出处：【微信号：浪潮AIHPC，微信公众号：浪潮AIHPC】欢迎添加关注！文章转载请注明出处。

OPC服务器开发浅谈 — 服务器模型

这里主要讨论的是OPC Data Access 2.0服务器的开发，在掌握了这个最常用的OPC服务器开发之后，对其它类型的OPC服务器，如A

发表于 07-02 08:29

用tflite接口调用tensorflow模型进行推理

摘要本文为系列博客tensorflow模型部署系列的一部分，用于实现通用模型的部署。本文主要实现用tflite接口调用tensorflow

发表于 12-22 06:51

通过Cortex来非常方便的部署PyTorch模型

产中使用 PyTorch 意味着什么？根据生产环境的不同，在生产环境中运行机器学习可能意味着不同的事情。一般来说，在生产中有两类机器学习的设计模式：通过推理服务器提供一个预测 API 。这是在

发表于 11-01 15:25

浪潮AI服务器NF5488A5的实测数据分享，单机最大推理路数提升88%

近日，在GTC China元脑生态技术论坛上，中科极限元、趋动科技、睿沿科技等元脑生态伙伴分享了多个场景下浪潮AI服务器NF5488A5的实测数据，结果表明浪潮

发表于 12-24 15:25 •2686次阅读

使用MIG和Kubernetes部署Triton推理服务器

　　NVIDIA Triton 推理服务器是一款开源人工智能模型服务软件，可简化在生产中大规模部署经过培训的人工智能

发表于 04-07 09:54 •3610次阅读

腾讯云TI平台利用NVIDIA Triton推理服务器构造不同AI应用场景需求

腾讯云 TI 平台 TI-ONE 利用 NVIDIA Triton 推理服务器构造高性能推理服务部署平台，使用户能够非常便捷地部署包括 TN

发表于 09-05 15:33 •2236次阅读

如何使用NVIDIA Triton 推理服务器来运行推理管道

使用集成模型在 NVIDIA Triton 推理服务器上为 ML 模型管道提供

发表于 07-05 16:30 •1598次阅读

浪潮信息联合英特尔发布新一代AI服务器NF5698G7

浪潮信息联合英特尔发布面向生成式AI领域创新开发的新一代AI服务器NF5698G7。该AI服务器支持8颗OAM高速互联的Gaudi2加速器，具备高性能、高扩展、高能效和开放生态等优点，

发表于 07-13 09:43 •920次阅读

浪潮信息NF5468服务器LLaMA训练性能

浪潮信息宣布旗下NF5468系列AI服务器率先支持英伟达最新推出的L40S GPU，可为人工智能大模型训练和推理、元宇宙及图形视频处理等应用提供强大算力。实际测试表明，搭载8颗NVID

发表于 09-22 11:16 •2609次阅读

浪潮信息NF5468系列AI服务器率先支持英伟达最新推出的L40S GPU

浪潮信息宣布旗下NF5468系列AI服务器率先支持英伟达最新推出的L40S GPU，可为人工智能大模型训练和推理、元宇宙及图形视频处理等应用提供强大算力。实际测试表明，搭载8颗NVID

发表于 09-22 11:20 •3050次阅读

源2.0适配FastChat框架，企业快速本地化部署大模型对话平台

北京2024年2月28日 /美通社/ -- 近日，浪潮信息Yuan2.0大模型与FastChat框架完成全面适配，推出"企业快速本地化部署大模型对话平台"方案。该方案主要面向金融、法律

发表于 02-29 09:57 •1094次阅读

摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

近日，摩尔线程智能科技(北京)有限责任公司在其官方渠道发布了一则重要消息，宣布公司已经成功实现了对DeepSeek蒸馏模型推理服务的部署。这一技术突破，标志着摩尔线程

发表于 02-06 13:49 •627次阅读

浪潮信息发布元脑R1推理服务器

近日，浪潮信息正式推出了其创新的元脑R1推理服务器。这款服务器通过系统的创新与软硬件的协同优化，实现了对DeepSeek R1 671B模型的单机部

发表于 02-17 10:32 •558次阅读

昇腾推理服务器+DeepSeek大模型技术培训在图为科技成功举办

2月17日，华为政企业务团队受邀莅临图为科技深圳总部，并成功举办了一场聚焦于《昇腾推理服务器+DeepSeek大模型》的专业知识培训。此次培训活动不仅深化了双方的技术交流，更标志着昇腾AI

发表于 02-26 17:38 •434次阅读

如何在RAKsmart服务器上实现企业AI模型部署

AI模型的训练与部署需要强大的算力支持、稳定的网络环境和专业的技术管理。RAKsmart作为全球领先的服务器托管与云计算服务提供商，已成为企业部署

发表于 03-27 09:46 •178次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

Yuan2.0千亿大模型在通用服务器NF8260G7上的推理部署

评论

OPC服务器开发浅谈 — 服务器模型

用tflite接口调用tensorflow模型进行推理

通过Cortex来非常方便的部署PyTorch模型

浪潮AI服务器NF5488A5的实测数据分享，单机最大推理路数提升88%

使用MIG和Kubernetes部署Triton推理服务器

腾讯云TI平台利用NVIDIA Triton推理服务器构造不同AI应用场景需求

如何使用NVIDIA Triton 推理服务器来运行推理管道

浪潮信息联合英特尔发布新一代AI服务器NF5698G7

浪潮信息NF5468服务器LLaMA训练性能

浪潮信息NF5468系列AI服务器率先支持英伟达最新推出的L40S GPU

源2.0适配FastChat框架，企业快速本地化部署大模型对话平台

摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

浪潮信息发布元脑R1推理服务器

昇腾推理服务器+DeepSeek大模型技术培训在图为科技成功举办

如何在RAKsmart服务器上实现企业AI模型部署