源2.0-M32大模型发布量化版运行显存仅需23GB 性能可媲美LLaMA3-电子发烧友网

北京2024年8月23日/美通社/ -- 近日，浪潮信息发布源2.0-M32大模型4bit和8bit量化版，性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB，处理每token所需算力约为1.9 GFLOPs，算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB，所需算力为140GFLOPs。

源2.0-M32量化版是"源"大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，通过采用领先的量化技术，将原模型精度量化至int4和int8级别，并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率，在不同硬件和软件环境中均能高效运行，降低了模型移植和部署门槛，让用户使用更少的计算资源，就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本，其创新性地提出和采用了"基于注意力机制的门控网络"技术，构建包含32个专家（Expert）的混合专家模型（MoE），模型运行时激活参数为37亿，在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型，大幅提升了模型算力效率。

模型量化（Model Quantization）是优化大模型推理的一种主流技术，它显著减少了模型的内存占用和计算资源消耗，从而加速推理过程。然而，模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度，是量化技术面临的核心挑战。

源2.0-M32大模型研发团队深入分析当前主流的量化方案，综合评估模型压缩效果和精度损失表现，最终采用了GPTQ量化方法，并采用AutoGPTQ作为量化框架。为了确保模型精度最大化，一方面定制化适配了适合源2.0-M32结构的算子，提高了模型的部署加载速度和多线程推理效率，实现高并发推理；另一方面对需要量化的中间层（inter_layers）进行了严格评估和筛选，确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别，在模型精度几乎无损的前提下，提升模型压缩效果、增加推理吞吐量和降低计算成本，使其更易于部署到移动设备和边缘设备上。

评测结果显示，源2.0-M32量化版在多个业界主流的评测任务中性能表现突出，特别是在MATH（数学竞赛）、ARC-C（科学推理）任务中，比肩拥有700亿参数的LLaMA3大模型。

总之，源2.0-M32大模型量化版在保持推理性能的前提下，显著降低了计算资源消耗和内存占用，其采用的GPTQ量化方法通过精细调整，成功将模型适配至int4和int8精度级别。通过定制化算子优化，源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升，确保在不同硬件和软件环境中均能高效运行。未来，随着量化技术的进一步优化和应用场景的拓展，源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用，为用户提供更高效的智能服务。

源2.0-M32量化版已开源，下载链接如下：

Hugging Face平台下载链接：

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平台下载链接：

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
3356

浏览量
42512
算力

算力

+关注

关注
1

文章
982

浏览量
14826
大模型

大模型

+关注

关注
2

文章
2462

浏览量
2741

Meta发布Llama 3.2量化版模型

近日，Meta在开源Llama 3.2的1B与3B模型后，再次为人工智能领域带来了新进展。10月24日，Meta正式推出了这两个模型的量化版

发表于 10-29 11:05 •396次阅读

Llama 3 模型与其他AI工具对比

Llama 3模型与其他AI工具的对比可以从多个维度进行，包括但不限于技术架构、性能表现、应用场景、定制化能力、开源与成本等方面。以下是对Llama

发表于 10-27 14:37 •393次阅读

Llama 3 语言模型应用

在人工智能领域，语言模型的发展一直是研究的热点。随着技术的不断进步，我们见证了从简单的关键词匹配到复杂的上下文理解的转变。一、Llama 3 语言模型的核心功能上下文理解：

发表于 10-27 14:15 •287次阅读

使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

前面我们分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日，Meta又发布了Llama3.2：一个多语言大型语言模型

发表于 10-12 09:39 •592次阅读

Meta即将发布超强开源AI模型Llama 3-405B

在人工智能领域的激烈竞争中，Meta公司再次掷出重磅炸弹，宣布将于7月23日正式发布其最新力作——Llama 3-405B，一个拥有惊人4050亿参数的开源大

发表于 07-18 09:58 •999次阅读

【AIBOX上手指南】快速部署Llama3

Firefly开源团队推出了Llama3部署包，提供简易且完善的部署教程，过程无需联网，简单快捷完成本地化部署。点击观看Llama3快速部署教程：Step.1准备部署包进入Firefly下载中心

发表于 06-06 08:02 •680次阅读

浪潮信息重磅发布“源2.0-M32”开源大模型

浪潮信息近日发布了一款全新的开源大模型——“源2.0-M32”。这款大模型在“源

发表于 06-05 14:50 •787次阅读

浪潮信息发布源2.0-M32开源大模型，模算效率大幅提升

5月28日，浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在基于”

发表于 05-29 09:34 •435次阅读

浪潮信息发布“源2.0-M32”开源大模型

浪潮信息近日推出了革命性的“源2.0-M32”开源大模型。该模型在源2.0系列基础上，引入了“基

发表于 05-29 09:08 •650次阅读

Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

Llama3 是Meta最新发布的开源大语言模型(LLM), 当前已开源8B和70B参数量的预训练模型权重，并支持指令微调。

发表于 05-10 10:34 •1059次阅读

Meta Llama 3基础模型现已在亚马逊云科技正式可用

亚马逊云科技近日宣布，Meta公司最新发布的两款Llama 3基础模型——Llama 3 8B和

发表于 05-09 10:39 •401次阅读

高通支持Meta Llama 3在骁龙终端上运行

高通与Meta携手合作，共同推动Meta的Llama 3大语言模型（LLM）在骁龙驱动的各类终端设备上实现高效运行。此次合作致力于优化Llama

发表于 05-09 10:37 •435次阅读

使用OpenVINO™在你的本地设备上离线运行Llama3之快手指南

在人工智能领域，大型语言模型（LLMs）的发展速度令人震惊。2024年4月18日，Meta正式开源了LLama系列的新一代大模型Llama3，在这一领域中树立了新的里程碑。

发表于 04-26 09:42 •854次阅读

Llama 3 王者归来，Airbox 率先支持部署

前天，智算领域迎来一则令人振奋的消息：Meta正式发布了备受期待的开源大模型——Llama3。Llama3的卓越性能Meta表示，

发表于 04-22 08:33 •652次阅读

百度智能云国内首家支持Llama3全系列训练推理！

4月18日，Meta 正式发布 Llama 3，包括8B 和 70B 参数的大模型，官方号称有史以来最强大的开源大模型。

发表于 04-20 09:20 •409次阅读