0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

源2.0-M32大模型发布量化版 运行显存仅需23GB 性能可媲美LLaMA3

全球TMT 来源:全球TMT 作者:全球TMT 2024-08-25 22:06 次阅读

北京2024年8月23日/美通社/ -- 近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

源2.0-M32量化版是"源"大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其创新性地提出和采用了"基于注意力机制的门控网络"技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

wKgaombLOmGAMfOeAACBJMP6AFU808.jpg


总之,源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。

源2.0-M32量化版已开源,下载链接如下:

Hugging Face平台下载链接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平台下载链接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8


审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3215

    浏览量

    42310
  • 算力
    +关注

    关注

    1

    文章

    906

    浏览量

    14696
  • 大模型
    +关注

    关注

    2

    文章

    2273

    浏览量

    2353
收藏 人收藏

    评论

    相关推荐

    Meta发布Llama 3.2量化模型

    近日,Meta在开源Llama 3.2的1B与3B模型后,再次为人工智能领域带来了新进展。10月24日,Meta正式推出了这两个模型量化
    的头像 发表于 10-29 11:05 262次阅读

    Llama 3 模型与其他AI工具对比

    Llama 3模型与其他AI工具的对比可以从多个维度进行,包括但不限于技术架构、性能表现、应用场景、定制化能力、开源与成本等方面。以下是对Llama
    的头像 发表于 10-27 14:37 275次阅读

    Llama 3 语言模型应用

    在人工智能领域,语言模型的发展一直是研究的热点。随着技术的不断进步,我们见证了从简单的关键词匹配到复杂的上下文理解的转变。 一、Llama 3 语言模型的核心功能 上下文理解 :
    的头像 发表于 10-27 14:15 212次阅读

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我们分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又发布Llama3.2:一个多语言大型语言模型
    的头像 发表于 10-12 09:39 380次阅读
    使用OpenVINO 2024.4在算力魔方上部署<b class='flag-5'>Llama</b>-3.2-1B-Instruct<b class='flag-5'>模型</b>

    【AIBOX上手指南】快速部署Llama3

    Firefly开源团队推出了Llama3部署包,提供简易且完善的部署教程,过程无需联网,简单快捷完成本地化部署。点击观看Llama3快速部署教程:Step.1准备部署包进入Firefly下载中心
    的头像 发表于 06-06 08:02 548次阅读
    【AIBOX上手指南】快速部署<b class='flag-5'>Llama3</b>

    浪潮信息重磅发布2.0-M32”开源大模型

    浪潮信息近日发布了一款全新的开源大模型——“2.0-M32”。这款大模型在“
    的头像 发表于 06-05 14:50 716次阅读

    浪潮信息发布2.0-M32开源大模型,模算效率大幅提升

    5月28日,浪潮信息发布2.0-M32”开源大模型。“2.0-M32”在基于”
    的头像 发表于 05-29 09:34 371次阅读
    浪潮信息<b class='flag-5'>发布</b><b class='flag-5'>源</b><b class='flag-5'>2.0-M32</b>开源大<b class='flag-5'>模型</b>,模算效率大幅提升

    浪潮信息发布2.0-M32”开源大模型

    浪潮信息近日推出了革命性的“2.0-M32”开源大模型。该模型2.0系列基础上,引入了“基
    的头像 发表于 05-29 09:08 589次阅读

    Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

    Llama3 是Meta最新发布的开源大语言模型(LLM), 当前已开源8B和70B参数量的预训练模型权重,并支持指令微调。
    的头像 发表于 05-10 10:34 948次阅读
    Optimum Intel三步完成<b class='flag-5'>Llama3</b>在算力魔方的本地<b class='flag-5'>量化</b>和部署

    Meta Llama 3基础模型现已在亚马逊云科技正式可用

    亚马逊云科技近日宣布,Meta公司最新发布的两款Llama 3基础模型——Llama 3 8B和
    的头像 发表于 05-09 10:39 355次阅读

    高通支持Meta Llama 3在骁龙终端上运行

    高通与Meta携手合作,共同推动Meta的Llama 3大语言模型(LLM)在骁龙驱动的各类终端设备上实现高效运行。此次合作致力于优化Llama
    的头像 发表于 05-09 10:37 390次阅读

    使用OpenVINO™在你的本地设备上离线运行Llama3之快手指南

    在人工智能领域,大型语言模型(LLMs)的发展速度令人震惊。2024年4月18日,Meta正式开源了LLama系列的新一代大模型Llama3,在这一领域中树立了新的里程碑。
    的头像 发表于 04-26 09:42 792次阅读
    使用OpenVINO™在你的本地设备上离线<b class='flag-5'>运行</b><b class='flag-5'>Llama3</b>之快手指南

    Llama 3 王者归来,Airbox 率先支持部署

    前天,智算领域迎来一则令人振奋的消息:Meta正式发布了备受期待的开源大模型——Llama3Llama3的卓越性能Meta表示,
    的头像 发表于 04-22 08:33 570次阅读
    <b class='flag-5'>Llama</b> <b class='flag-5'>3</b> 王者归来,Airbox 率先支持部署

    百度智能云国内首家支持Llama3全系列训练推理!

    4月18日,Meta 正式发布 Llama 3,包括8B 和 70B 参数的大模型,官方号称有史以来最强大的开源大模型
    的头像 发表于 04-20 09:20 359次阅读
    百度智能云国内首家支持<b class='flag-5'>Llama3</b>全系列训练推理!

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    ,根据LLaMA官方的介绍,要想运行模型需要30GB左右显存的显卡支持,这是边缘终端甚至个人电脑难以做到的,后来,GitHub上的一位开发
    发表于 12-22 10:18