0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Transformer压缩部署的前沿技术:RPTQ与PB-LLM

后摩智能 来源:后摩智能 2024-01-24 14:05 次阅读

随着人工智能技术的迅速发展,Transformer在自然语言处理、机器翻译、问答系统等领域取得了显著的性能提升。然而,这些模型的部署面临着巨大的挑战,主要源于其庞大的模型尺寸和内存消耗。

在部署过程中,网络压缩是一种常用的解决方案,可以有效减小模型的体积,提高模型在移动设备等资源受限环境下的部署效率。其中,量化技术是将大模型中的浮点数参数转换为整数,并进行存储和计算的方法。由于Transformer的网络参数越来越多、计算量越来越大,对于存储和计算资源有限的边缘设备来说,模型部署带来了很大的挑战。

网络量化是一种常见的解决方案,通过将模型参数量化为整数,可以大幅度减少模型的存储空间和计算量,从而实现在边缘设备上高效部署Transformer。

后摩智能也在Transformer量化提出了一些领先的算法方案。在本文中,我们将重点介绍两种针对Transformer的量化方案:

RPTQ(Reorder-based Post-training Quantization)

PB-LLM(Partially Binarized Large Language Models)

这两种方法分别针对激活量化和权重量化,旨在实现极端低位量化,同时保持语言推理能力。

RPTQ:

量化激活通道的新思路

46c8f2a2-ba7e-11ee-8b88-92fbcf53809c.png

RPTQ(Reorder-based Post-training Quantization)是后摩智能团队与华中科技大学等合作单位提出的一种全新的量化方法,旨在解决量化Transformer时激活通道之间的数值范围差异问题。

相较于以往的研究,RPTQ首次将3位激活引入了LLMs,实现了显著的内存节省,例如在量化OPT-175B模型方面,内存消耗降低了高达80%。RPTQ的关键思想是通过重新排列激活通道并按簇量化,从而减少通道范围差异的影响。同时,通过操作融合,避免了显式重新排序的操作,使得RPTQ的开销几乎为零。通过这种方法,RPTQ有效地解决了激活通道数值范围差异导致的量化误差问题。

PB-LLM:

实现极端低位量化的新突破

47152bf4-ba7e-11ee-8b88-92fbcf53809c.png

PB-LLM(Partially Binarized Large Language Models)是后摩智能团队与伊利诺伊理工和伯克利大学等单位合作提出的另一种创新性量化方法,主要针对权重量化。目前该篇论文已被接收至ICLR 2024,ICLR 以介绍和发布人工智能、统计学和数据科学领域深度学习的尖端研究而闻名,被认为是“深度学习的顶级会议”。

相较于传统的二值化方法,PB-LLM采用了部分二值化的策略,即将一部分显著权重分配到高位存储,从而在实现极端低位量化的同时,保持了Transformer的语言推理能力。通过对显著权重的充分利用,PB-LLM取得了显著的性能提升,为Transformer的内存消耗和计算复杂度提供了有效的解决方案。这是学术界首次探索对Transformer权重数值二值化的工作。

后摩智能的技术优势:突破性内存计算技术驱动AI发展

后摩智能作为大算力存算一体领域的先行者,凭借着RPTQ和PB-LLM等创新性量化方法的提出,取得了在大型语言模型中实现极端低位量化的突破。同时,后摩智能团队在内存计算领域拥有深厚的研究实力和丰富的实践经验,与行业内多家顶尖机构展开了广泛的合作。这使得后摩智能得以不断推动内存计算技术的发展,为人工智能技术的应用提供了更多创新性解决方案。

总的来说,后摩智能的RPTQ和PB-LLM等突破性量化方法为解决大型语言模型部署中的内存消耗和计算复杂度问题提供了有效的解决方案。随着内存计算技术的不断演进,后摩智能将继续致力于推动人工智能技术的发展,实现万物智能的愿景。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1781

    文章

    45041

    浏览量

    232421
  • 自然语言处理

    关注

    1

    文章

    521

    浏览量

    13275
  • LLM
    LLM
    +关注

    关注

    0

    文章

    224

    浏览量

    252

原文标题:后摩前沿 | Transformer 压缩部署的前沿技术:RPTQ与PB-LLM

文章出处:【微信号:后摩智能,微信公众号:后摩智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是LLMLLM的工作原理和结构

    随着人工智能技术的飞速发展,大型语言模型(Large Language Model,简称LLM)逐渐成为自然语言处理(NLP)领域的研究热点。LLM以其强大的文本生成、理解和推理能力,在文本
    的头像 发表于 07-02 11:45 35次阅读

    【算能RADXA微服务器试用体验】+ GPT语音与视觉交互:1,LLM部署

    。环境变量的配置,未来在具体项目中我们会再次提到。 下面我们正式开始项目。项目从输入到输出分别涉及了语音识别,图像识别,LLM,TTS这几个与AI相关的模块。先从最核心的LLM开始。 由于LLAMA3
    发表于 06-25 15:02

    易控智驾受邀出席第十三届全国矿山采选前沿技术与装备大会并发表主题演讲

    4月20日,备受瞩目的第十三届全国矿山采选前沿技术与装备大会在江西南昌盛大召开。中国工程院孙传尧院士、沈政昌院士、潘一山院士、赵跃民院士等多位院士及行业专家出席了此次盛会。
    的头像 发表于 04-22 09:35 358次阅读

    高通在MWC 2024展示前沿技术和合作成果

    产品,还携手全球和中国合作伙伴共同展示了在连接、AI、汽车、XR、手机、5G Advanced、6G等领域的前沿技术和合作成果。
    的头像 发表于 02-29 09:49 346次阅读

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 377次阅读
    基于<b class='flag-5'>Transformer</b>模型的<b class='flag-5'>压缩</b>方法

    低比特量化技术如何帮助LLM提升性能

    针对大语言模型 (LLM) 在部署过程中的性能需求,低比特量化技术一直是优化效果最佳的方案之一,本文将探讨低比特量化技术如何帮助 LLM
    的头像 发表于 12-08 15:26 778次阅读
    低比特量化<b class='flag-5'>技术</b>如何帮助<b class='flag-5'>LLM</b>提升性能

    情感语音识别:技术前沿与未来趋势

    一、引言 情感语音识别是当前人工智能领域的前沿技术,它通过分析人类语音中的情感信息,实现更加智能化和个性化的人机交互。本文将探讨情感语音识别技术的最新进展和未来趋势。 二、情感语音识别的技术前沿
    的头像 发表于 11-28 18:35 344次阅读

    Long-Context下LLM模型架构全面介绍

    随着ChatGPT的快速发展,基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路,并已应用于知识库、人机界面和动态代理等不同领域。然而,存在一个普遍
    的头像 发表于 11-27 17:37 655次阅读
    Long-Context下<b class='flag-5'>LLM</b>模型架构全面介绍

    使用MLC-LLM支持RWKV-5推理的过程思考

    LLM的理解比较有限,从代码实现的角度来说,RWKV的状态和KV Cache不同,不依赖序列长度,这让RWKV模型在各种长度下运行内存和运行速度都是趋于稳定的,所以我感觉工程价值是比基于Transformer架构比如Llama更好的,
    的头像 发表于 11-19 15:58 657次阅读
    使用MLC-<b class='flag-5'>LLM</b>支持RWKV-5推理的过程思考

    毫米波雷达在环境监测中的应用:气象学和气候研究的前沿技术

    随着气候变化和环境问题的日益突出,科学家们正在寻找更先进的技术来监测大气和气候变化。毫米波雷达技术正崭露头角,成为气象学和气候研究领域的一项重要工具。本文将探讨毫米波雷达在环境监测中的应用,特别聚焦于其在气象学和气候研究方面的前沿技术
    的头像 发表于 11-08 16:22 358次阅读

    LLMTransformer是否可以直接处理视觉Token?

    多种LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer层都会有提升,而且不同层之间也会体现不同的规律。
    发表于 11-03 14:10 316次阅读
    <b class='flag-5'>LLM</b>的<b class='flag-5'>Transformer</b>是否可以直接处理视觉Token?

    Hugging Face LLM部署大语言模型到亚马逊云科技Amazon SageMaker推理示例

     本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs,比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将部署12B
    的头像 发表于 11-01 17:48 594次阅读
    Hugging Face <b class='flag-5'>LLM</b><b class='flag-5'>部署</b>大语言模型到亚马逊云科技Amazon SageMaker推理示例

    MLC-LLM的编译部署流程

    MLC-LLM部署在各种硬件平台的需求,然后我就开始了解MLC-LLM的编译部署流程和RWKV World模型相比于MLC-LLM已经支持的
    的头像 发表于 09-04 09:22 2139次阅读
    MLC-<b class='flag-5'>LLM</b>的编译<b class='flag-5'>部署</b>流程

    RetNet架构和Transformer架构对比分析

    微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks (RetNet)[1,4],该架构相对于 Transformer 架构的优势是同时具备:训练可并行、推理成本低和良好的性能,不可能三角。
    发表于 07-26 10:44 1028次阅读
    RetNet架构和<b class='flag-5'>Transformer</b>架构对比分析

    transformer模型详解:Transformer 模型的压缩方法

     动机&背景 Transformer 模型在各种自然语言任务中取得了显著的成果,但内存和计算资源的瓶颈阻碍了其实用化部署。低秩近似和结构化剪枝是缓解这一瓶颈的主流方法。然而,作者通过分析发现,结构化
    的头像 发表于 07-17 10:50 1556次阅读
    <b class='flag-5'>transformer</b>模型详解:<b class='flag-5'>Transformer</b> 模型的<b class='flag-5'>压缩</b>方法