0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型压缩技术,加速AI大模型在终端侧的应用

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-04-24 01:26 次阅读

电子发烧友网报道(文/李弯弯)当前,全球众多科技企业都在积极研究AI大模型,然而因为参数规模太大,要想实现AI大模型在边/端侧部署,需要用到模型压缩技术。当前谷歌、微软、腾讯等厂商在该领域均有布局,加速AI技术智能终端的融合。

为什么需要模型压缩技术

模型压缩是一种缩小训练后的神经网络的技术,目的是保证模型预测效果的前提下,尽可能地降低模型的大小。模型压缩之后,所需要的计算资源变小,有利于在移动端部署。

有一个很形象的例子,深度学习变脸业务,假设在模型优化前,原始模型处理每个视频要30秒,那么一张GPU卡一分钟只能处理2个视频。假设APP的使用峰值是1000人同时使用,那么这家公司至少要有500张GPU卡才能满足需求。

如果模型压缩技术能让模型变小许多,使得每个视频处理只需要10秒,那么这个客户可能只需要150张卡就能满足业务需求。每年的成本可以从原来的3000万控制在1000万左右,省下的2000万,就是模型压缩技术的价值。

量化、网络剪枝和知识蒸馏

模型压缩的方法主要有量化、网络剪枝、知识蒸馏。量化的意思是,将浮点计算转成低比特定点计算,模型由大量的浮点型权重组成,如果能用float32替代原有的float64表示,模型就近乎减小一倍,量化也是最容易实现的一种压缩方式。

传统意义上的量化即为将连续信号转换为离散信号,在神经网络的量化中,即将浮点数float32→int8,int4,int2等,量化其本质就是低精度,常规精度一般使用FP32存储模型权重,低精度则表示FP16,或INT8等数值格式,不过目前低精度往往指的是INT8。

模型压缩,使得原本只能在云端运行大模型,也能够部署在终端设备上。比如,近年来很流行的基础模型 Stable Diffusion ,它是一个非常出色的从文本到图像的生成式 AI 模型,能够基于任何文本输入,在数十秒内创作出逼真图像。Stable Diffusion 的参数超过 10 亿,此前主要限于在云端运行。

高通 AI Research 利用高通 AI 软件栈(Qualcomm AI Stack)执行全栈 AI 优化,首次实现了在Android智能手机上部署 Stable Diffusion,其中就用到了模型压缩技术量化的方法。

据介绍,高通的全栈 AI 研究指跨应用、神经网络模型、算法、软件和硬件进行优化。针对 Stable Diffusion,他们从 Hugging Face 的 FP32 1-5 版本开源模型入手,通过量化、编译和硬件加速进行优化,使其能在搭载第二代骁龙 8 移动平台的手机上运行。

为了把模型从 FP32 压缩为 INT8,高通使用了其 AI 模型增效工具包 (AIMET) 的训练后量化。自适应舍入 (AdaRound) 等先进的高通 AIMET 量化技术能够在更低精度水平保持模型准确性,无需进行重新训练。

这些技术能够应用于构成 Stable Diffusion 的所有组件模型,即基于 Transformer 的文本编码器、VAE 解码器和 UNet。这对于让模型适合于在终端上运行至关重要。

网络剪枝,是指除神经网络中冗余的通道、神经元节点等。深度学习模型可以看作是一个复杂树状结构,如果能减去一些对结果没什么影响的旁枝,就可以实现模型的减小。

模型的构成是由许多浮点型的神经元相连接,每一层根据神经元的权重将信息向下传递。但是有一些神经元的权重非常小,这类神经元对整个模型加载的信息影响微乎其微。如果可以把这些权重较小的神经元删减掉,既减少了模型大小,也不会对模型的效果带来大的影响。

每一层把数值小的神经元去掉,但是剪枝粒度维持到多大也是有讲究的,比如可以把每层最小的5个减掉,也可能只剪3个,或者每层有每层不同的策略。剪多了,模型精度影响会比较大,剪少了没有效果。所以这里面需要大量的尝试和迭代。

知识蒸馏,是指将大模型作为教师模型,用其输出训练性能接近、结构更简的学生模型。一般而言,大模型往往是单个复杂网络或者是若干网络的集合,拥有良好的性能和泛化能力,而小模型因为网络规模较小,表达能力有限。

因此,可以利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是参数数量大幅降低,从而实现模型压缩。

小结

当下,AI大模型发展如火如荼,然而因为参数规模太大,不仅仅是训练,大模型的部署推理,也需要倚赖丰富的计算资源。如果想要大模型能够在边/终端侧实现部署,这其中就需要用到模型压缩技术,如高通使用量化的方法,让Stable Diffusion能够在手机上运行。




声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30140

    浏览量

    268411
收藏 人收藏

    评论

    相关推荐

    抛弃8GB内存,端AI模型加速内存升级

    电子发烧友网报道(文/黄晶晶)端AI模型的到来存储市场产生了最直接的反应。年初我们对旗舰智能手机的存储容量统计中,16GB内存+51
    的头像 发表于 11-03 00:02 3974次阅读
    抛弃8GB内存,端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>加速</b>内存升级

    把握关键节点,美格智能持续推动端AI规模化拓展

    将成为和系统同样重要的存在,如果说电路是连接身体的“血管”,那么AI就将成为终端的智慧“大脑”。 ▶加速演进,大模型加速走向端
    的头像 发表于 11-25 16:45 26次阅读
    把握关键节点,美格智能持续推动端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>规模化拓展

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型处理复杂任务时的效率和响应速度。以下是对LLM大
    的头像 发表于 07-24 11:38 775次阅读

    AI模型MCU中的应用

    机遇。将AI模型集成到MCU中,不仅提升了设备的智能化水平,还使得设备能够执行更复杂的任务,实现自主决策和实时响应。本文将从AI模型MCU
    的头像 发表于 07-12 10:24 794次阅读

    AI模型与小模型的优缺点

    人工智能(AI)的广阔领域中,模型作为算法与数据之间的桥梁,扮演着至关重要的角色。根据模型的大小和复杂度,我们可以将其大致分为AI
    的头像 发表于 07-10 10:39 2376次阅读

    云知声边缘模型技术探索和应用

    解决的课题。 2024高工智能汽车开发者大会暨舱驾智能与跨域论坛上,云知声智慧座舱解决方案中心总经理鲍晴峰以《边缘模型带来智能座舱交互新体验》为题,分享了云知声边缘
    的头像 发表于 06-29 15:30 782次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    大语言模型基础技术21随着Transformer结构机器翻译领域取得巨大成功,研究人员开始探索其在其他自然语言处理任务中的潜力。很快,Transformer 结构被证明不仅适用于序列到序列的转换任务
    发表于 05-05 12:17

    高通支持Meta Llama 3大语言模型骁龙旗舰平台上实现终端执行

    高通和Meta合作优化Meta Llama 3大语言模型,支持未来的骁龙旗舰平台上实现终端执行。
    的头像 发表于 04-20 09:13 451次阅读

    NVIDIA加速识因智能AI模型落地应用方面的重要作用介绍

    本案例介绍了 NVIDIA 加速识因智能 AI模型落地应用方面的重要作用。生成式大模型已广泛应用于各领域,通过学习人类思维方式,能快速
    的头像 发表于 03-29 15:28 587次阅读

    真实用户体验,终端模型能为信息无障碍做些什么

    终端模型
    脑极体
    发布于 :2024年03月20日 17:04:44

    防止AI模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    ,应用场景和安全需求会有所不同。我会帮助客户构建安全的 AI模型。上面的只是一些基本的安全措施,实际中我可以利用eFPGA芯片对上述的功能进行加速,下面我编写一个
    发表于 03-19 11:18

    cubemx ai导入onnx模型压缩失败了怎么解决?

    cubemx ai导入onnx模型压缩失败。请问我怎么解决
    发表于 03-19 07:58

    AI模型怎么解决芯片过剩?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:42:05

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29

    AI模型加速落地已成必然趋势,芯片厂商提前布局!

    普遍认为,2024年AI模型商业应用会有极大突破。   “AI模型
    的头像 发表于 12-29 00:47 2173次阅读
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>在</b>端<b class='flag-5'>侧</b><b class='flag-5'>加速</b>落地已成必然趋势,芯片厂商提前布局!