0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

澎峰科技高性能大模型推理引擎PerfXLM解析

perfxlab 来源:perfxlab 2024-09-29 10:14 次阅读

自ChatGPT问世以来,大模型遍地开花,承载大模型应用的高性能推理框架也不断推出,大有百家争鸣之势。在这种情况下,澎峰科技作为全球领先的智能计算服务提供商,在2023年11月25日发布了针对大语言模型的高性能推理框架,并受到广泛关注。在历经数月的迭代开发后,澎峰科技重磅发布升级版本,推出全新的高性能大模型推理引擎:PerfXLM。

PerfXLM采用了云端一体架构,支持云端推理和本地推理两种模式。在硬件支持上,PerfXLM适配了包含多种国产处理器在内的不同硬件,并针对硬件体系结构特征进行了深入性能优化,大幅提升了大模型推理性能。

一、PerfXLM整体架构

wKgZomb4uDOATSGEAAGRHaV4N2Q254.png

图1.PerfXLM整体架构

如图1所示,PerfXLM整体架构分为三层:

1.模型转换层。将Torch或者Huggingface格式的大模型转化为统一的内部模型结构,并最终统一表达为ONNX图。

2.推理引擎层。实现了ONNX图解析、算子调度、统一内存管理等功能,大幅提升硬件资源利用率;同时,也提供了针对云端推理的专用Serving模块,以获得更高的硬件利用率和QPS响应。

3.性能层。提供了针对大模型推理的高性能算子库,并针对各种主流硬件进行了适配和优化。

PerfXLM具有的三大特点:

1.云端一体,同时支持云侧和端侧大模型推理,能够让大模型适用于各种应用场景之中。

2.支持多异构平台,支持了包括NVIDIA GPU、海光DCU、高通Adreno GPU、Intel iGPU、某国产GPU在内的多种硬件设备

3.高性能定制优化算子,实现了结合体系结构特征和大模型推理应用特征的定制优化。

二、大模型推理中的MxN问题

PerfXLM向上对接各种模型网络,向下适配各种硬件架构。这就存在着一个组合问题:假设需要支持M个模型和N种硬件,那么一共有MxN种组合方式。PerfXLM需要实现对主流模型的支持,目前主流模型大概有几十种,国内甚至一度“千模大战”。同时,PerfXLM也需要实现对主流硬件的支持,包括NVIDIA GPU、AMD GPU、海光DCU、沐曦GPU等通用GPU架构;X86、ARMRISC-V等通用CPU架构;高通Adreno GPU、ARM MALI GPU等移动GPU架构;华为昇腾、寒武纪MLU、燧原等专用处理器架构等。考虑到模型和硬件的迅猛发展,这个组合数大概有上千种,这就对大模型推理框架提出了很高的兼容性要求。

面对这样的一个复杂问题,PerfXLM提出了一套解决方案:通过统一的模型表达,实现了对不同大模型的快速支持;通过统一算子API的定义,实现了对大模型图的快速算子构建;通过融合体系结构特征和应用特征的算子库的构建,实现了对不同硬件的快速适配。

同时,为了便于用户使用,PerfXLM上层采用了与vllm一致的顶层API接口。用户只需要在导入python模块时,简单地将vllm修改成perfxlm就能够将原有的代码运行起来并且获得更高的性能表现。具体的使用示例如下图。

wKgZomb4uD-Adc2eAAJc5XOMSy4470.png

图2. PerfXLM API接口

通过这样的一套架构体系,PerfXLM可以快速地支持新的模型和新的硬件。以近日Meta开源的LLaMA3为例,假设算子完备的情况下,只需几个小时的时间,就能够将该最新模型运行在各种主流硬件设备上。

三、PerfXLM性能

云侧和端侧的应用场景不同:云上侧重于多用户服务,关注的是整体吞吐;端侧侧重于单用户的使用体验,关注的是在低算力硬件上的响应速度和延迟。下面讲描述PerfXLM在单Batch和多Batch下的性能。

1)PerXLM在NVIDIA GPU上的性能

wKgZomb4uEyAYA7yAAFPSvcTt64452.png

图3. PerfXLM与vllm在A40上FP16的llama2性能对比

wKgZomb4uFeAKe8_AAFmM0A6MOo396.png

图4. PerfXLM与vllm在4090上FP16的llama2性能对比

wKgaomb4uGOAezZcAAFj5n8whQM162.png

图5.PerfXLM与vllm在A40上FP16的llama3性能对比

wKgZomb4uG2AHqYIAAFisDWGRBI637.png

图6.PerfXLM与vllm在4090上FP16的llama3性能对比

2)PerfXLM在海光DCU上的性能

wKgaomb4uHeATR0GAAG5vAuXWHk595.png

图7 PerfXLM与vllm在DCU Z100SM上的llama2性能对比

wKgaomb4uIKAbw6KAAGnzfy687A508.png

图8 PerfXLM与vllm在DCU Z100SM上的llama3性能对比

3)PerfXLM在国产某GPU上的性能

wKgZomb4uIyADm2LAAEtoH1PkrM646.png

图9 PerfXLM在某国产GPU上的性能

4)PerfXLM在高通Adreno GPU上的性能

wKgaomb4uJaAcdvlAADOB-FQEXM999.png

图10 PerfXLM在高通Adreno的性能(单batch)

5)PerfXLM在Intel iGPU上的性能

wKgaomb4uKCARmNDAAFwkUzpcgk783.png

图11 PerfXLM在Intel iGPU上的性能(单batch)

未来,PerfXLM将继续支持"更多的硬件 x更多的模型"。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 澎峰科技
    +关注

    关注

    0

    文章

    45

    浏览量

    3145
  • 大模型
    +关注

    关注

    2

    文章

    2171

    浏览量

    2087

原文标题:爆款·大模型推理引擎PerfXLM发布

文章出处:【微信号:perfxlab,微信公众号:perfxlab】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    赛昉科技与科技结成合作伙伴关系,共同推动RISC-V应用生态发展

    中国北京和上海 - 2021年8月5日 - 上海赛昉科技有限公司(简称:赛昉科技)与(北京)科技有限公司(简称:科技)共同宣布,结成合作伙伴关系,赛昉科技的开源单板计算机硬件平
    发表于 08-05 15:58

    赛昉科技与科技结成合作伙伴关系,共同推动RISC-V应用生态发展

    中国北京和上海 - 2021年8月5日 - 上海赛昉科技有限公司(简称:赛昉科技)与(北京)科技有限公司(简称:科技)共同宣布,结成合作伙伴关系,赛昉科技的开源单板计算机硬件平
    发表于 08-06 15:53

    压缩模型会加速推理吗?

    你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 将简单的 CNN 导入到 STM32L462RCT我发现压缩模型推理时间没有影响。aiRun 程序在 8
    发表于 01-29 06:24

    如何提高YOLOv4模型推理性能

    使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。 将 权重转换为 ONNX 文件,然后转换为中间表示 (IR)。 无法确定如何获得更好的推理性能
    发表于 08-15 06:58

    2023RISC-V中国峰会,科技成果发布抢先看!

    高性能计算领域设计的计算型服务器。衡山系列预装自研的高性能计算行业解决方案HPC SDK:数学计算库PerfMPL、异构计算框架PerfXAPI、科学计算软件PerfXPy等,使能
    发表于 08-15 18:28

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    场景介绍 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件设备 AI 模型推理的功能,目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。 本文介绍
    发表于 12-14 11:41

    用于深度学习推理高性能工具包

      推理引擎用于部署应用程序。使用部署管理器,您可以通过将模型、IR 文件、应用程序和相关依赖项组装到目标设备的运行时包中来创建开发包。
    的头像 发表于 08-16 11:27 557次阅读
    用于深度学习<b class='flag-5'>推理</b>的<b class='flag-5'>高性能</b>工具包

    推理引擎中去除TOPS的顶部

    毫无意义。真正重要的是推理引擎可以为模型、图像大小、批量大小和过程以及 PVT(过程/电压/温度)条件提供多少吞吐量。这是衡量其性能的第一标准,但令人惊讶的是,很少有供应商提供它。
    的头像 发表于 12-01 15:53 823次阅读

    科技发布大模型推理引擎PerfXLLM

    要的巨额开销也引发了相关研究者的关注。如何高效地进行推理,并尽可能地减少成本,从而促进大模型应用的落地成为了目前的关键问题。 于是,科技研发了一款 大
    的头像 发表于 11-25 15:35 949次阅读
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技发布大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLLM

    科技再获数千万融资,加速算力时代

    解决方案产品,为我国数字化转型升级打造智慧底座,同时确立公司在加速计算领域的国际领先地位。 科技(PerfXLab) 核心团队来自于中科院,于2016年在北京成立,致力于计算软件栈技术的研发,聚焦高性能计算、人工智能两大领域
    发表于 01-26 18:11 453次阅读
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技再获数千万融资,加速算力时代

    科技与并行科技共拓AI大模型技术创新应用服务

    4月17日,(北京)科技有限公司(以下简称“科技”)与北京并行科技股份有限公司(以下简称“并行科技”)签署战略合作协议。
    的头像 发表于 04-23 09:54 299次阅读
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技与并行科技共拓AI大<b class='flag-5'>模型</b>技术创新应用服务

    PerfXCloud大模型开发与部署平台开放注册

    PerfXCloud 介绍 PerfXCloud是科技为开发者和企业量身打造的AI开发和部署平台。它专注于满足大模型的微调和推理需求,为用户提供极致便捷的一键部署体验。 PerfX
    的头像 发表于 07-02 10:27 292次阅读
    PerfXCloud大<b class='flag-5'>模型</b>开发与部署平台开放注册

    科技CA100智能计算一体机核心优势解读

    科技PerfXLM Solution完整软件生态,自研异构计算软件栈PerfXAPI,PerfMPL高性能数学库、算子库、领域加速包,
    的头像 发表于 07-08 10:59 610次阅读
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技CA100智能计算一体机核心优势解读

    科技受聘为“主权级大模型”创新联合体学术委员会委员

    日前,“主权级大模型“创新联合体揭牌,科技CEO受聘为”主权级大模型“创新联合体学术委员会委员。
    的头像 发表于 09-02 17:37 649次阅读

    科技受邀参加全球AI芯片峰会,探讨大模型推理引擎PerfXLM面向RISC-V的移植和优化

    最高、影响力最强的产业峰会之一。 本届峰会由芯东西与智猩猩共同主办,以 「智算纪元 共筑芯路」 为主题。峰会采用“主会议+技术论坛+展览展示”的全新形式。科技创始人&CEO张先轶博士受邀参加于9月7日下午举办的中国RISC-V计算创新论坛,届时将与大家分享 「 面向R
    的头像 发表于 09-05 16:22 224次阅读
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技受邀参加全球AI芯片峰会,探讨大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>引擎</b><b class='flag-5'>PerfXLM</b>面向RISC-V的移植和优化