0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenVINO 2024.4持续提升GPU上LLM性能

英特尔物联网 来源:英特尔物联网 2024-10-12 09:41 次阅读

作者:

Yury Gorbachev 英特尔院士 OpenVINO 产品架构师

Whiteny Foster OpenVINO产品专家

翻译:

武卓 博士 英特尔 OpenVINO 布道师

本次新版本在整个 OpenVINO 产品系列中引入了重要的功能和性能变化,使大语言模型 (LLM) 的优化和部署在所有支持的场景中更容易、性能更高,包括边缘和数据中心环境的部署。

在客户端,在之前的版本中我们一直在努力工作,而这个版本则支持我们全新的 Intel Xe2 GPU 架构,该架构在最近推出的 Intel Core Ultra 处理器(第二代)中搭载。Xe2 架构由 Intel Xe Matrix Extensions (Intel XMX) 加速技术提供支持,我们与 oneDNN 和驱动程序团队的合作伙伴合作启用了该技术,以在矩阵乘法等计算密集型运算上实现最佳性能。由于矩阵乘法是 LLM 中的一个关键热点,因此在部署 LLM 时,使用 Xe2 架构的性能优势会立即显现出来。

我们不仅直接通过英特尔 XMX 优化了矩阵乘法,还创建了高度优化的 GPU 基元,如 缩放点积注意力(Scaled Dot Product Attention) 和旋转位置编码( Rotary Positional Embeddings),以减少这些复杂操作的执行流水线开销。我们致力于改善内存消耗并更有效地支持具有压缩权重的模型,从而使大型语言模型(LLM)的部署更适合笔记本电脑/边缘设备,并允许 LLM 适应最小的内存占用,这对于资源有限的环境至关重要。

我们所做的一些更改是通用的,并且会对其它平台产生显著影响,包括平台上的集成显卡(例如 Intel Core Ultra(第一代))和独立显卡(Intel Arc 系列)。

通过横跨数十个大语言模型的性能和准确性验证,我们衡量了整个模型集的这些改进。使用神经网络压缩框架 (NNCF) 优化框架中的权重压缩算法可以严格控制对模型准确性的影响。

对内置 显卡的性能进行比较,英特尔酷睿 Ultra 处理器(第二代)的 第2 个Token延迟性能比第一代 高出 1.3 倍,适用于 Llama3-8B 和 Phi-3-Mini-4k-Instruct 等 LLM,详情请参见下图。

36b15926-877f-11ef-b8af-92fbcf53809c.png

使用 OpenVINO 工具套件 2024.4 在最新的英特尔酷睿超级处理器(第二代)内置 GPU 上最大限度地提高 LLM 性能。有关工作负载和配置,请参阅附录。结果可能会有所不同。

除了 GPU,Intel Core Ultra 处理器(第二代)还引入了更强大的 NPU,具有 40 TOPS 的峰值推理吞吐量,这是对上一代产品的重大升级。OpenVINO 现在通过 OpenVINO GenAI 软件包为经典深度学习模型(例如计算机视觉语音识别和生成)和 LLM 提供对这种加速技术的访问。我们一直在与 NPU 团队合作,以提高性能、减少内存消耗并加快过去版本的模型编译速度,并将在未来的版本中继续增强。

使用 LLM 的另一种常用场景是通过模型服务,这意味着模型可以通过 REST API 被访问,并通过 vLLM 或 OpenVINO 模型服务器 (OVMS) 等框架来进行服务。对于此使用场景,我们还引入了新功能以增强解决方案特性。

OpenVINO 模型服务器(OVMS) 现在通过 OpenAI API 为 LLM 提供服务,并提供了启用前缀缓存功能的能力,该功能通过缓存提示词常见部分的计算来提高服务吞吐量。当提示词以相同的文本开头(例如“您是一个有用的 AI 助手”)或在聊天场景中使用 LLM 时,这尤其有用。我们还为 OVMS 中的 CPU 启用了 KV 缓存压缩,从而减少了内存消耗并改进了第二个Token延迟等指标。

从 OpenVINO 2024.4 版本开始,GPU 将支持分页注意力( PagedAttention) 操作和连续批处理,这使我们能够在 LLM 服务场景中使用 GPU。我们最初在对 vLLM 的贡献中启用此功能,并在此版本中将其扩展到 OpenVINO 模型服务器。这允许 Intel ARC GPU 在您的环境中以优化的服务特性提供 LLM 模型服务。查看适用于 CPU 和 GPU 的 LLM 服务演示,其中展示了如何利用这些功能。

LLM 服务演示

https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html

为了继续数据中心场景,OpenVINO 现在在英特尔至强处理器上运行时提供对 mxfp4 的支持,如开放计算项目规范中所定义。对于 LLM,与 BF16 精度相比,它允许在第二个令牌延迟上提高性能,同时减少内存消耗。神经网络压缩框架 (NNCF) 模型优化功能支持此功能,该功能允许将 LLM 权重压缩为这种格式。

定义

https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

从模型支持的角度来看,我们一直在与 Hugging Face 的合作伙伴一起更新 Optimum -Intel 解决方案。该方案允许在使用 OpenVINO 运行时时使用 Hugging Face API 运行模型,并高效导出和压缩模型以用于 OpenVINO GenAI 软件包 API。在此版本中,我们专注于支持 Florence 2、MiniCPM2、Phi-3-Vision、Flux.1 等模型。OpenVINONotebooks已经可用,用于演示如何在您选择的平台上将这些模型与 OpenVINO 一起使用。

OpenVINONotebooks

https://github.com/openvinotoolkit/openvino_notebooks

使用 Flux.1 和 OpenVINO生成文本到图像,并带有输入提示:一只小小的约克夏梗宇航员从月球上的蛋中孵化。https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/flux.1-image-generation

整个夏天,我们一直在与 Google Summer of Code 的优秀贡献者合作,结果令人鼓舞。我们一直在努力改进

ARM 平台上的生成式 AI

https://medium.com/openvino-toolkit/improve-openvino-performance-on-generative-ai-workload-on-arm-devices-with-5aee5808e23a,

支持RISC-V

https://medium.com/openvino-toolkit/my-journey-with-google-summer-of-code-2024-enhancing-openvino-for-risc-v-devices-b69568426aff

并探索许多其他令人兴奋的发展,我们很快将更详细地介绍这些发展。

谢谢您,我们期待在即将发布的版本中为您带来更多性能改进和新功能。有关此版本的更多详细信息,请参阅 发行说明。

发行说明

https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html

Appendix

附录

36febcb6-877f-11ef-b8af-92fbcf53809c.png

371ccbb6-877f-11ef-b8af-92fbcf53809c.png372832a8-877f-11ef-b8af-92fbcf53809c.png3745bbb6-877f-11ef-b8af-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19472

    浏览量

    231468
  • 英特尔
    +关注

    关注

    61

    文章

    10038

    浏览量

    172551
  • LLM
    LLM
    +关注

    关注

    0

    文章

    305

    浏览量

    450
  • OpenVINO
    +关注

    关注

    0

    文章

    101

    浏览量

    256

原文标题:OpenVINO™ 2024.4|支持新一代英特尔®酷睿™ Ultra处理器,持续提升GPU上LLM性能|开发者实战

文章出处:【微信号:英特尔物联网,微信公众号:英特尔物联网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    低比特量化技术如何帮助LLM提升性能

    针对大语言模型 (LLM) 在部署过程中的性能需求,低比特量化技术一直是优化效果最佳的方案之一,本文将探讨低比特量化技术如何帮助 LLM 提升性能
    的头像 发表于 12-08 15:26 1290次阅读
    低比特量化技术如何帮助<b class='flag-5'>LLM</b><b class='flag-5'>提升</b><b class='flag-5'>性能</b>

    Arm KleidiAI助力提升PyTorchLLM推理性能

    热门的深度学习框架尤为突出,许多企业均会选择其作为开发 AI 应用的库。通过部署 Arm Kleidi 技术,Arm 正在努力优化 PyTorch,以加速在基于 Arm 架构的处理器运行 LLM性能。Arm 通过将 Kle
    的头像 发表于 12-03 17:05 989次阅读
    Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch<b class='flag-5'>上</b><b class='flag-5'>LLM</b>推理<b class='flag-5'>性能</b>

    用Chiplet解决ASIC在LLM的成本问题

    电子发烧友网报道(文/周凯扬)虽说最近靠着GPT大语言模型的热度,英伟达之类的主流GPU公司赚得盆满钵满,但要说仗着GPU的高性能就能高枕无忧的话,也就未免有些痴人说梦了。未来随着LLM
    的头像 发表于 07-18 00:15 1348次阅读
    用Chiplet解决ASIC在<b class='flag-5'>LLM</b><b class='flag-5'>上</b>的成本问题

    如何使用iMX8mmini提高GPU性能

    我正在使用 iMX8mmini 并尝试提高 GPU 性能。使用下面的命令我发现当前 GPU 以 500 MHz 的频率运行。根据数据表或设备树节点,GPU 以 800 MHz 的标称频
    发表于 04-18 07:17

    GPUOpenVINO基准测试的推断模型的默认参数与CPU的参数不同是为什么?

    在 CPU 和 GPU 推断出具有 OpenVINO™ 基准的相同模型: benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m
    发表于 08-15 06:43

    在Raspberry Pi从源代码构建OpenVINO 2021.3收到错误怎么解决?

    在 Raspberry Pi 从源代码构建 OpenVINO™2021.3。 运行OpenVINO™推理,并收到错误消息: ModuleNotFoundError:没有
    发表于 08-15 08:24

    芯片开发商ARM宣布对CPU与GPU的一系列改进,性能大幅提升

    芯片开发商ARM宣布对CPU与GPU的一系列改进,当芯片在Windows笔记本运行时,性能大幅提升
    的头像 发表于 06-04 14:54 3910次阅读

    ARM新架构很给力,GPU性能提升了20%,但麒麟990无缘用上

    ARM早已经公布了下一代芯片架构,即A77的CPU核心和Mali-G77的GPU,这一代架构,在CPU性能将会提升20%左右,但GPU改变
    的头像 发表于 08-21 11:51 8974次阅读

    选择GPU服务器需要考虑哪些情况如何才能提升GPU存储性能

    GPU是我们常用器件,采用GPU,才使得图形显示成为可能。在上期文章中,小编对GPU的加速原理等知识有所阐述。为增进大家对GPU的认识,本文将基于两点介绍
    的头像 发表于 02-08 17:37 3528次阅读

    LLM性能的主要因素

    现在是2023年5月,截止目前,网络已经开源了众多的LLM,如何用较低的成本,判断LLM的基础性能,选到适合自己任务的LLM,成为一个关键
    的头像 发表于 05-22 15:26 1855次阅读
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    Nvidia 通过开源库提升 LLM 推理性能

    加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库,将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。 正如对相同硬件
    的头像 发表于 10-23 16:10 739次阅读

    深度解读各种人工智能加速器和GPULLM性能特征

    在不同的硬件平台上评估LLM对于理解传统和非传统体系结构的能力和局限性至关重要。先前的工作已经在超级计算机上研究了LLM,并使用传统的深度学习基准来提供对其能力的详细评估与分析。
    发表于 10-25 11:49 833次阅读
    深度解读各种人工智能加速器和<b class='flag-5'>GPU</b><b class='flag-5'>上</b>的<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>特征

    如何利用OpenVINO加速LangChain中LLM任务

    LangChain 是一个高层级的开源的框架,从字面意义理解,LangChain 可以被用来构建 “语言处理任务的链条”,它可以让AI开发人员把大型语言模型(LLM)的能力和外部数据结合起来,从而
    的头像 发表于 12-05 09:58 875次阅读

    解锁LLM新高度—OpenVINO™ 2024.1赋能生成式AI高效运行

    LLM 的发展仍保持着惊人的速度。尽管现有的 LLM 已经具备强大的功能,但通过 OpenVINO™ 的优化和推理加速,可以对这些复杂模型的执行进行精炼,实现更快、更高效的处理,减少计算开销并最大限度发挥硬件潜力,这将直接导致
    的头像 发表于 05-10 10:36 618次阅读

    解锁NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,确保您的 NVIDIA GPU 能发挥出卓越的推理性能
    的头像 发表于 12-17 17:47 336次阅读