0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Arm Neoverse平台的处理器革新生成式AI体验

Arm社区 来源:Arm社区 2025-01-03 15:31 次阅读

作者:Arm 基础设施事业部 AI 解决方案架构师 Na Li

(Arm 工程部技术总监 Milos Puzovic 和 Arm 基础设施事业部软件工程师 Nobel Chowdary Mandepudi 参与了本文撰写)

Llama 是一个专为开发者、研究人员和企业打造的开源大语言模型 (LLM) 库,旨在推动生成式 AI 的创新、实验及可靠地扩展。Llama 3.1 405B 是 Llama 系列中性能领先的模型之一,然而部署和使用如此大型的模型对缺乏足够计算资源的个人或企业机构来说具有相当大的挑战。为了解决上述挑战,Meta 推出了 Llama 3.3 70B 模型。该模型在保持 Llama 3.1 70B 模型架构的同时,应用了最新的后训练技术以提升模型评估性能。同时,在推理、数学计算、常识理解、指令遵循和工具使用方面都有显著改进。尽管 Llama 3.3 70B 模型的体量显著减小,其性能却与 Llama 3.1 405B 模型相当。

Arm 工程团队与 Meta 紧密协作,在 Google Axion 上对 Llama 3.3 70B 模型进行了推理性能评估。Google Axion 是基于 Arm Neoverse V2 平台构建的定制 AArch64 处理器系列,通过 Google Cloud 提供。与传统的现成处理器相比,Google Axion 具备更高的性能、更低的能耗以及更强的可扩展性,充分满足了数据中心在 AI 时代的需求。

基准测试结果显示,在运行 Llama 3.3 70B 模型时,基于 Axion 处理器的 C4A 虚拟机 (VM) 可提供顺畅的 AI 体验,并在不同的用户批次大小下均达到了人类可读性水平,即人们阅读文本的平均速度,从而使开发者在基于文本的应用中,在获得与使用 Llama 3.1 405B 模型结果相当的高质量输出的同时,显著降低了对大量算力资源的需求。

Google Axion 处理器上运行

Llama 3.3 70B 的 CPU 推理性能

Google Cloud 提供的基于 Axion 的 C4A 虚拟机,最多可配备 72 个虚拟 CPU (vCPU) 和 576 GB RAM。在这些测试中,我们使用了中档高性价比的 c4a-standard-32 机器类型来部署 4 位量化的 Llama 3.3 70B 模型。为了运行我们的性能测试,我们使用了流行的 Llama.cpp 框架,该框架从 b4265 版本开始,已通过 Arm Kleidi 进行了优化。Kleidi 集成提供了优化的内核,以确保 AI 框架可以充分发挥 Arm CPU 的 AI 功能和性能。下面,我们来看看具体结果。

提示词编码速度是指语言模型处理和解释用户输入的速度。如图 1 所示,由于提示词编码利用了多核并行处理技术,因此在不同批次大小的测试中,其性能始终稳定在每秒约 50 个词元左右。此外,不同提示词规模测得的速度也相当。

b977af7c-c988-11ef-9310-92fbcf53809c.png

图 1:运行 Llama 3.3 70B 模型时的提示词编码速度

词元生成速度衡量的是运行 Llama 3.3 70B 模型时模型生成响应的速度。Arm Neoverse CPU 利用先进的 SIMD 指令(如 Neon 和 SVE)优化机器学习 (ML) 工作流,可加速通用矩阵乘法 (GEMM)。为了进一步提高吞吐量,尤其是在处理更大批次时,Arm 引入了专门的优化指令,如有符号点积 (SDOT) 和矩阵乘法累加 (MMLA)。

如图 2 所示,随着用户批次大小的增加,词元生成的速度相应提升,而在不同词元生成规模下测得的速度保持相对一致。这种在更大批次下实现更高吞吐量的能力,对于构建高效服务多用户的可扩展系统至关重要。

b99a8f24-c988-11ef-9310-92fbcf53809c.png

图 2:运行 Llama 3.3 70B 模型时的词元生成速度

为了评估多用户同时与模型交互时每个用户所感受到的性能,我们测量了每批次词元的生成速度。每批次词元的生成速度至关重要,因为这直接影响用户与模型交互时的实时体验。

如图 3 所示,当批次大小最多 4 时,词元生成速度可实现人类可读性的平均水平。这表明,随着系统扩展以满足多用户需求,其性能仍然保持稳定。为应对更多并发用户的需求,可以采用 vLLM 等服务框架。这些框架通过优化 KV 缓存管理显著提高了系统的可扩展性。

b9b1b3c0-c988-11ef-9310-92fbcf53809c.png

图 3:不同批次大小下,以批次模式运行 Llama 3.3 70B 模型时每个用户的提示词生成速度与人类可读性的平均水平的对比

革新生成式 AI 体验

Llama 3.3 70B 模型能够高效地发挥大规模 AI 的优势,预示着潜在的变革。由于 Llama 3.3 70B 模型使用较小的参数规模,不仅使生成式 AI 处理技术更容易被生态系统采用,同时也减少了所需的计算资源。此外,Llama 3.3 70B 模型有助于提高 AI 的处理效率,这对于数据中心和云计算工作负载至关重要。在模型评估基准方面,Llama 3.3 70B 的性能也与 Llama 3.1 405B 模型相当。

通过基准测试工作,我们展示了基于 Arm Neoverse 平台的 Google Axion 处理器在运行 Llama 3.3 70B 模型时可提供流畅高效的体验,并在多个用户批次大小测试中实现了与人类可读性水平相当的文本生成性能。

我们很荣幸能继续与 Meta 保持密切的合作关系,在 Arm 计算平台上实现开源 AI 创新,从而确保 Llama LLM 跨硬件平台顺畅、高效地运行。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19317

    浏览量

    230099
  • ARM
    ARM
    +关注

    关注

    134

    文章

    9104

    浏览量

    367870
  • Neoverse
    +关注

    关注

    0

    文章

    9

    浏览量

    4609
  • 生成式AI
    +关注

    关注

    0

    文章

    505

    浏览量

    488

原文标题:在基于 Arm Neoverse 平台的处理器上实现更高效的生成式 AI

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    向Intel发起重型计算挑战 ARM发布Neoverse 处理器

    ARM 基础设施事业部总经理 Drew Henry 表示:该公司将处理器技术授权给许多企业,通常会用于智能手机等对功耗较敏感的设备。不过 Neoverse 主要面向计算类基础设施,包括服务
    发表于 10-17 10:10 855次阅读

    基于NXP iMX6Q ARM处理器的Apalis iMX6Q ARM嵌入平台

    Parallel Camera Interface,MIPI/CSI-2 串行摄像头接口,USB接口,网络接口等。本文所演示的ARM平台来自于Toradex 基于NXP iMX6Q ARM处理
    发表于 12-29 07:02

    Arm Neoverse N1软件优化指南

    本文档提供了有关Neoverse N1管道、指令性能特征和特殊性能注意事项的高级信息。此信息旨在帮助优化Neoverse N1软件和编译的人员。有关Neoverse N1
    发表于 08-11 06:56

    Arm Neoverse V2参考设计版本C技术概述

    内存。 支持双通道内存的接口·基于ARM®Cortex®-M7处理器的系统控制处理器和可管理性控制处理器·ARM®酷睿™调试和跟踪支持·面向
    发表于 08-11 07:54

    ARM,ARM处理器是什么意思

    ARM,ARM处理器是什么意思 ARM处理器简介 ARM(Advanced RISC Mach
    发表于 03-26 10:53 5285次阅读

    ARM嵌入处理器结构与应用基础

    ARM嵌入处理器结构与应用基础,针对ARM7处理器系列。
    发表于 05-06 16:09 9次下载

    ARM推出了一个名叫Neoverse处理器家族,叫板Intel

    ARM 基础设施事业部总经理 Drew Henry 表示:该公司将处理器技术授权给许多企业,通常会用于智能手机等对功耗较敏感的设备。不过 Neoverse 主要面向计算类基础设施,包括服务
    的头像 发表于 10-19 10:07 4783次阅读

    浅谈arm处理器的优势

    目前,世界正在向物联网、人工智能的潮流迈进,也随着物理网、人工智能技术上的发展与推进,微处理器技术也在不断革新,各种新型微处理器的应用也在不断深入。对于现阶段大量32位嵌入应用的出现
    发表于 10-26 10:27 1.2w次阅读

    Arm推出Neoverse处理器家族 大有对标Intel之势

    从PC时代到移动时代,Arm凭借对ASIC架构的深耕占据了全球90%以上的市场,成为人工智能芯片市场中最被忌惮的巨头之一。最近,Arm推出了一个名叫Neoverse处理器家族,将为每
    发表于 11-02 17:35 1254次阅读

    ARM推出新一代Neoverse处理器平台,面向5nm及3nm工艺性能提升30%以上

    作为移动处理器中的霸主,ARM想要抢数据中心处理器市场的野心也不是一天两天了,为此他们专门推出了Neoverse处理器
    的头像 发表于 09-23 16:08 2064次阅读
    <b class='flag-5'>ARM</b>推出新一代<b class='flag-5'>Neoverse</b><b class='flag-5'>处理器</b><b class='flag-5'>平台</b>,面向5nm及3nm工艺性能提升30%以上

    Arm推出新一代平台 Neoverse V2 平台

    目前,Arm Neoverse家族包括:V系列、N系列以及E系列。就在今年9月,Arm Neoverse迎来新的进展,推出新一代平台
    的头像 发表于 09-26 09:22 1460次阅读

    基于ARM的嵌入电机控制处理器构建的模型设计平台

    电子发烧友网站提供《基于ARM的嵌入电机控制处理器构建的模型设计平台.pdf》资料免费下载
    发表于 11-24 14:39 0次下载
    基于<b class='flag-5'>ARM</b>的嵌入<b class='flag-5'>式</b>电机控制<b class='flag-5'>处理器</b>构建的模型设计<b class='flag-5'>平台</b>

    Arm发布新一代Neoverse数据中心计算平台AI负载性能显著提升

    据公开信息显示,Arm去年推出的Neoverse CSS运算子系统提供了包含处理器设计的预验证平台,加快了定制SoC上市进程,首发型号为Neover
    的头像 发表于 02-22 14:48 719次阅读

    Google Cloud推出基于Arm Neoverse V2定制Google Axion处理器

    Arm Neoverse 平台已成为云服务提供商优化其从芯片到软件全栈的心仪之选。近日,Google Cloud 推出了基于 Arm Neovers
    的头像 发表于 04-16 14:30 659次阅读

    ArmArm Neoverse计算子系统(CSS):Arm Neoverse CSS V3和Arm Neoverse CSS N3

    Arm宣布了两款新的Arm Neoverse计算子系统(CSS),它们基于“迄今为止最好的一代Neoverse技术”。是什么让这些新产品在拥挤的计算技术领域脱颖而出?
    的头像 发表于 04-24 17:53 1091次阅读
    <b class='flag-5'>Arm</b>新<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b>计算子系统(CSS):<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> CSS V3和<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> CSS N3