0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Arm平台的服务器CPU在LLM推理方面的能力

Arm社区 来源:Arm社区 2024-09-02 10:39 次阅读

作者:Arm 基础设施事业部数据中心解决方案架构师 Ravi Malhotra

在过去一年里,生成式人工智能 (AI) 吸引了科技行业的目光,大家都在想方设法地将大语言模型 (LLM) 部署到其位于云端和边缘侧服务器上的应用中。虽然 GPU 和加速器凭借优异的性能,一直是这些部署任务的默认首选平台。但在推理领域,除了 GPU 和加速器之外,还有其他可行的选择。长期以来,CPU 一直被用于传统的 AI 和机器学习 (ML) 用例,由于 CPU 能够处理广泛多样的任务且部署起来更加灵活,因此当企业和开发者寻求将 LLM 集成到产品和服务中时,CPU 成了热门选择。

本文将介绍基于 Arm Neoverse 的 AWS Graviton3 CPU 在规模化灵活运行 Llama 3[1] 和 Phi-3[2] 等业内标准 LLM 方面的能力,并展示与其他基于 CPU 的服务器平台相比的主要优势。

AWS Graviton3 上的 LLM 性能

为了展示基于 Arm 平台的服务器 CPU 在 LLM 推理方面的能力,Arm 软件团队和我们的合作伙伴对 llama.cpp 中实现的 int4 和 int8 内核进行了优化,以利用这些较新的指令[3]。我们在 AWS Graviton3 平台上进行了多次实验,以测量不同场景下对性能的影响,并将影响因素隔离开。

所有实验均在 AWS r7g.16xlarge 实例上进行,该实例带有 64 个虚拟 CPU (vCPU) 和 512 GB 的内存。所用的模型是经过 int4 量化的 Llama3-8B。

提示词处理

提示词词元 (Token) 通常是并行处理的,即使对于单次操作 (batch=1),也会使用所有可用核心。在这方面,经过 Arm 优化,每秒处理的词元数提升了 2.5 倍;在处理更大的批次大小时,性能小幅提升。

wKgZombVJWOABZiwAAC1R4Lad8U807.jpg

图:提示词处理经优化得到提升

词元生成

词元生成以自回归的方式进行,对于所需生成的输出长度高度敏感。在这方面,经过 Arm 优化,吞吐量最多可提高两倍,有助于处理更大的批次大小。

wKgaombVJXGAU4KhAACZ1iY9KO8934.jpg

图:词元生成经优化得到提升

延迟

词元生成的延迟对 LLM 的交互式部署非常重要。对于下个词元响应时间 (time-to-next-token),100ms 的延迟是关键的目标指标,这是基于人们每秒 5-10 个单词的典型阅读速度计算得出的。在下方图表中,我们看到在单次操作和批量处理的场景下,AWS Graviton3 都能满足 100ms 的延迟要求,因此适合于作为 LLM 的部署目标。

我们使用了两组不同的模型 Llama3-8B 和 Phi-3-mini (3.8B),以展示不同规模的 LLM 的延迟情况。

wKgaombVJXqAZBYbAABbE4xCkOA083.jpg

图:AWS Graviton3 的下个词元响应时间延迟情况

即使是在 2019 年推出的 AWS Graviton2 这样的上一代 Arm 服务器平台上,也能运行多达 80 亿参数的新 LLM,并且在单次操作和批量处理的场景下,均能满足 100ms 的延迟要求。

wKgaombVJYSAI1e2AABhDyiVSbc280.jpg

图:AWS Graviton2 的下个词元响应时间延迟情况

性能比较

此外,我们使用经过 int4 量化的 Llama3-8B 模型,比较了它在 AWS Graviton3 与在 AWS 上其他新一代服务器 CPU 的性能。

AWS Graviton3:r7g.16xlarge,64 个 vCPU,512 GB 内存,3.43 美元/小时

第四代 Intel Xeon:r7i.16xlarge,64 个 vCPU,512 GB 内存,4.23 美元/小时

第四代 AMD EPYC:r7a.16xlarge,64 个 vCPU(SMT 关闭),512 GB 内存,4.87 美元/小时

我们发现,相较于其他两款 CPU,在提示词处理和词元生成方面,AWS Graviton3 的性能高出三倍。

wKgaombVJZCAInheAAC4THiDjZo711.jpg

图:提示词处理比较

wKgaombVJaGANHHKAACWWFYo87g573.jpg

图:词元生成比较

同样值得注意的是,AWS Graviton3 CPU 比第四代 x86 CPU 更具成本效益,这在 Graviton3 实例相对较低的定价中就有所体现。鉴于 LLM 对算力的要求已经非常高,以单位价格词元数量来计算总体拥有成本 (TCO),是推动 LLM 在数据中心内广泛采用的关键。

在这一点上,AWS Graviton3 拥有显著优势,每美元词元数量最高多了三倍,不仅在 CPU 中处于领先,也为希望在采用 LLM 的过程中逐步扩大规模的用户提供了令人信服的优势。

wKgaombVJcaAWj85AACBjQtvHZ8341.jpg

图:LLM 推理的 TCO 比较

结论

当开发者想要在其应用中部署专用 LLM 时,服务器 CPU 为开发者提供了灵活、经济和简化的起点。Arm 新增了几项关键特性,有助于显著提升 LLM 的性能。得益于此,基于 Arm Neoverse 的服务器处理器(如 AWS Graviton3)不仅能提供优于其他服务器 CPU 的 LLM 性能,还能为更多应用开发者降低采用 LLM 的门槛。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    134

    文章

    9105

    浏览量

    367916
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10873

    浏览量

    212099
  • 服务器
    +关注

    关注

    12

    文章

    9218

    浏览量

    85594
  • 人工智能
    +关注

    关注

    1792

    文章

    47374

    浏览量

    238877

原文标题:在基于 Arm Neoverse 的 AWS Graviton3 CPU 上实现出色性能

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    安谋科技与鸿钧微电子携手,加速服务器CPU产业和生态落地

    深入合作。双方将依托安谋科技高性能Arm IP及自研产品,结合鸿钧微电子通用处理领域丰富的研发经验和强大的产品创新能力,共同推进Arm
    的头像 发表于 05-24 14:24 2297次阅读
    安谋科技与鸿钧微电子携手,加速<b class='flag-5'>服务器</b><b class='flag-5'>CPU</b>产业和生态落地

    AI推理CPU当道,Arm驱动高效引擎

    本应发挥关键作用,但其重要性却常常被忽视。   “对于那些希望将大语言模型(LLM)集成到产品和服务中的企业和开发者来说,CPU 通常是首选”。Arm 中国区业务全球副总裁邹挺
    的头像 发表于 11-13 14:34 2482次阅读
    AI<b class='flag-5'>推理</b><b class='flag-5'>CPU</b>当道,<b class='flag-5'>Arm</b>驱动高效引擎

    Arm芯片引领国产服务器逆袭?

    架构,不断创新,逐步构筑能效、成本、生态环境等方面的优势。基于开放的Arm芯片IP授权,众多厂商共同参与了Arm服务器架构规范标准的制定。2016年4月,
    发表于 06-03 13:20

    Arm服务器助力解决CPU的设计问题

    的 Neoverse 平台提供了设计一款服务器 CPU 的基础,包括 CPU 核心的微架构和配套的制程。Arm
    发表于 09-08 14:32

    服务器CPU

    服务器CPU 服务器CPU,顾名思义,就是服务器上使用的
    发表于 12-17 10:15 585次阅读

    AMD推出首款基于ARMCPU与开发平台 加快ARM服务器生态系统发展

    加快ARM服务器生态系统发展,AMD推出首款由服务器处理厂商研发的基于ARMCPU与开发
    发表于 02-11 15:36 1030次阅读

    ARM服务器CPU终于正式量产

    昨日,期盼已久的ARM服务器CPU终于正式量产了!---贵州华芯通半导体技术有限公司 (以下简称 “华芯通”) 北京国家会议中心举办新品发布会,宣布其第一代可商用的
    的头像 发表于 12-01 09:00 7486次阅读

    华为首款Arm架构服务器CPU鲲鹏920,业界最高性能Arm架构服务器CPU

    TaiShan系列服务器主要面向大数据、分布式存储和ARM原生应用等场景,发挥ARM架构多核、高能效等方面的优势,为企业构建高性能、低功耗
    的头像 发表于 01-09 09:39 1.2w次阅读

    关于Arm服务器芯片的现状和发展分析

    从华为公布的测试数据来看,鲲鹏920Arm原生应用方面的优势最为明显,具有2倍于同类产品的性能。除了安卓APP和移动游戏外,基于Arm的IoT平台
    的头像 发表于 08-29 09:45 9042次阅读

    腾讯云TI平台利用NVIDIA Triton推理服务器构造不同AI应用场景需求

    腾讯云 TI 平台 TI-ONE 利用 NVIDIA Triton 推理服务器构造高性能推理服务部署平台
    的头像 发表于 09-05 15:33 1962次阅读

    如何使用NVIDIA Triton 推理服务器来运行推理管道

    使用集成模型 NVIDIA Triton 推理服务器上为 ML 模型管道提供服务
    的头像 发表于 07-05 16:30 1433次阅读
    如何使用NVIDIA Triton <b class='flag-5'>推理</b><b class='flag-5'>服务器</b>来运行<b class='flag-5'>推理</b>管道

    EDA软件ARM服务器的应用解析

    将EDA软件应用于ARM服务器的方向上,专注数字实现EDA的芯行纪科技有限公司(以下简称“芯行纪”)旗下智能布局规划工具AmazeFP已能支持ARMv8服务器,如图二所示,
    发表于 09-15 12:25 885次阅读
    EDA软件<b class='flag-5'>在</b><b class='flag-5'>ARM</b><b class='flag-5'>服务器</b>的应用解析

    服务器cpu和普通电脑cpu的区别

    服务器CPU和普通电脑CPU之间存在许多区别。以下文章中,我们将详细介绍服务器CPU和普通电脑
    的头像 发表于 02-01 11:14 6733次阅读

    gpu服务器cpu服务器的区别对比,终于知道怎么选了!

    gpu服务器cpu服务器的区别主要体现在架构设计、性能特点、能耗效率、应用场景、市场定位等方面以上几个
    的头像 发表于 08-01 11:41 515次阅读

    服务器cpu和台式机cpu区别

    服务器CPU和台式机CPU的区别是一个复杂的话题,涉及到多个方面,包括设计、性能、功耗、可靠性、成本等。 服务器
    的头像 发表于 10-10 15:12 1277次阅读