人工智能 (AI) 正在改变消费电子设备,并且革新生产力、创造力和娱乐体验,这将带来更高程度的自动化、沉浸感和个性化,为开发者和最终用户提供海量机会。随着推动移动端系统级芯片 (SoC) 的设备端生成式 AI 的发展,AI 技术正持续演进。
依托于Arm 全面计算解决方案的成功,我们宣布推出面向消费电子设备的全新计算子系统,即 Arm 终端计算子系统 (CSS)。作为 AI 体验的计算基础,它能在最广泛类别的消费电子设备中,实现性能、效率和可扩展性的跨越式提升。
Arm 终端 CSS 囊括最新的 Armv9.2 Cortex CPU 集群和 Arm Immortalis 与 Arm Mali GPU、CoreLink 互连系统 IP,以及知名代工厂采用三纳米工艺生产就绪的 CPU 和 GPU 物理实现。该平台为我们的合作伙伴提供了生产芯片的最快途径。通过物理实现,Arm 的合作伙伴能够利用前沿三纳米工艺的各种优势,同时实现高度灵活、可定制的芯片设计。
深入了解 Arm 终端 CSS
Arm 终端 CSS 采用最新 Armv9.2 CPU 集群,其中集成了 Arm 目前最高性能的 Arm Cortex-X925 CPU、最高效的 Cortex-A725 CPU 和更新后的 Cortex-A520 CPU。这为 AI 和其他实际用例计算工作负载提供出色的性能和效率。
图:Arm 终端 CSS 涵盖哪些要素?
最新的 CoreLink 互连实现了 Arm 终端 CSS 的系统集成和扩展。集成的系统级缓存 (SLC) 通过减少 DRAM 带宽和访问来实现更出色的系统能效。系统内存管理单元 (SMMU) 通过第二阶段转换加强安全性,以便支持如安卓虚拟化框架 (AVF) 等虚拟化安全框架。
凭借基于第五代 GPU 架构、面向旗舰智能手机所设计的 Arm Immortalis-G925,Arm 终端 CSS 实现了惊人的图形和主机级别的游戏性能。通过增强的性能和能效,用户可以在移动设备上享受更长时间、更沉浸式的游戏体验。
Arm 终端 CSS 将成为第一代采用三纳米工艺节点的安卓 SoC 的一部分,从而在芯片中实现出色的功耗、性能和面积 (PPA)。作为终端 CSS 的一部分,Arm 的物理实现能够全面释放三纳米工艺技术的潜力,为高端平台充分发挥 PPA 优势,并为我们的合作伙伴打造芯片创建最快途径。
我们携手领先的代工厂合作伙伴,协同设计并交付 CPU 和 GPU 物理实现,其中包括流片就绪的 Cortex-X925 CPU 以及 Immortalis-G925 三纳米工艺的物理实现。这将有助于我们的合作伙伴在三纳米工艺上取得 PPA 优势,同时通过生产就绪的芯片解决方案来缩短芯片的开发与部署时间。此外,我们的合作伙伴能够灵活地使用 Arm 终端 CSS 来构建特定市场、具差异化特色的 CPU 集群和 GPU。
突破计算和 AI 性能的极限
终端 CSS 是 Arm 目前面向安卓系统速度最快的平台,与 2023 Arm 全面计算解决方案 (TCS23) 平台相比,在关键基准和一般计算用例方面取得了显著改进。其中包括:
通过 Geekbench 6 单核分数测量可知,得益于新的 Cortex-X925,峰值性能提高 36%;
在前十大应用中,五款应用的平均启动时间加快了 33%,不仅提高了生产力,也带来了流畅的移动体验;
通过 Speedometer 2.1 浏览器基准测量时,网页浏览速度加快了 60%;
在包括光线追踪和可变速率着色 (VRS) 基准等七项图形基准中,峰值图形性能平均提高 30%。
图:Arm 终端 CSS 的部分性能优势
Arm 终端 CSS 平台提供由 AI 驱动的消费电子设备体验。今年早些时候,我们展示了大语言模型 (LLM) 如何在移动设备上的 Arm CPU 进行本地运行。借助终端 CSS,LLM 将得以在 Arm CPU 上更好地运行,带来更快的响应速度。当运行 Llama 3 LLM 和 Phi-3 LLM 时,该平台可将词元 (Token) 首次响应时间分别缩短 42% 以及 46%。
图:通过 Arm 终端 CSS 在 Arm CPU 上运行 LLM
此外,得益于新 Arm CPU 和 GPU 所取得的技术进展,在广泛的通用 AI 网络上,Arm 终端 CSS 的 AI 推理性能获得了显著的提升。例如,采用 Cortex-X925 时,推理速度加快 59%;采用 Immortalis-G925 时,AI 推理速度加快 36%。此外,通过在终端 CSS 的 CPU 集群配置中利用一颗额外的 Cortex-X925 CPU,我们观察到在 17 个主流网络中,针对 int8 和 fp16 数据类型的 AI 推理性能提高了惊人的 2.7 倍。这些在 AI 推理方面的改进可在一系列 AI 用例中实现无缝顺畅的用户体验。
图:Arm 终端 CSS 提升 AI 推理
Arm 终端 CSS 在计算摄影和 AI 摄像头等 AI 用例中的表现尤为优异。要想拍摄出美轮美奂且具有逼真焦外成像效果(让背景模糊并聚焦所选主体)的照片和视频,这并非易事。AI 摄像头的焦外成像管线由深度估计、分割、抠图和混合等多个阶段组成,可生成高质量的影像结果。与 TCS23 相比,通过 CPU 上针对焦外成像工作负载的 AI 处理,终端 CSS 的焦外成像性能提升了 24%。这意味着用户可以在不影响电池续航时间的前提下,在照片和视频上获得更快、更顺畅的焦外成像效果。
图:通过 Arm 终端 CSS 提升 AI 摄像头性能
此外,通过软件和工具的结合,Arm 终端 CSS 的性能与功耗得以获得进一步优化。Arm 新推出的 Kleidi 包含了经高度优化的机器学习 (ML) 软件内核集合 KleidiAI,能让开发者在通过高度优化的生成式 AI 框架运行 AI 工作负载时,全面释放 Arm CPU 的潜力。这意味着开发者能够面向各类设备,基于尽可能高的性能,快速构建 AI 应用。
为了获得更具沉浸感和更长时间的游戏体验,Arm 终端 CSS 实现了两位数的性能和能效提升,其中包括在一系列热门的手游中,平均以每秒 120 帧的速度运行时,在相同功耗下可带来 37% 的平均性能提升,同时 GPU 功耗降低 30%。
可扩展的性能覆盖各类消费电子设备市场
Arm 致力于让每个人都能享有 AI,并通过可应用在各类和各种不同外观设计的消费电子设备的终端 CSS,不断提升性能和效率。
Arm 终端 CSS 可扩展应用至市面上最高性能的消费电子设备,包括新一代 AI PC。其中的 Cortex-X925 与 Cortex-X4 CPU 相比,其 TOPS 提高 50%。终端 CSS 为 PC 市场提供专用的可扩展平台。该平台采用 Cortex-X925 以提供一流的单线程性能,并通过近期更新的 DSU-120(在单个 CPU 集群内提供多达 14 个 CPU 核心)提供最佳的性能可扩展性。除了 SVE2,更多的 Armv9 架构的功能,包括已在移动端生态系统验证的安全性技术,如指针验证 (PAC)、分支目标识别 (BTI)和内存标记扩展 (MTE) 等,也将引入 PC 市场。
通过终端 CSS,Arm 可为消费电子设备市场的各类性能和成本需求提供可获取的 AI 技术。Cortex-A725 是实现高能效 AI 吞吐量的主要处理器,在对成本更敏感的大众消费电子技术市场领域,它是 AI 处理的主力和主要开发者目标。例如,我们曾在一个虚拟助手演示中,展示了在搭载三核 Cortex-A700 系列 CPU 核心的现有安卓智能手机上,运行 Llama2-7B 和 Phi-3-mini (Phi-3 3.8B) LLM 的性能。与此同时,面积经优化的 Cortex-A725 可在广泛的消费电子技术领域中,以高面积效率实现生成式 AI 工作负载的部署。
消费电子技术的 AI 根基
Arm 终端 CSS 是为各类消费电子设备打造新一代 AI 体验的专用平台。终端 CSS 是 Arm 针对安卓系统速度最快的计算平台,这将使得用户能够在其移动设备上获得前所未有的安卓体验。该平台的 PPA 优势通过物理实现得以达成,助力我们的芯片合作伙伴缩短产品上市时间并顺畅部署。终端 CSS 的可扩展性能有助于在各种类型、不同外观设计的设备的所有成本点上释放 AI 性能,使得人人都能享有 AI。
Arm 终端 CSS 使得我们的生态系统能够实现更多突破,无论是释放更多性能、实现更多 AI 功能和应用体验,还是打造更先进的芯片,Arm 平台是这一切的基础。凭借终端 CSS,Arm 为当前和未来的 AI 体验构建消费电子计算的未来。
-
摄像头
+关注
关注
59文章
4807浏览量
95395 -
SoC芯片
+关注
关注
1文章
608浏览量
34864 -
人工智能
+关注
关注
1791文章
46838浏览量
237493 -
机器学习
+关注
关注
66文章
8375浏览量
132397
原文标题:Arm 终端 CSS 为 AI 用户体验提供计算平台
文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论