0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从AI手机到AI PC,Arm拿什么打造AI盛宴?

花茶晶晶 来源:电子发烧友 作者:黄晶晶 2024-06-27 17:31 次阅读

电子发烧友网报道(文/黄晶晶)去年,Arm基于Armv9.2架构推出了Cortex-X4内核,更早前还有Cortex-X3/2/1内核。今年,Arm推出了第二代Armv9.2 CPU 集群,其中包括Cortex- X925,这一次并没有延用单个数字,如Cortex-X5这样的命名方式。在最近包括电子发烧友在内参与的Arm技术媒体分享日期间,Arm技术专家表示,Cortex-X925是Cortex-X推出以来取得最高IPC同比增幅的CPU,Arm想以此来清楚呈现其与前代产品的不同。与此同时,Cortex-X925 CPU与Immortalis-G925 GPU进行命名上的统一,以表明这些是真正的旗舰高端 IP,也是Arm终端CSS的基石。

Arm 终端计算子系统 (CSS) 作为最新的Arm计算平台,首次在终端领域为Arm CPU和GPU交付物理实现。此举也将使构建基于 Arm 架构的解决方案变得更加简单,确保万无一失。

联发科将基于Arm Cortex- X925 CPU和 Arm Immortalis-G925 GPU推出新一代天玑9400手机SoC。同时, Arm 也在与生态系统合作伙伴紧密合作,计划推出面向AI PC的处理器。前不久,Arm CEO公开表示希望Arm在5年内拿下50%的Windows PC 市场。这一切都将基于Arm最新的CPU和GPU以及着眼于未来数年发展的CSS来实现。

一个平台助力3nm芯片量产、端侧AI:Arm终端计算子系统

AI时代,生产力应用需要高性能平台来为高分辨率屏幕提供高刷新率;高端游戏应用已经采用了计算复杂型技术,为用户带来视觉震撼的游戏体验;创意工作者正在不断开辟将手机用于专业摄影用例的无尽可能。这些用例需要强大的计算能力作为支撑,并且正在通过 AI 得到进一步增强。在终端设备上打造新一波具有突破性的端侧生成式 AI 体验,全新的计算平台能力必不可少。Arm最新推出的终端计算子系统(CSS) 聚焦于实现平台能力的重大飞跃,优先考虑了四个关键领域:突破性能边界以处理要求苛刻的安卓实际工作负载;针对生成式 AI 以及更广泛的 AI/ML 和计算机视觉工作负载提高性能;持续专注于实现两位数的系统能效提升;扩展平台以获得更高的性能点,满足新一代 AI PC 设备的需求(包括笔记本电脑和平板电脑)。
wKgaomZ9N-SAVe3LAAUiqts5XnU340.png

Arm终端CSS包括第二代 Armv9.2 CPU 集群,内含性能最强的 Arm Cortex-X — Cortex-X925 CPU 以及效率最高的 Cortex-A 核心——Cortex-A725 和更新后的 Cortex-A520 CPU,让三纳米工艺上的性能和效率达到全新水平。基于第五代 Arm GPU架构的全新GPU系列包括专为旗舰移动设备设计的 Arm Immortalis-G925,以及面向大众行业市场移动设备的 Arm Mali-G725和Mali-G625。

新的Arm终端CSS 物理实现面向超过3.6GHz的运行频率,并在先进的三纳米工艺上实现了一流的平台功耗、性能和面积 (PPA)。这些实现在多家代工厂可用,为合作伙伴提供更大的灵活性。适用于安卓系统的 CSS 参考软件栈搭配固定虚拟平台 (Fixed Virtual Platform, FVP),助力合作伙伴加速流片前的软件开发。

wKgaomZ9N-2AEyIHAAMwmW9Wgsg061.png


此外,全新 Arm Performance Studio 提供了全方位工具环境,帮助开发者简化开发流程,充分发挥 Arm 终端 CSS 的潜力。

Arm 终端事业部产品管理总监Steve Hopper详细解析了基于FPGA为终端CSS构建的内部参考平台上运行安卓软件栈的性能表现。他表示,作为Arm最快的安卓平台,终端CSS在基于 2+4+2(2个Cortex-X925 + 4个Cortex-A725 + 2个Cortex-A520)的CPU集群配置的表现来看,配置上包含第二个Cortex-X925是为了提高CSS 平台上重要用例的性能,如应用启动和 AI 性能。并且通过将 L3 缓存大小从 8MB 增加到 16MB,并在集群中所有核心之间共享,计算量大的工作负载实现进一步加速。

wKgaomZ9N_qAD1VDAAMKh7DB1NU972.png

相比去年基于FPGA的安卓旗舰配置实现,2+4+2 CPU 集群将应用启动提速约 33%。通过集群的升级,包括额外的 Cortex-X 核心,并将 L3 缓存增加到 16MB,性能提升了约10%。对于 AI 大语言模型 (LLM),测量到终端 CSS 平台上词元 (Token) 首次响应时间,结果显著提升46%和42%。

wKgaomZ9OAWAMfUwAAI9Ox31G4k313.png


Arm 终端 CSS同时致力于进一步推动移动端 LLM 性能的提升,使其成为端侧生成式 AI 体验的最佳平台。词元首次响应时间 (TTFT) 指标用以衡量生成首个响应词元的速度。通过终端 CSS、Cortex-X925 和 KleidiAI 技术,对于具有 3.8B 参数模型的 Phi-3 的 TTFT,实现46%的显著提升;而对于具有 8B 参数的更大模型 Llama 3,TTFT 性能提高了惊人的42%。

对于 Immortalis-G925,在17 个主流 AI 网络(使用 fp16 数据类型)上观察到 AI 推理速度平均提高了 36%。Cortex-X925 CPU的推理速度与上一代 Cortex-X4 相比提升59%。通过利用一颗额外的 Cortex-X925 CPU,在 17 个主流 AI 网络中 int8 和 fp16 数据类型的 AI 推理时间大幅提升了170%。

wKgaomZ9OA6AfchHAAKwlL0spIM134.png


可以说,作为一个可扩展平台,Arm 终端 CSS 为CPU 和 GPU 上的 AI 推理工作负载带来了显著的性能飞跃。这是硬件进步与 Arm Compute Library 优化相结合所产生的强大效果。

70%的第三方ML/AI应用运行在CPU

Arm Cortex-X系列自2020年推出以来主要聚焦于优化提高单线程性能。Cortex-X1到X4的迭代都是如此。今年推出的Cortex-X925 CPU设计更具创新性。

“要实现优异性能,并非只涉及单个因素,要综合考虑每时钟周期指令数 (IPC)、频率、编译器、操作系统 (OS)、封装等多个方面。因此,我们革新设计理念,通过协同设计IP与物理解决方案,不仅实现量产就绪,而且具备领先的性能、功耗和面积 (PPA) 表现。”Arm终端事业部高级产品经理Manish Pandey说道。

基于以上设计理念,Arm正在改变Cortex-X CPU性能的发展轨迹。具体来看Arm Cortex-X925,它是Arm推出的迄今为止速度最快、性能最强的CPU。

通过结合前沿的微架构功能、可配置性和先进的物理解决方案,Cortex-X性能表现得到大幅提升。Cortex-X925的单线程性能提升36%(这有赖于对缓存大小、先进的功耗与热管理技术,以及更新运行时Runtime选择上的进一步投入),AI 性能提高46%。

wKgZomZ9OBqAff0VAAVNNNE3qgo548.png


在先进的3nm工艺节点上Cortex-X925实现3.8GHz运行频率,使得下一代设备的 Geekbench得分提高30%以上。

Cortex-X925核心对端侧AI能力的提升显著,该核心优化AI的响应速度、网页浏览、图像和视频,以及更出色的高帧率游戏体验等。

在大语言模型 (LLM) 上,词元 (Token) 首次响应时间缩短约40%,同时在热门的 AI 网络中,推理速度提升高达 35%。这还只是ISO配置提升,再计入额外的缓存投入和工艺节点迁移提供的更高频率,能让设备实现更加出色的性能。

在功耗改进方面,在DVFS曲线的操作点上端,Cortex-X925在关键时刻达到峰值性能,这表现在设备响应速度显著提升。在操作点的中段范围内,Cortex-X925在给定的功耗范围内提升了性能,也就是在功耗和热设计受限的设备中能够实现更多功能。此外,在固定的计算需求下,Cortex-X925 降低了功耗,有助于延长电池续航时间。

Cortex-A700所对应的产品系列已经发展了14代,整个团队过去曾开发Cortex-A9(大约20年前的首个乱序执行 CPU)和 Cortex-A73(迄今出货量最高的乱序执行CPU)。现在,这个团队全面专注于 Cortex-A700 系列的性能效率。

今年推出的Arm Cortex-A725,在性能效率设计上主要是满足持续的AI和游戏体验,以及为这条产品线在三纳米工艺上实现最佳的物理解决方案。Cortex-A725与去年的产品相比,能效提高25%。AI是高度线程化的,可以非常有效地在多核上运行更多的计算。通过提升25%的能效,可为整个核心提供余量。

wKgZomZ9OCSABTd4AAHA_L2ILXA906.png


Cortex-A520也做了更新。针对三纳米工艺的实现,对于Cortex-A520 来说同样比较复杂。通过更新实现流程,并与专用集成电路 (ASIC)/芯片团队紧密合作,以确保在保持微架构不变的情况下,Arm为合作伙伴提供最佳的三纳米工艺解决方案。

wKgaomZ9OC2AJFdiAAJRoJG3Xgc563.png

依据不同的终端应用,Cortex-X925、Cortex-A725、Cortex-A520这几个核在设计时可进行组合。DSU就起到将CPU IP高效协同的集群作用,同时DSU具有可扩展性。DSU作为一款特别的IP,它的性能指标包括缓存大小、带宽、延迟、漏电和动态功耗。今年,DSU-120 针对多个新用例进行了重点更新,聚焦在 PPA 和功耗方面的改善。

例如,机器学习 (ML)/AAA 游戏等用例对于缓存大小和缓存吞吐量较为敏感。而 AI 智能摄像头等用例则对缓存大小敏感度低,但对内存延迟更为敏感。而低强度线程的工作负载则对漏电比较敏感。DSU可以通过单个实现,达到动态应对不同用例的效果。

今年Arm在DSU中推出半切片断电模式 (Half Slice Powerdown),还为面向 RAM 新增了Quick Nap (QNap) 模式,QNap 模式是介于RAM运作 (Functional) 模式和保留 (Retention) 模式之间,可在不影响性能的前提下有效降低漏电。

Arm 终端事业部产品管理总监 Steve Hopper表示,由于CPU的易访问性,其通常是运行AI工作负载的首选目标,以安卓平台来看,目前70%的第三方 ML/AI 应用运行在CPU上。未来,在高端设备中 CPU、GPU和NPU三者相辅相成。但对于一些较低级别的设备来说,厂商可能很难承担NPU的费用,因此,CPU 往往是一个很好的运行此类工作负载的选择。

GPU:游戏与AI/ML兼得

Arm Immortalis-G925是Arm目前性能最强、效率最高的GPU,也是Arm终端计算子系统 (CSS) 的组成部分。

与Immortalis-G720相比,Arm终端CSS参考平台中的 Immortalis-G925在各种图形应用中的性能提高了37%;在运行AI/ML网络方面,性能显著提高了 36%。在提供与2023年参考平台相当的游戏性能时,Arm终端CSS中的 Immortalis-G925 能节省高达 30% 的功耗;而在对复杂对象进行光线追踪,其性能提升高达 52%。

安谋科技 (Arm China) 市场总监王刚分析,Immortalis-G925主要关注三个方面:实际环境中的游戏性能、AI/ML 性能,以及与生态合作伙伴的紧密协作。

在游戏性能方面,主流手游运行在采用 Immortalis-G925的Arm 终端 CSS 参考平台时,与去年的解决方案相比,性能平均提升了46%。以米哈游的《原神》为例,Arm 终端 CSS 使其性能提高49%。由腾讯光子工作室群和 KRAFTON 公司联合开发的《绝地求生手游》运行速度提升36%,《Roblox》更是大幅提升46%。此外,其他热门手游的性能也提升29% 到72%。这种代际的性能飞跃令人惊叹,对开发者和最终玩家来说具有重大意义。

前面提到许多AI运行在CPU上,但对于某些工作负载,如图像分割或物体检测,ML很适合在GPU上运行。Arm 持续提升GPU对 AI/ML 性能和效率的支持。

在图像处理(如分割或分类)方面,与去年的全面计算解决方案 (TCS) 相比,采用 Immortalis-G925的Arm 终端 CSS性能显著提升41%。在超级采样任务中,使用神经网络放大图像时,性能提升将近30%;在自然语言处理和语音转文本方面,获得50%性能提升。
wKgaomZ9ODqAZCC2AAePUVS7UTc494.png            

现代手游愈发复杂,不仅在于着色器的复杂度,场景中的几何图形数量也呈爆炸式增长。过度绘制是场景中模糊不清的重叠像素数量,即在最终图像中实际不会看见的部分。Arm GPU具备多种技术以减少过度绘制,进而减少到达片段着色阶段的原语数量。

此前为了有助于从 GPU 上获得更好的性能,一些应用可能会从前向后对不透明对象进行排序,这会增加CPU负载。Immortalis-G925引入了片段预处理 (Fragment Prepass) 的新机制,使得应用无需进行任何对象或原语排序。由于无需对象排序,渲染线程周期缩短了高达 43%。此外,片段预处理还可以更高效地减少过度绘制,进而提高性能和能效,同时减少应用的 CPU负载。

Immortatis-G925还改进了光线追踪技术。在保持视觉准确性的同时,性能提高27%。开发者也可选择稍微降低场景处理中的透明度准确性,由此可带来 52% 的性能提升,并且降低 57% 的内存访问,进而能够大幅降低功耗。

Immortalis-G925 所支持的着色器核心数量增加50%,达到24个核心的最大配置,而上一代最多只有16个。为了实现这一性能目标,并确保能够支持所有着色器核心,Tiler 和命令流前端 (Command Stream Front-end, CSF) 等顶级单元都经过了调整和优化,以充分发挥 GPU 的性能。
wKgZomZ9OESABTXCABCfASEMR44328.png


Immortalis-G925具备硬件光线追踪,可配置10个以上的核心,适用于旗舰智能手机等设备。面向高端手机市场推出Mali-G725,可在6至9个核心之间扩展。此外,它还能提供与旗舰产品相同的API支持,同时为其他级别设备提供引人入胜的游戏体验。而适用于智能手表和入门级移动设备的Mali-G625可在1至5个核心之间扩展,提供广泛的性能支持。

小结:

Arm CPU内核性能的提升从Cortex-X925这个产品开始进行了设计理念的改变,这将影响未来数年的内核设计。同样,Arm Immortalis-G925 GPU也实现了大幅提升。更重要的是当处理器进入3nm工艺制程时,Arm终端CSS的发布为客户的芯片从设计到量产提供全方位的支持。这背后的一个巨大动力自然是AI,更确切地说是Arm要引领端侧AI,这一次不仅是手机,还将有PC以及其他未来可能的智能终端。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    134

    文章

    8737

    浏览量

    363327
  • AI
    AI
    +关注

    关注

    87

    文章

    27466

    浏览量

    265134
  • AI PC
    +关注

    关注

    0

    文章

    109

    浏览量

    70
收藏 人收藏

    评论

    相关推荐

    AI PC:真正的AI PC,敢于下场

    在过去的半年里,我们无一不在聆听关于人工智能(AIPC的种种声音,然而当步入现实生活时,恐怕仍有众多读者对此感到迷茫:这些AI PC究竟具有哪些A
    的头像 发表于 06-11 15:02 364次阅读

    risc-v多核芯片在AI方面的应用

    处理器的性能,使其在处理复杂的AI任务时具有更高的效率。同时,RISC-V允许任何人免费设计、制造和销售RISC-V芯片和软件,无需像ARM那样购买昂贵的架构许可证,这进一步降低了RISC-V多核芯片在AI
    发表于 04-28 09:20

    开发者手机 AI - 目标识别 demo

    Lite的API接口实现主要功能; Mindspore Lite为Openharmony AI推理框架,为上层应用提供统一的AI推理接口,可以完成在手机等端侧设备中的模型推理过程; Neural
    发表于 04-11 16:14

    AI PC产品密集发布,预计2025年AI PC占全球PC出货量40%

    电子发烧友网报道(文/李弯弯)根据市场机构Canalys近日发布的最新报告,2024年标志着传统PCAI PC的重大转变,预估今年全球AI PC
    的头像 发表于 03-20 01:15 3234次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>PC</b>产品密集发布,预计2025年<b class='flag-5'>AI</b> <b class='flag-5'>PC</b>占全球<b class='flag-5'>PC</b>出货量40%

    NanoEdge AI的技术原理、应用场景及优势

    NanoEdge AI 是一种基于边缘计算的人工智能技术,旨在将人工智能算法应用于物联网(IoT)设备和传感器。这种技术的核心思想是将数据处理和分析云端转移到设备本身,从而减少数据传输延迟、降低
    发表于 03-12 08:09

    新火种AI|全网热炒的“AI PC”,可能是个伪概念

    作者:一号 编辑:美美 我们现在所看到的AI PC,可能只是一个营销噱头。 随着AI浪潮席卷全球,深刻改变各行各业,AI与硬件,尤其是消费电子,例如
    的头像 发表于 02-18 14:25 385次阅读
    新火种<b class='flag-5'>AI</b>|全网热炒的“<b class='flag-5'>AI</b> <b class='flag-5'>PC</b>”,可能是个伪概念

    什么是AI PCAI手机AI PCAI手机出现的来龙去脉

    相信大家现在每天经常可以在报章媒体上看到“AI PC”、“AI 手机” 这两个词吧?特别是财经新闻,这几个月时不时就可以看见哪一只股票又因是AI
    的头像 发表于 01-18 10:43 1149次阅读

    AI PC是什么?如何变革PC产业(2023)

    AI PC整合了轻量化AI模型,将实现各种生成式AI应用的离线稳态运行。作为设备、边缘计算和云技术的混合体,AI
    的头像 发表于 12-27 17:37 1070次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>PC</b>是什么?如何变革<b class='flag-5'>PC</b>产业(2023)

    AI PC 灵魂拷问

    AI PC横空出世,我们汇总7个 最受大家关注的问题。 有请英特尔技术部总经理高宇为我们逐一解答。 问题1:谁率先“喊出”了AI PC? 答:英特尔最先提出了
    的头像 发表于 12-08 19:15 359次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>PC</b> 灵魂拷问

    AI重新定义PC体验

    我们正在进入生成式AI时代。 生成式AI 将利用神经网络赋能全新体验和应用场景,这是一个巨大飞跃,但仅依靠云端是无法高效实现的。生成式AI将通过打造全新品类的高性能、高能效
    的头像 发表于 12-06 10:15 345次阅读
    <b class='flag-5'>AI</b>重新定义<b class='flag-5'>PC</b>体验

    AI PC:深入变革PC产业(2023)

    软件方面,AI PC整合了轻量化AI模型,将实现各种生成式AI应用的离线稳态运行。作为设备、边缘计算和云技术的混合体,AI
    的头像 发表于 11-22 17:48 1678次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>PC</b>:深入变革<b class='flag-5'>PC</b>产业(2023)

    【KV260视觉入门套件试用体验】五、VITis AI (人脸检测和人体检测)

    vitis_ai_library_r3.0.0_images.tar.gz 和 vitis_ai_library_r3.0.0_video.tar.gz 主机复制目标,如下所示
    发表于 09-26 16:22

    AI智能呼叫中心

    随着科技的飞速发展,人工智能(AI)已经成为了各行各业的关键技术,其中,AI智能呼叫中心的出现,给传统的呼叫中心带来了巨大的改变与创新,本文将探讨AI智能呼叫中心的优势,包括自动化处理、个性化服务
    发表于 09-20 17:53

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练,AI部署需要更多。 预计2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70
    发表于 08-04 07:25