在近日深圳召开的以 “让我们携手重塑未来” 为主题的“Arm Tech Symposia年度技术大会”上,Arm 终端事业部产品管理副总裁 James McNiven 莅临现场发表了热情洋溢的讲话,并透露了Arm立下的一个小目标:到2025 年底,全球将有超过 1,000 亿台具备 AI 能力的 Arm 设备。这个1000亿目标可以实现吗?
James McNiven 强调Arm一直深耕算力技术的发展,Arm在算力的探索最早可以从ARMv7 架构(Cortex-A 系列)中引入的NEON 开始,NEON 是 ARM 处理器架构中的一个高级 SIMD(Single Instruction Multiple Data,单指令多数据)指令集扩展,主要用于加速多媒体和信号处理任务,如图像处理、音频解码、视频编解码、以及机器学习推理等工作负载。
NEON 的设计目标是提供高能效的向量化计算能力,使嵌入式设备能够高效处理复杂的多媒体任务,同时保持较低功耗。到2011年Arm发布ARMv8架构,NEON 进一步优化,用于提升多媒体和信号处理任务的性能,如图像处理、音频处理、以及 DSP 算法加速。ARMv8 是首个全面支持 64 位运算的架构。NEON 指令的寄存器扩展为 32 个 128 位寄存器,适配 64 位数据路径。在 ARMv8 NEON 中,支持更多整数和浮点操作,使得音频解码和视频编解码的效率显著提升。在ARMv8.1-A架构上面向 HPC(高性能计算)和 AI 加速的需求,Arm首次引入 了SVE(Scalable Vector Extension),这是 NEON 之后的一个重要向量扩展。可扩展向量长度支持 128 位到 2048 位的动态向量长度,适应不同算力需求。SVE 针对矩阵运算、机器学习和科学计算进行了优化,特别适合向量密集型任务。
此外,它还提高了计算资源的可移植性,从移动设备到云端计算均有支持。随着 AI 和机器学习任务对计算需求的增长,2021 年发布的ARMv9 架构加强了向量处理能力,引入 MVE 和 SVE2,MVE(Helium)针对 Cortex-M 系列的向量扩展,优化了嵌入式低功耗设备的算力,适用于物联网、边缘计算中需要高能效的工作负载。SVE2在 SVE 的基础上增强了对 AI 和 DSP 的支持。新增支持 bit-manipulation 和矩阵运算的指令集,专为 AI 推理和 5G 基站设计。这一时期,ARM 的算力架构不仅限于 CPU,还整合了 GPU 计算加速,如 Mali 系列和最新的 Immortalis 系列,逐渐融合 CPU 和 GPU 算力。与 NEON/SVE 协同工作,GPU 负责并行计算任务,而 CPU 处理串行任务。随着AI 和机器学习的崛起,ARM 针对数据中心推出了 Neoverse 系列(如 Neoverse N2 和 V2),引入增强的矩阵运算能力。它专为推理加速设计,如在边缘计算和云服务中运行 AI 模型。在新架构中加入对 INT8 和 BF16 的高效支持,显著提升推理性能。James McNiven 强调Armv9 作为 Arm 最新的技术架构,推出伊始便是为支撑 AI 计算而设计,并持续迭代更新,通过 SVE、SVE2、SME 等关键技术,Arm 以架构创新和强大的软硬件协同能力不断优化移动端 AI 体验,赋能开发者实现卓越的 AI 性能。
在会后的媒体采访中,James表示要把握 AI 的发展机遇。Arm 通过采用系统级设计思维,专注硬件与软件协同优化,面向不同应用市场推出计算子系统 (CSS),扩展底层技术并巩固 AI 计算需求。与此同时,Arm 持续投资创新软件技术,为全球 2,000 万开发者提供从云到端的高效、易用、无缝开发体验。此外,Arm 还通过包括全面设计 (Arm Total Design) 在内的众多生态项目,协助合作伙伴加速产品上市进程。
据介绍,目前全球有超过 2,000 万名软件开发者在基于 Arm 架构的设备上构建应用,软件话题也成为本次年度技术大会的焦点之一。Arm 在软件方面的持续投入已取得显著成效,正建立起全球最大的 AI 开发者社区。本届大会首度举办的开发者工作坊收获了参与者的热烈响应,围绕 Windows on Arm 原生应用、安卓系统上的 LLM 推理、生成式 AI 加速等开发者最为关注的主题,工作坊为开发者提供了直观的技术体验,激发开发者创新潜力的同时,也为相关应用开发增添了新的动力。
笔者注意到现场工程师对ARM 的 ONELab有浓厚的兴趣,据ARM介绍ONELab是 ARM 针对开发者和企业推出的一个端到端 AI 开发与优化平台,其目标是帮助开发者快速、高效地开发、优化和部署 AI 应用程序,尤其是在 ARM 架构上运行的设备中。据介绍,ONELab 的核心在于提供一套集成工具链和开发环境,专注于 AI 应用的优化与部署,它可以提供跨平台开发支持,涵盖移动端(如智能手机)、嵌入式设备(如 IoT 设备)和数据中心(如 ARM Neoverse 服务器)。
支持主流的深度学习框架,如 TensorFlow、PyTorch 和 ONNX,通过兼容性的 API,开发者可以无缝迁移现有的 AI 模型。它针对 ARM 设备中的 CPU(Cortex 系列)、GPU(Mali 系列)和 NPU(神经网络处理单元) 进行优化。它还可以自动调用底层硬件加速特性,例如 NEON SIMD、SVE2 向量扩展,以及 Mali GPU 的并行计算能力。在多核环境下分配计算任务,它可使模型能够在 CPU、GPU 和 NPU 之间高效运行。提供任务调度机制,针对不同类型的计算任务(如卷积、矩阵运算)动态分配资源。ONELab 主要专注于以下几个领域的 AI 应用开发:
1、边缘 AI:物联网设备:通过 Cortex-M 系列低功耗 CPU 和 Helium 向量扩展(MVE)加速嵌入式推理。实时分析:在摄像头、传感器等设备中,实现实时的视觉和语音识别。
2、移动设备:智能手机:通过 Mali GPU 和 CPU 的协作优化,提供高效的图像分类、增强现实(AR)和语音助手功能,优化设备端的 AI 模型性能,同时降低功耗。
3 数据中心和高性能计算:云端推理:结合 Neoverse 平台,为 AI 推理任务提供高吞吐量和低延迟的解决方案。HPC(高性能计算):支持在超级计算机或集群中部署 AI 应用,面向深度学习训练和科学计算。
4、自动驾驶与工业:自动驾驶:优化感知算法和决策系统,利用 ARM 平台实现实时推理。工业自动化:为机器人和工业设备中的边缘推理提供算力支持。未来,在提升算力方面Arm的SVE3 可能会加入对更复杂的 AI 和 HPC 工作负载的支持。此外,向量计算扩展将继续优化能效比,为移动和服务器市场服务。而随着 AI 和机器学习的重要性增加,ARM 可能推出更多带有 TPU 类特性的专用单元,进一步缩小与竞争对手(如 NVIDIA 和 Intel)的差距,成为多领域算力需求的重要支柱。James表示Arm 通过将 IP 与开源软件和工具乃至广泛的行业领先生态系统相结合,让全球 2,000 万开发者都能够使用 Arm 计算平台作为 AI 创新基础。有了生态伙伴的大力支持因此Arm 敢大胆地预测到 2025 年底,全球将有超过 1,000 亿台具备 AI 能力的 Arm 设备。
-
处理器
+关注
关注
68文章
19242浏览量
229593 -
ARM
+关注
关注
134文章
9079浏览量
367293 -
AI
+关注
关注
87文章
30643浏览量
268822
发布评论请先 登录
相关推荐
评论