作者: Stefan Rosinger,ARM高级 CPU 产品经理
时光飞逝,好像在昨天我们才刚发布ARM Cortex-A73这款最节能的高效能Cortex应用处理器,转眼之间我们就看到Cortex-A73量产并被广泛应用到移动与消费领域的各种顶级设备。芯片厂商现已将其与 Cortex-A53 相结合,打造出了各种 big.LITTLE 配置。Cortex-A73 与 Cortex-A53 的结合不但能够提供出色的性能,还可实现极长的电池续航时间,这样你的设备便能够用上一整天。如此一来,设计师和 OEM 厂商就可以打造出当今市面上最纤薄、最小巧的产品。
这种效率与性能的结合再加上移动生态系统中操作系统与应用程序开发商的成果,开辟了新的使用场合:利用手机把自己置身于增强现实或虚拟现实的世界当中、拍摄单反级照片或利用紧凑型扩展坞将智能手机变成功能齐全的台式电脑。这些使用场合以及其它需要极高性能的使用场合造就了人们对更高计算性能持续增长的强劲需求。为满足这一需求,移动 SoC 的性能近年来已经突飞猛进,而我们并未看到这一趋势有停止或慢下脚步的迹象。
现在我们又发布两款全新的处理器:Cortex-A75 高性能处理器和 Cortex-A55 高效率处理器,目的是让你的设备实现所需的性能升级。
隆重推出全新的 Cortex-A75 和 Cortex-A55 处理器
Cortex-A75 和 Cortex-A55 均采用 DynamIQ 技术打造,该技术是 ARM 于 2017 年 3 月份发布的全新多核技术。Cortex-A75 采用全新的架构,进一步提升处理器性能,同时保持了其前代处理器出色的节能性。全新 Cortex-A75 CPU 不但提升了性能,还增强了CPU处理高级任务的能力,以一种全新的方式转变应用程序和商业模式。
人工智能 – 彻底改变商业和产业面貌的技术创新
除了作为一项来自数据中心或“云端”的重要功能以外,人工智能 (AI) 和机器学习 (ML) 正出现在你的设备上、来到物联网的“边缘”。这是我们在各类设备上看到的最强劲的新兴趋势。从联网的温控装置到自动驾驶再到手机和可穿戴科技产品,你会看到,机器学习算法能大大改善人们的生活。
开发商有许多种方法来应对各类设备上机器学习任务的增长。现代 SoC 通常包含若干个处理单元:1 颗 CPU、1 颗 GPU (例如新近发布的 Mali-G72),有时候还与 DSP 和特定的加速单元相结合,加速单元有助于加快卷积神经网络 (CNN)、递归神经网络 (RNN) 以及其它机器学习任务。然而软件开发商和芯片厂商面临着以下挑战:
1. 在芯片上额外添加硬件的成本十分高昂 – 在芯片上增添任何额外的组件都会给芯片厂商造成高昂的成本,因此需要非常谨慎地运用资源。高端设备可能包含专用加速器,但是占全球绝大多数的主流移动设备通常不含机器学习的专用硬件。然而应用程序开发商想要让自己部署的机器学习功能支持每一代中的所有设备。
2. 在系统中反复转换任务对于软件开发商而言具有很大的挑战性,因为这需要花费时间而且需要极高的性能。例如对 GPU 上所运行的图形任务等固定任务而言,你需要对固定的绘图软件和驱动程序进行本地优化,以实现高效图形处理。处理固定计算函数的加速器或 DSP 也是如此。这些函数可以写入并部署在边缘设备的固件中,它们在固件中通常比在 CPU 上运行得更加高效。然而任务存在灰色地带,在灰色地带中,开发商对 CPU 的可访问性使 CPU 成为了在各种移动边缘设备上部署机器学习功能的最简单的选择。
3. 新的任务及其处理要求依然在发展,因此固定函数专用的硬件加速器无法解决最新算法的难题。在这种情况下,合理的做法是利用通用 CPU 功能来增强高端设备中已优化的加速代码区块。
这些特性让我们得出了结论:任务的异构分布是正确的方法。并没有万金油式的方法可以解决上述的诸多难题。结合通用处理、专用加速器以及 GPU 计算技术都能够让 SoC 达到最高的系统效率。这样一来,不论是具备多个计算单元的高端设计还是成本受限的低端设备,都可以实现扩展。即使删除了一些区块,这些低端设备依旧得益于异构特性。
软件对于实现机器学习而言至关重要。你可能已经看到,我们发布了免费的开源 ARM 计算库(ARM Compute Library)。仅在 CPU 上运行时,它可以令人工智能和机器学习任务的性能提升 10-15 倍。这对于市面上现有的所有设备而言都是个好消息,基于 ARM 的 SoC 可以立即利用这一全新的库。这是一个很好的例子,如果进行合适的调节,我们便可以利用更好的软件在现有硬件上实现更高的性能。ARM 一直在软件和硬件两方面不断创新。接下来我们详细介绍一下我们针对机器学习和通用计算要求的最新硬件改进。
DynamIQ – 该技术可提升扩展能力、为各个领域实现全新的性能水平
我们最近发布了 ARM DynamIQ 处理器技术,它能够在性能、效能、扩展能力以及响应速度等方面达到全新的水平。它是一种全新的 CPU 集群架构和内存分层体系,具备全新的硬件设计范例,可实现更广泛的扩展能力。它还拥有诸多全新特性,这些特性通过把软件与硬件相结合,在接下来的 3-5 年里将使人工智能和机器学习算法的性能提升 50 倍。
更高的性能可满足人工智能任务的需求,这类任务是当前和未来 ARM IP的一大主要焦点
自多核处理器问世以来,DynamIQ 技术标志着人类在这一领域取得的重大进步。多核处理器设计曾为移动行业带来双核和 4 核处理器。凭借 DynamIQ,单一集群现在最多能够包含 8 个处理器,除了可搭配不同的物理设计特性(功耗、频率、面积),还能为单个CPU或多个核心单独配置电压与电源信道。这种灵活性和扩展性让芯片厂商能够瞄准各类市场,其中包括智能手机、自动驾驶汽车、服务器和网络基础设施、家居自动化以及更智能的 DTV领域 等等。我的同事 Govind Wathan 写了一篇很好的文章,详细介绍了 DynamIQ 的更多细节,大家可以点此阅读这篇文章。
隆重推出 Cortex-A75 处理器 – 首款基于 DynamIQ 的高性能处理器,可实现前所未有的性能和效率
我很自豪地向大家介绍全新的 Cortex-A75 处理器,它是 ARM 最新发布的最高性能CPU,同时也是基于全新 DynamIQ 技术的首款高性能 CPU。在相同频率下,Cortex-A75比Cortex-A73 性能提升20%。这种更强的计算能力再加上我们为机器学习和其它高级使用场合所做的重大改进,将让那些高要求的应用程序能够运行得更加流畅,为未来更复杂的任务提供新的标杆。
Cortex-A75 可为移动和基础设施系统带来全新的性能水平
Cortex-A75 将为目标市场带来更出色的应用程序和用户体验,继续延续Cortex-A73 的出色性能。从端到云,它所面向的市场十分广泛 (不止是手机和笔记本电脑/翻盖设备),能够在网络基础设施、汽车设计乃至服务器等方面实现全新的性能水平。Cortex-A75 的效率依然是顶级水平。我们采用了打造 Cortex-A73 时的诸多设计思路,将其运用于 Cortex-A75 的设计当中。
Cortex-A75 中微架构的一些主要改进包括:
- 超标量处理器核心,与上一代产品相比能够解码、发出以及执行更多的指令,支援完全乱序处理、无阻塞高吞吐量一级高速缓存以及高级指令和数据预取。
- 位于处理核心附近的专用二级高速缓存。这些专用二级高速缓存的容量可以配置,它们缩短了内存的存取延迟,让任务能够更接近核心,因而可实现更快的处理和更低的功耗。
- DynamIQ 共享单元 (DSU) 中的统一共享三级高速缓存可被集群内的所有处理器共享,其中包括 Cortex-A75 和 Cortex-A55。
ARM 合作伙伴既可以单独使用 Cortex-A75 高性能处理器 (最多 4 颗),也可以使用 Cortex-A75 与Cortex-A55 处理器构成的 big.LITTLE 组合 (一共最多 8 颗处理器)。最终系统的选择取决于集成商 (通常是芯片供应商)、以及在性能水平与成本之间的权衡考量。
前所未有的性能、不折不扣的效率
Cortex-A75 可实现单线程性能的大幅提升,这一点将惠及所有市场。与去年同频率的 CPU 相比,Cortex-A75 的整数核心性能提升了 20% 以上,可为新一代设备带来大幅性能提升。与预计最高运行频率为 3GHz 的设备相比,这一性能优势相较于其它设备更加明显,如下图所示。
更高的性能、不折不扣的效率
在浮点、NEON SIMD 处理或内存性能等其它衡量标准上,Cortex-A75 带来了更大的提升,像是在Octane基准测试套件上提升幅度接近50%。与 Cortex-A73 相比,Cortex-A75 在内存复制方面的吞吐量实现了 15% 的提升。更高的内存性能非常重要,因为操作系统和应用程序均广泛使用内存。
Cortex-A75 可在各类任务上实现重大性能提升
DynamIQ big.LITTLE – Cortex-A75 与 Cortex-A55 相结合
Cortex-A75 可提供出色的性能,其效率也处于业界领先地位。然而,许多应用程序并不需要高性能处理器的性能,即便某些领域需要应用高性能,需要 CPU 最高性能水平的时间有时候也仅占约 10%。big.LITTLE 技术可以在这种情形下节省数百毫瓦的功效、延长电池续航时间以及让大核心能够更快地运行,由小核心负责处理低级任务。Cortex-A55 是 ARM 迄今为止提供这种功能的最高效小处理器,它是 Cortex-A53 的成功的后续产品,Cortex-A55 是 Cortex-A75 理想的搭档。DynamIQ 支持例如 1+7 这样尺寸效率极高的组合,为中端设备提供了一条绝佳的升级之路:
DynamIQ big.LITTLE 让中端设备能够实现全新的性能水平
请务必看一看 Govind 有关 Cortex-A55 和 DynamIQ big.LITTLE 的博客文章以便了解更多细节。
Cortex-A75 几乎涵盖了从端到云的所有应用场合
Cortex-A75 可广泛应用于各个领域。该处理器内置的许多特性以及 DynamIQ 集群不仅仅适用于移动和消费性使用场合。例如,我们还期待 Cortex-A75 应用在高要求的联网和服务器等应用场合。由于它的基础设施性能比基于 Cortex-A72 的系统高 40%,因此采用 Cortex-A75 的基础设施系统将会实现大幅性能提升:
利用全新的 Cortex-A75 和 CMN-600 提升基础设施性能
高速缓存隐藏(cache stashing)、多个媒介间不可分割交易(atomic transactions)、高速缓存路径分配和区分优先次序等特性以及先进的 RAS 功能使 Cortex-A75 十分适合大规模系统,其效率能够带来更高的计算密度。
采用全新 DynamIQ 处理器的片上系统 (SoC) 设计是什么样的?
ARM 长期以来一直致力于投资在范例 SoC 设计中的IP验证。由于 ARM 的IP组合与日俱增,这些范例系统的复杂度和范围也随之增长。这项工作涵盖了从 SoC 架构到详细的产前分析的方方面面,ARM 将以系统指南的形式提供这类知识。
除了全新 CPU 以外,ARM 还提供各种新的系统指南,这些指南涵盖了移动系统和基础设施系统。CoreLink SGM-775 移动系统指南专为 Cortex-A75、Cortex-A55 以及 Mali-G72 而设计和优化。CoreLink SGI-775 基础设施系统指南介绍了利用全新 ARM IP可以打造的基础设施 SoC 架构。二者均包括文档、模型和软件,而且可供 ARM 合作伙伴免费使用。
这些处理器何时上市?
我们非常高兴看到 Cortex-A75、Cortex-A55 以及 DynamIQ 的各种功能,我相信新款CPU 的灵活性以及提高的性能一定会让设备的功能得到提升。我们将会看到新一轮设备问世,为市场带差异化和更为丰富的体验,这是件值得庆幸的事情。
已有超过10家授权的客户采用这两款CPU 和DynamIQ 技术,我们应该很快就会看到一些酷炫的新设备上市。我预计 2018 年初首批设备就会上市,我已经等不及想要亲自体验一下它们了。
评论
查看更多