为异构多核实现十倍嵌入式内存性能的三种方法-电子发烧友网

从理论上讲，异构多核设备可以配备一个计算块，该计算块针对给定用例的任何类型的操作进行了优化。用于视频处理的 GPU、用于对象识别的神经网络处理器、运行操作系统的 CPU 等等。与同级别的同质处理器相比，不同用途的内核为 SoC 提供了更大的灵活性，因此在更广泛的工作负载范围内具有更高的性能和更低的功耗。

但当您开始考虑基于边缘的 AI、计算机视觉等应用程序的要求时，事实是 I/O 和内存变得与原始处理性能一样受到限制，甚至更多。

“内存速度只会这么快，对吧？” 英伟达嵌入式与边缘计算副总裁兼总经理 Deepu Talla “它并没有呈指数级增长。由于大小，位宽大致相同：它可以是 16 位、32 位、64 位、128 位，等等。大多数嵌入式处理器通常具有 32 位甚至 16 位接口，这也是出于成本和尺寸的原因。

“内存的速度只是一代比一代增长 2 倍，而且这通常每三年发生一次，”他继续说道。“然而，SoC 中的计算需求可能增加了 10 倍或 20 倍。”

您如何协调计算性能的这种不成比例的增长与内存技术的相对较小的进步？特别是当处理器演变成独特的逻辑集合时，它们都需要自己访问内存等资源。

根据塔拉的说法，你把它给了他们。以下是嵌入式存储器架构为满足下一代异构多核处理器的需求而发展的三种方式。

1、内核专用 SRAM

“如果你看很多这些嵌入式处理器，它们过去一直都有 SRAM，”Talla 说。“现在，对于每个特定单元，我们都有本地 SRAM，它从 DRAM 获取数据，在本地存储并处理它，然后发回最终输出。”

特定于内核的 SRAM 提供了几个优势，首先是由于不必将临时数据写回片外 DRAM 所带来的内存性能提升。

这种架构还具有降低功耗的额外好处，因为超低电压 SRAM 模块位于 SoC 内相应的逻辑 IP 附近或附近。

“如果你使用 DRAM，这可能是一个数量级的功率，所以你实际上是通过使用这些技术来节省功率，”Talla 解释道。

2、增加系统内存

今天的嵌入式处理器具有高达 4 MB 到 8 MB 的系统内存。此系统内存并非专用于任何特定内核，并且可以在 CPU、GPU 和加速器等元素之间共享。