计算高速链路互连内存和GPU以实现高性能-电子发烧友网

随着云计算技术的进步，数据中心的架构内存安排发生了重大变化。为了增强计算能力和广泛的数据处理，需要集成擅长处理特定工作负载的加速器。虽然这些设备已经通过PCI Express连接，但计算快速链路可以进一步改善优化，因为它允许对各种系统组件进行异构处理。

PCI Express是用于将主机处理器连接到加速器设备的最常见技术。它是一种高性能、行业标准的串行 I/O 接口，专为在企业、桌面和嵌入式应用中使用而开发。

同时，PCIe在具有大型共享内存池和大量需要高带宽的设备的系统中存在局限性。由于每个 PCIe 层次结构都使用单个 64 位地址空间，因此 PCIe 未提供支持一致性的技术，并且无法充分维护单独的内存池。此外，PCIe 链路具有太多的延迟，无法有效地管理系统中多个设备之间的共享内存。

因此，计算密集型工作负载需要与更快的数据流连接，以有效地扩展数据中心中的异构计算。计算高速链路（CXL）通过利用 PCI 高速 5.0 的物理和电气接口来挑战一些限制。这项新技术提高了内存容量和带宽，并降低了延迟。它是高速通信的接口，因为加速器越来越多地用于补充CPU以支持新兴应用。

什么是断续器？

计算高速链路（CXL）是一种开放的行业标准内存互连。它旨在为当今数据中心中使用的许多类型的内存提供高性能连接，例如CPU，TPU，GPU和其他处理器类型。

CXL 利用 PCIe 5.0 的物理层基础架构在主机和所有设备之间创建公共内存空间。缓存一致性标准可确保主机处理器和 CXL 设备在访问数据时看到相同的数据。CPU 主机主要负责一致性管理，允许 CPU 和设备共享资源以获得更高的性能并降低软件堆栈的复杂性，从而降低设备总成本。

除了原始性能外，CXL还有其他优势。该技术是开源的，不像美光的3D Xpoint，这是迄今为止最接近高性能内存互连的方法。美光和英特尔现在正在对冲他们对CXL的赌注，而不是专有技术。NVIDIA 和 AMD 的硬件系统还使用 CXL 来互连内存和外部处理单元，以优化性能。NVIDIA的GPU与CXL设计相结合，进行了如此广泛的计算，并在内存设计中进行了一些更改。

这种转变的最重要结果将是CXL消除专有内存互连。它是必不可少的，因为有几种类型的企业存储，每个处理器都通过专有连接访问它们。这可能会使企业存储基础架构变得复杂，并且无法预测其性能。

现在，由于CXL，每个处理器都将能够访问所有类型的内存。这将允许单独的处理器共享相同的内存池。它不仅对于数据中心至关重要，而且对于开发通常使用CPU，GPU和TPU的AI 神经网络和深度机器学习系统等技术也至关重要。

CXL 事务层协议

凭借与 PCIe 5.0 相似的带宽，CXL 使用三种动态多路复用的事务层协议：CXL.io、CXL.缓存和 CXL.内存，以在 PCIe 上获得优势。

CXL.io 协议几乎与 PCIe 5.0 相同。它用于设备发现、配置、寄存器访问、中断、虚拟化和批量 DMA。

CXL.cache 是一种可选协议，用于定义主机和设备之间的交互。这允许连接的 CXL 设备使用请求和响应方法以极低的延迟高效缓存主机内存。

CXL.memory 是一种可选协议，它使用加载和存储命令为主机处理器提供对加速器连接的内存的直接访问。加速器连接的内存被 CPU、GPU 或 TPU 视为额外的地址空间，从而提高效率并降低延迟。

CXL 对存储的影响

CXL依赖于存储，并将对其产生影响。它将允许存储系统使用更大的内存池进行缓存。该技术有利于使用内存作为缓存的存储应用程序或系统。这一点至关重要，因为虽然许多ISP定期限制带宽，但临时数据存储正在成为数据中心性能的关键方面。

商用存储系统中目前可用的最大 DRAM 缓存为 3 TB。尽管使用 MemVerge 或福尔穆卢斯黑色，但特定的软件定义存储可以使用英特尔傲腾 PMem 将该缓存扩展到 4.5 TB。但是，这对除最富有的组织之外的所有组织的缓存内存施加了硬性限制。幸运的是，CXL 通过允许存储软件跨多个存储介质缓存数据来解决此问题。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
19170

浏览量
229179
云计算

云计算

+关注

关注
39

文章
7742

浏览量
137208
数据中心

数据中心

+关注

关注
16

文章
4695

浏览量
71963

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构，在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈，合并访存机制巧妙解决了

发表于 11-24 17:12

AI高性能计算平台是什么

AI高性能计算平台不仅是AI技术发展的基石，更是推动AI应用落地、加速产业升级的重要工具。以下，是对AI高性能计算平台的介绍，由AI部落小编为您整理分享。

发表于 11-11 09:56 •129次阅读

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

每个CUDA单元在 OpenCL 编程框架中都有对应的单元。倒金字塔结构GPU存储体系共享内存是开发者可配置的编程资源，使用门槛较高，编程上需要更多的人工显式处理。在并行计算架构中，线程

发表于 11-03 12:55

如何提高GPU性能

学习和机器学习等领域发挥着重要作用。 1. 硬件升级 a. 更换高性能GPU 最直接的提高GPU性能的方法是升级到更高性能的显卡。随着技术的

发表于 10-27 11:21 •219次阅读

GPU高性能服务器配置

GPU高性能服务器作为提升计算速度和效率的关键设备，在各大应用场景中发挥着越来越重要的作用。在此，petacloud.ai小编为你介绍GPU高性能

发表于 10-21 10:42 •158次阅读

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片CPU

本篇结合第1-5章，梳理了解学习CPU流水线、缓存硬件结构、计算单元、逻辑拓扑结构等知识点。 █本书开篇将了TOP500超级计算机。TOP500使用HPL基准测试来评估超级计算机的性能

发表于 10-20 12:03

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

技术 11.1 从DDR到HBM 11.2 PCExpress总线概况 11.3扩展技术 11.4 NVLink互连技术与GPU超级计算

发表于 10-15 22:08

米尔STM32MP2核心板首发新品上市！高性能+多接口+边缘算力

/1路USB2.0 HOST/3路SDIO3.0/9路UART接口/8路I2C/4个I3/8路SPI/1

发表于 09-20 18:24

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

力，在全球范围内，对于推动科技进步、经济发展及社会整体的运作具有至关重要的作用。随着信息技术的高速发展，高性能计算（HPC）和人工智能（AI）等技术在多个领域的应用变得日益广泛，芯片算力成为支持这些

发表于 09-02 10:09

高性能计算集群的能耗优化

高性能计算（HighPerformanceComputing，HPC）是指利用大规模并行计算机集群来解决复杂的科学和工程问题的技术。高性能计算

发表于 05-25 08:27 •386次阅读

存内计算WTM2101编译工具链资料

出来再进行计算，读取时间与参数规模成正比，计算芯片的功耗和性能受限，GPU算力利用率甚至不到8%。存内计算芯片

发表于 05-16 16:33

业界首创512GB CXL AIC内存扩展卡，江波龙革新AI与高性能计算领域内存技术

人工智能大模型计算、高性能计算（HPC）以及数据中心等行业的迅猛发展，对计算机系统内存性能的需求

发表于 04-17 14:40 •399次阅读

什么是HPC高性能计算

高性能计算（HighPerformanceComputing，简称HPC），是指利用集群、网格、超算等计算机技术，通过合理地组织计算机资源以及运用适合的算法和程序，提高

发表于 02-19 13:27 •793次阅读

从56G到112G，高速互连带来的新挑战

在计算机系统中，包含了CPU、GPU、内存、存储设备等组件，这些组件都无法各自独立运行，一般需要通过互连协议相互连接，进行通信和数据传输，才

发表于 01-08 15:39 •1534次阅读

英伟达用AI设计GPU算术电路有何优势

大量的算术电路阵列为英伟达GPU提供了动力，以实现前所未有的AI、高性能计算和计算机图形加速。因

发表于 12-05 11:05 •404次阅读

搜索历史

计算高速链路互连内存和GPU以实现高性能

评论

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

AI高性能计算平台是什么

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

如何提高GPU性能

GPU高性能服务器配置

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片CPU

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

米尔STM32MP2核心板首发新品上市！高性能+多接口+边缘算力

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

高性能计算集群的能耗优化

存内计算WTM2101编译工具链资料

业界首创512GB CXL AIC内存扩展卡，江波龙革新AI与高性能计算领域内存技术

什么是HPC高性能计算

从56G到112G，高速互连带来的新挑战

英伟达用AI设计GPU算术电路有何优势