CCIX架构在FPGA上的使用及评估

Chiplet技术和NoC技术目前已经成为解决摩尔定律无法延续的一种重要方法，现在的CPU 芯片对外的接口已经不是普通的IO了，而是一套标准的NoC总线接口，可以与专门的NoC总线DIE（暂称为IO DIE）利用Chiplet技术连接，多个CPU核或异构核与多个IO DIE再通过Chiplet技术进行集成，就可以做出来更大规模的芯片。正是Chiplet技术和NoC技术的出现给体系结构带来了发展的黄金时代，异构计算和DSA（Domain-Specific Architecture，领域特定体系结构）慢慢走上舞台，人工智能领域各种高效的架构层出不穷，甚至Nvidia最新的Hopper GPU也开始向DSA慢慢靠拢；异构计算的核心之一是互连，传统的PCIe总线缺乏缓存一致性机制，导致内存性能低下，延迟低于可接受水平，因此出现了CCIX和CXL等协议，这些协议基于PCIe又高于PCIe，在继承PCIe兼容性的基础上，又提供了缓存一致性支持。在今年的FCCM会议上，德国TU Darmstadt和Reutlingen University联合发表了一篇CCIX相关的文章，该文章使用CCIX作为FPGA与Host之间的接口，并详细评估了CCIX与PCIe之间的差异，现将该文章译文奉上，以飨读者。

摘要：长期以来，大多数分立加速器都使用各代 PCI-Express 接口连接到主机系统。然而，由于缺乏对加速器和主机缓存之间一致性的支持，细粒度的交互需要频繁的缓存刷新，甚至需要使用低效的非缓存内存区域。加速器缓存一致性互连 (CCIX) 是第一个支持缓存一致性主机加速器附件的多供应商标准，并且已经表明了即将推出的标准的能力，例如 Compute Express Link (CXL)。在我们的工作中，当基于 ARM 的主机与两代支持 CCIX 的 FPGA 连接时，我们比较了 CCIX 与 PCIe 的使用情况。我们为访问和地址转换提供低级吞吐量和延迟测量，并检查使用 CCIX 在 FPGA 加速数据库系统中进行细粒度同步的应用级用例。我们可以证明，从 FPGA 到主机的特别小的读取可以从 CCIX 中受益，因为其延迟比 PCIe 短约 33%。不过，对主机的小写入延迟大约比 PCIe 高 32%，因为它们携带更高的一致性开销。对于数据库用例，即使在主机-FPGA 并行度很高的情况下，使用 CCIX 也可以保持恒定的同步延迟。

引言

当将主机 CPU 上基于软件的传统处理与专用硬件加速器相结合以执行异构计算以获得更高的性能或更高的效率时，主机和加速器之间接口的性质是一个关键的设计决策。

对于大多数离散加速器，例如 GPU 或 FPGA 板卡，PCI Express（简称：PCIe）长期以来一直是主要的接口。其性能稳步提升，最新广泛部署的 PCIe4.0 版本达到每通道 1.97 GB/s。然而，PCIe 主要针对高吞吐量批量传输进行了优化。例如，如 [1] 所示，需要 128 到 256 KB 的传输才能达到至少 50% 的理论带宽。对于细粒度主机-加速器交互所需的较小传输大小（降至缓存行大小），可实现的吞吐量显著下降。虽然 PCIe 添加了诸如地址转换服务 (ATS) / 页面请求接口 (PRI) 之类的扩展来支持共享虚拟内存或原子操作，但大多数实现并不包含缓存一致性机制。

这使得细粒度的交互变得非常昂贵，因为在同步执行或交换小参数或结果时，主机或加速器端都需要缓存刷新，或者用于数据传输的内存区域必须标记为未缓存，从而减慢它们所在物理位置的处理元件（主机或加速器）的访问速度。

为了解决这个问题，已经提出了许多还涵盖高速缓存一致性的接口和协议。在这项工作中，我们研究了加速器缓存一致性互连 (CCIX) 的使用，这是第一个被指定为多供应商标准并跨多个不同加速器和主机架构实现的接口。一旦获得更广泛行业支持的 Compute Express Link (CXL) 等协议进入市场，预计在不久的将来会有进一步的改进。

我们提供了各种 CCIX 访问场景的详细低级测量，以及应用程序级用例。后者在运行利用近数据处理 (NDP) 的数据库管理系统(DBMS) 时，采用 CCIX 实现 FPGA 加速器和主机之间的高性能同步。据我们所知，这是第一次为此目的使用缓存一致的加速器接口。

我们将在下一节中概述一些接口和协议，然后在第 III 节中讨论 CCIX 细节，尤其是关于FPGA加速器的内容。不过，我们的主要贡献是评估，我们在第四节中介绍了低级特征，在第五节中介绍了应用程序级用例。我们在第六节中总结并期待未来的工作。

相关工作

a) PCIe：PCI Express [2] 是将外围设备连接到桌面和服务器系统的标准。PCIe 通过为单个设备捆绑多个通道来扩展链路的带宽。在 1.0 版中，它能够以每通道 250 MB/s 的速度传输。每个后续版本的带宽大约翻了一番，现在在 6.0 版本中达到了每通道 7.88 GB/s。目前，6.0 版本刚刚被指定，而 5.0 的硬件即将推出，4.0 是当前硬件上部署最广泛的版本。PCIe 使用全双工串行链路，采用点对点拓扑结构，在电气链路层之上有两个附加层，即数据链路层和事务层。这些附加层提供纠错和基于数据包的通信。除了传输数据、设备初始化等基本操作外，PCIe 还支持更高级（可选）的功能，例如 PRI 和 ATS，但不包括缓存一致性。

b) CCIX：CCIX [3]、[4] 是一种高级 I/O 互连，它使两个或多个设备能够以一致的方式共享数据。在物理层上，它可以与PCIe 兼容（尽管它可以选择允许更高的信令速率），并且仅在协议和端点控制器上有所不同。它由 CCIX 联盟于 2016 年推出，该联盟由 AMD、ARM、华为、IBM、Mellanox、高通、赛灵思 [5] 创立。CCIX 已在基于 ARM 和基于 x86 的 CPU 上实现。

c) 其他共享虚拟内存 (SVM) 或缓存一致性 SVM 互连：CCIX 并不是共享虚拟内存互连的唯一竞争者。阿里巴巴集团、思科系统、戴尔/EMC、Facebook、谷歌、HPE、华为、英特尔和微软在 2019 年基于英特尔之前的工作提出了 CXL [6]。虽然 CCIX 可以在较旧的 PCIe 连接上运行，但 CXL 最初是基于 PCIe 5.0 设计的。因此，CXL 可以达到每个通道高达 32 GT/s（即 3.94 GB/s），它提供与 CCIX 类似的功能，但使用不同的逻辑视图。CXL 已经看到比 CCIX 更广泛的工业应用，并有望成为未来几年的主要解决方案。

另一种选择是 IBM 于 2014 年推出的 Coherent Accelerator ProcessorInterface（CAPI，后来的 OpenCAPI）。虽然第一个版本也是在PCIe 之上实现的，但最近的版本是供应商特定的接口。CAPI 主要用于基于 IBM POWER 的主机，因此其范围比CCIX 和 CXL 更有限。在 OpenCAPI 3.0（x8 通道）中，它提供 22 GB/s 的带宽和 298/80 ns[7] 的读/写延迟。

虽然不是像 CCIX 那样直接扩展 PCIe，但支持缓存一致性协议的另一个互连是 Gen-Z [8]。它每通道提供高达 56 GT/s 的速度，并允许与 PCIe 类似地组合多个通道。尽管具有令人鼓舞的功能，但尚未商业发布 Gen-Z 硬件，该技术将合并到 CXL中。

d) FPGA 上的数据库加速：[9] 很好地概述了使用 FPGA 加速数据库操作。最常见的方法，例如在 Centaur [10] 等最先进的解决方案中使用的方法，采用 FPGA 作为大规模过滤、排序、连接或算术计算的卸载加速器。但是，这种操作模式会带来大量数据从 FPGA 传输到 FPGA 的成本，并且与这里研究的旨在避免这些传输的近数据处理方法不同。

CCIX架构及在FPGA上的使用

本节将概述通用 CCIX 架构，并讨论如何在两个不同的 FPGA 系列中使用它。

A.总体概述

设备在端点连接到 CCIX。对于这里的讨论，相关类型的端点是归属代理 (HA) 和请求代理 (RA)。HA 充当物理内存的“所有者”，它提供对物理内存的一致访问，而 RA 通过与拥有的 HA 通信来执行对远程内存的非本地读取和写入。CCIX 与 PCIe 的区别在于 RA 可以提供自己的缓存，但通过 CCIX 保持与 HA 的一致性。在 HA 侧，缓存状态的变化将通过发送适当的消息传播到访问的 RA。CCIX 本身使用物理地址进行访问，但可以选择使用现有的 PCIe 机制来允许加速器使用虚拟地址。为了执行实际的地址转换，CCIX 依赖于 PCIe ATS 机制，这也是 CCIX 附加的加速器也在不同的 PCIe 虚拟通道 (VC) 上保持与主机的传统 PCIe 连接的原因之一。在包括网格和交换层次结构在内的各种 CCIX 拓扑中，我们采用了一种简单的拓扑，它依赖于主机和加速器之间的直接连接。此外，由于硬件接口级别支持所有必需的操作，包括地址转换和一致性，因此主机上不需要特殊的设备驱动程序或自定义固件。

图1 中间 (A)：具有 CCIX 功能的主机的架构，充当 HA，附加 CCIX 的加速器充当 RA。左 (B)：在 Xilinx UltraScale+ HBM 器件上实现CCIX-RA 的 SoC。右 (C)：在 Versal ACAP 设备上实现 CCIX-RA 的 SoC。

图 1-(A) 显示了支持 CCIX 设备的高速缓存一致性主机 FPGA 附件的高级架构。此框图的顶部是主机，底部是加速器，两者都通过支持 CCIX 的 PCIe 接口连接。CCIX 在 PCIe 事务层上使用多个VC，在同一个 PCIe 插槽上传输 PCIe 和 CCIX 流量。在支持 CCIX 的插槽上，事务层对 PCIe 数据包使用 VC0，对 CCIX 数据包使用 VC1，共享相同的物理层和链路层。但是，CCIX 可以选择使用扩展速度模式 (ESM)，这会增加信令速率。对于我们使用的 PCIe 4.0 附件，ESM 将速率从 16 GT/s 提高到 25 GT/s，每次传输 128 个有效负载位。如果双方（即 RA 和 HA）都支持，ESM 模式将在引导时的 CCIX 发现阶段自动启用。

B.使用 Xilinx XDMA的 FPGA RA

Xilinx Virtex UltraScale+ HBM 器件支持 CCIX，但必须以扩展 XDMA IP 块的形式将 CCIX 功能实现为可重新配置的“软”逻辑。如图 1-(B) 所示，关键模块包括一个支持 CCIX 的 PCIe 控制器、一个 ATS 交换机和一个 PCIe-AXIMM 桥。ATS 开关用于通过 PCIe VC0 将虚拟到物理地址转换请求插入到常规 PCIe 通信中，然后检索它们的结果。它还包括一个小的地址转换缓存 (ATC) 来缓冲现有的转换结果，以避免对已知映射进行相对昂贵的地址转换。AXIMM 桥提供主机和加速器之间的内存映射通信（主要是控制平面流量）。对于数据平面访问，加速器采用了使用赛灵思系统缓存 IP 块 [11] 实现的片上缓存，该缓存又使用 CCIX 流协议与 CCIX 一致性机制交互。此缓存中的未命中成为远程内存访问，通过 CCIX 转发到 HA 以检索数据。反过来，HA 确保了 FPGA 端 SC 与主机端缓存的一致性。

C.使用 Xilinx CPM 的 FPGA RA

最新的 Xilinx Versal 器件在其芯片中优化了对 CCIX 的“强化”支持。具体来说，一致性和 PCIe 模块 (CPM) IP 块 [12] 包括一个集成的 L2 缓存，使用ARM的CHI协议与芯片范围内的一致性网状网络通信，后者又使用CXS 与支持 CCIX 的 PCIe 控制器接口。与之前在UltraScale+设备中一样，两个 PCIeVC 用于分离在同一PCIe插槽上运行的PCIe和CCIX流量。我们的设置只需要CPM模块提供的两个支持CCIX的PCIe 控制器之一。ATS Switch 和 AXIMM 块与以前一样使用。

D. 地址翻译

在系统缓存 (SC) 收到来自加速器的读/写请求后，它会检查 ATC 的虚拟到物理映射。如果 SC 在 ATC 中没有找到有效的转换（即ATC未命中），它会通过 VC0 使用 PCIe ATS 功能向主机请求转换。系统缓存上的 ATS 接口使用请求完成协议 [13] 通过四个流接口提供翻译服务：传入完成者请求 (CQ)、传出完成者完成 (CC)、传出请求者请求 (RQ) 和传入请求者完成（RC）。来自主机的回复（例如，保留物理地址）使用相同的机制传递回 FPGA。

E. CCIX 时序模型

CCIX 事务的平均延迟如公式 1 所示。每个事务的延迟取决于ATC中可用的有效缓存地址转换的概率与ATS必须从主机请求新转换的概率，以及所请求的数据是否存在于本地片上缓存中。必须从远程 HA 请求。请注意，使用 ESM 时，物理 CCIX 延迟可能比物理 PCIe 延迟更短。

实验设置和评估

我们在真实硬件中进行实际评估，即使用支持 CCIX 的 ARM N1-SDP 平台作为主机，使用分别具有UltraScale+ HBM 和 Versal ACAP FPGA Xilinx 的Alveo U280 (AU280) 和 VCK5000 CCIX附加板作为加速器。表I显示了不同设备的规格。

A. 测量设置

稍后描述的所有低级基准测试都使用相同的基本测量方法，该方法由三个主要组件组成：软件应用程序编程接口 (API)、硬件模块和上述片上 CCIX 组件。软件 API 在主机上运行，负责执行基准测试并读取硬件分析的 CCIX 延迟特性。软件 API 有四个主要任务：a) 在主机内存中分配缓冲区，b) 初始化硬件模块以访问测量，c) 检索硬件模块记录的延迟数据，以及 d) 分析结果。软件 API 的伪代码如算法 1 所示。请注意，我们将地址随机化以强制 SC 未命中，从而确保我们感兴趣的 CCIX 传输实际发生。

称为 CCIX 流量生成器 (CTG) 的硬件模块使用获取/存储方法来捕获 CCIX延迟。该模块接受来自主机中软件API的 startTrans 调用的请求（包括类型、虚拟地址和长度）。在 API 请求之后，CTG 通过 AXI4-MM 接口向 SC 创建请求，SC 执行 CCIX RA 的角色，然后计算响应到达 SC 的时间。然后可以通过软件 API 读取捕获的时序。请注意，我们仅在其所有数据到达后才认为事务完成。

表II 显示了我们检查的简单 CCIX-RA 所需的 FPGA 资源。如图 1-(C) 所示，VCK5000 使用硬化 CPM 模块形式的 PCIe 控制器，但仍需要一些额外的“软”逻辑来支持 PCIe 传输和 ATS 转换。

B.Low-Level实验评估

实验 1：CCIX 与 PCIe - 延迟和吞吐量。

在这个实验中，我们比较了细粒度交互中相对较小的块大小（32B 到 16KiB）的 CCIX 和 PCIe 传输延迟（并且比 [1] 中检查的 PCIe 批量传输要小得多）。开源 TaPaSCo[14] 框架用于测试 DMA 传输。在这个实验中，通过确保地址转换已经存在于ATC中来消除 ATS 延迟。图 2-(A) 和图 2-(B) 分别显示了 PCIe 和 CCIX 流量的读取和写入延迟。对于 PCIe-DMA 传输，我们使用TaPaSCo 的高性能 DMA 引擎，通过设置不同的数据传输大小，直接使用主机内存数据的物理地址。对于 CCIX 测量，在主机内存中分配一个缓冲区，并将其虚拟地址传递给 CTG 模块。

图2 比较 AU280 和 VCK5000 上的 CCIX 和 PCIe 读/写访问延迟

我们的评估表明，在AU280和VCK5000上，与 PCIe-DMA 传输相比，CCIX 传输具有更好的主机读取延迟，只要传输的数据短于 4 KiB。在这两种情况下，加速都是由于 CCIX 使用的优化数据包协议。但是，当使用优化的数据包协议从 FPGA 写入主机存储器时，CCIX 会产生比 PCIe 传输更长的延迟，因为这些写入参与了一致性机制。我们的吞吐量测量显示，对于 1KiB、16KiB 和 32KiB 的数据集大小，CCIX 的读取吞吐量相对于 PCIe 分别为 3.3x、1.29x、0.87x。读取和写入吞吐量的其他数据点显示在表 III 中。

实验 2：ATS 的成本。

透明地解析虚拟地址的能力大大简化了加速器设计和主机接口。但是，该操作可能代价高昂，因为如果请求的转换不存在于主机 IOMMU 的 TLB 之一中，它可能会触发主机上缓慢的完整页表遍历。在实验 1 中，我们检查了不需要地址转换 (noATS) 的访问。但是为了检查 ATS 的成本，我们现在构建了两个访问场景，如图 3 所示：在第一个场景中（使用 ATS），我们强制在 SC 和 ATC 中未命中，因此总是会产生 ATS 开销。在第二个（noATS）中，我们允许 ATC 命中，但仍然强制 SC 未命中，以便实际发生 CCIX 事务。结果表明，特别是对于较小的传输，ATS 开销可能很大，导致 ATC 未命中时的访问延迟增加三倍。但是，对于 32KB 及以上的传输，传输时间开始主导 ATS 开销。

图3 ATS 对从 Alveo U280 卡和 VCK5000 上的 CTG 模块随机访问 RA 模块的 CCIX 访问延迟的影响

为了进一步研究 ATS 延迟，我们可以利用整个 ATS 机制在 SoC 的 ATS Switch 块中实现的事实。因此，我们可以监控该模块的请求/回复接口，以捕获 ATS 操作本身的确切请求-响应时间。图4显示了 64 B（高速缓存行大小）、128 B 和 4 KiB 块的 CCIX 访问延迟。由于 Linux Page Size 为 4KiB，因此这些请求每个只需要一个 ATS 转换。通过增加请求的大小，需要更多的翻译。对主机内存中分配的缓冲区的初始访问具有最长的延迟。以后的顺序访问具有较少的 ATS 开销，即使在 4 KiB 跨到另一个页面时也是如此。我们假设这是由于主机 IOMMU 对此处使用的顺序访问执行了预翻译。对于重复 64 B 读取的情况，通过比较主机 IOMMU 响应 ATS 请求所需的延迟（≈ 617 ns，在 ATS 交换机处捕获），以及在 SC 未命中情况下读取 64B 的已知延迟（≈ 700 ns，来自图 3-(A)），ATC 本身似乎需要 (2453 - 617 - 700 ≈ 1136 ns) 进行操作。

图4 比较 Alveo U280 卡上 CCIX-RA 的读/写延迟和 ATS 延迟

改善 CCIX 流量延迟的一种方法是减轻地址转换的影响。例如，这可以通过使用Linux大页面支持来实现。这将导致更大的页面，进而需要新翻译的页面边界交叉更少。N1-SDP平台在启动时确实支持不同大小（即 64KB、2MB、32MB 和 1GB）的巨页。我们在数据库用例（第 V 节）中采用了这种方法来提高性能。

实验 3：数据局部性。

CCIX 的使用允许加速器使用自己的缓存，确信它们将始终与主机保持一致。为了展示两个 SoC 的最佳情况基线性能，我们评估了保证所有访问都在设备上缓存中命中的情况，在图 5 中称为本地数据，并测量这些命中的延迟。为了比较，我们还展示了覆盖缓存未命中的数据远程案例。AU280 中更简单的缓存层次结构实现了比 VCK5000 上的二级缓存（写入 ≈150 ns，读取 ≈ 170 ns）更小的延迟（写入 ≈ 80 ns，读取 ≈ 100 ns），以实现更小的传输大小。但是，对于较大的传输，两级层次结构变得更快。

图5 数据局部性对 AU280 和 VCK5000 的 CCIX 延迟的影响

实验 4：一致性努力。

在这种情况下，主机上的应用程序分配一个共享缓冲区，主机和加速器同时访问和修改该缓冲区。这些并发访问/修改增加了一致性工作，进而增加了访问延迟。大页面用于避免 ATS 开销。如算法 2 所述，硬件 CTG 和软件 API 同时修改共享缓冲区中的缓存行。最初，我们使用 2 MiB 的缓冲区进行测量，然后分别缩小到 512 KiB、128 KiB 和 32 KiB，以增加争用程度，从而增加保持一致性所需的努力。缓冲区的这种缩小显示在图 6 左侧的 Y 轴上。对于这些共享缓冲区大小中的每一个，我们使用单个 CPU 内核和 FPGA 从两个主机对缓冲区中的随机地址执行 1024 次访问，并跟踪它们的延迟。正如预期的那样，随着访问次数的增加以及缓冲区大小的缩小，争用都会增加。在这两种情况下，必须解决的一致性冲突的可能性都会增加。有趣的是，额外的一致性工作主要影响主机的访问，FPGA 端访问的延迟几乎保持不变。这在图 6 的右侧进行了更详细的检查，该图绘制了访问时间的直方图，现在为 20,000 次访问，对于 32 KiB 和 2 MiB 共享缓冲区大小。虽然时间更长，但来自 FPGA 端的远程访问比本地主机端访问的“抖动”（分布更窄）要少得多。请注意，FPGA 端访问的非常短的异常值实际上是 SC 中的命中，其概率在较小的 32 KiB 中大于在较大的共享缓冲区中。在这个实验中，主机上只有一个内核访问共享缓冲区。为了进一步调查，我们使用主机上的多个内核来修改和访问共享缓冲区。我们的评估表明，由于更多的缓存命中，将 32 KiB 地址范围的内核数量从 1 个增加到 3 个实际上将本地主机端平均访问延迟从 333 ns 缩短到 235 ns。另一方面，由于更多的缓存未命中，设备访问延迟从 674 ns 增长到 741 ns。对于更大的内存范围，访问时间将再次保持几乎恒定。

图6 使用单个 CPU 内核增加主机-FPGA 访问争用的一致性工作。左 (A)：在从 2 MiB 缩小到 32 KiB 的地址范围内同时进行1024 次随机访问。右 (B)：直方图显示两个地址范围的访问延迟“抖动”。

实验 5：原子操作。

CCIX 还能够通过支持AtomicStore、AtomicLoad、AtomicSwap 和AtomicCompare 操作在 RA（例如 AU280）和 HA（例如 N1-SDP）之间执行原子事务。它们在RA 端构建为 AXI4-MM 请求的多步序列。我们的评估表明，从主机启动的 AtomicCompare 需要 50 ns，而从加速器启动的 AtomicCompare 需要 740-800 ns。

数据库应用

在这些详细的低级别测量之后，我们现在检查 CCIX 在应用程序级别的使用，用于需要细粒度主机加速器交互的场景。作为一个现实场景，我们选择了数据库加速领域。所研究的系统是 neoDBMS（图 7）[15]、[16]，一种基于 PostgreSQL 的 DBMS，使用 FPGA 加速的 NDP。以这种方式，计算被移到更靠近存储（例如，闪存、NVM）的地方，假设存储直接连接到加速器。使用 NDP 可减少数据传输并提高整体系统性能。然而，数据库应用程序中的 NDP 面临一些挑战，例如同步和事务一致性。在数据库中，NDP模式下的事务有两种，只读NDP和更新NDP。在只读NDP中，为了使事务免于干预，每个事务都针对自己的快照进行操作。这需要首先收集主机主内存中的所有 DBMS 更新，然后在每次 NDP 调用 [15] 时将更改的 DBMS 状态传送到加速器。

图7 具有共享锁表的 neoDBMS 架构

在更新 NDP 中，由于主机和加速器对同一记录的并发修改，使事务免干预具有挑战性。最初，相同的当前版本记录存在于加速器和 DBMS 的内存中。如果两者同时创建记录的新后继版本，则会导致两个当前版本分支，从而导致无法解决的不一致，称为写入/写入冲突。减轻这种不一致性的一种方法是在执行之前以独占方式锁定整个数据库表，但这会严重限制并发性。另一种方法是使用支持记录级锁定的细粒度缓存一致性共享锁表，从而可以锁定每条记录的版本，以同步 DBMS 和加速器之间的修改。

A. 共享锁表

为了在 DBMS 和加速器之间实现一致且无干预的更新 NDP 操作，需要低延迟的缓存一致性失效和同步机制。为了处理上述neoDBMS中的写/写冲突，我们通过采用基于CCIX的解决方案来实现共享锁表。如果没有 CCIX，同步的成本会高得多，并且很可能会浪费 NDP 处理所获得的任何性能增益。为此，我们修改后的 neoDBMS 在主机内存中分配了一个共享锁表，主机和 FPGA 双方在更新记录之前请求锁定记录。neoDBMS 依靠 Linux 内核中的大页面（即HugeTLB Page）支持来请求物理上连续的内存页面，用于分配锁表并确保它们被固定。由于锁表的大小相对较小，并且在 DBMS 的整个运行时间内都非常频繁地访问条目，因此将表固定在物理主机内存中是有效的。

通过在位于哈希桶中的队列中插入一个条目来执行获取行级锁。因此，队列可以同时包含多个锁条目。通过对记录版本标识符应用哈希函数来计算存储桶位置。图 8 显示了两个并发进程的示例，一个在主机上，一个在设备上，请求相同记录版本（即 Rv2）的锁。对记录版本标识符应用哈希函数会导致两个进程尝试将锁插入位于同一哈希桶中的同一锁定队列中，此处编号为 2。在此示例中，首先，设备请求锁并立即获取锁.第一个槽代表当前持有锁并且允许修改数据的进程。稍后，主机尝试也请求相同的锁。由于锁队列的第一个槽已经被占用，主机无法获取锁，并将其请求附加到锁队列的尾部并等待。一旦设备完成，它通过将整个队列向左移动来释放锁，将现在位于队列头的锁授予下一个进程。然后主机获取锁并且可以继续执行。

图8 共享锁表中的单个哈希桶（用于哈希键 2）的示例，来自主机和设备的并发锁请求在桶中排队等待相同的记录版本。

在 FPGA 上，已经开发了一个 Bluespec 模块来处理来自NDP-update 模块的锁定请求。该模块在提供的虚拟地址上创建一个哈希表组织的锁表。分配的缓冲区地址和锁表由 neoDBMS 指定。模块通过流接口接收/发送锁定请求/响应。收到锁请求后，模块会创建 CCIX 原子比较和交换 (CAS) 操作来放置锁并更新队列，然后AU280 上的 CCIX-RA 将其发送给主机。通过缓存一致性共享锁表和所采用的CCIX原子操作，我们实现了DBMS和FPGA之间数据的细粒度协同处理。

B. 评估

为了评估基于 CCIX 的同步机制的性能，我们测量了在 N1-SDP 平台和基于 AU280 的加速器上运行的 neoDBMS 的端到端锁定请求延迟，如图9 所示。由于共享锁表的大小大于Linux 4KiB 页面，因此访问会产生较长的 ATS 开销的风险很高。这已经通过使用大页面来避免。硬件模块执行一个独立于实际共享锁操作的请求，以通过对大页面的物理转换来“预热”ATC。然后，所有实际的锁定请求都会有 ATC 命中，并且不会受到 ATS 开销的影响。

图9 并行访问共享锁表的影响

在实验中，neoDBMS（在单个 CPU 内核上）和加速器都会不断地创建锁请求，而我们在另一侧增加了争用。在低竞争下，neoDBMS 能够在 80 ns 内锁定本地驻留锁表中的记录版本。在高竞争下，neoDBMS 的本地锁定延迟增加到200-250 ns。从加速器锁定当然需要更长的时间，因为远程访问是对主机内存执行的，但观察到的 750 到 800 ns 的延迟是 CCIX 原子 CAS 操作的典型延迟（参见上面的实验 5），最重要的是，不受竞争增加的影响。虽然这证实了上面实验 4 中已经观察到的行为，但有趣的是，它不仅适用于实验 4 的简单读/写操作，还适用于此处使用的更复杂的原子 CAS 访问。

06结论

我们研究了使用 CCIX 在主机和基于 FPGA 的加速器之间进行细粒度交互。在我们的结果中，我们表明，尤其是对于较小的传输块大小，与 PCIe 相比，可以实现更短的延迟。此外，地址转换与 CCIX 操作的透明集成支持主机和 FPGA 加速器之间的缓存一致共享虚拟内存 (ccSVM) 编程模型，该模型传统上仅适用于高度专业化的平台，例如 Convey HC 级机器。对于数据库用例，可以看出 CCIX 远程访问虽然比本地访问慢，但即使对锁表等共享数据结构的更高程度的竞争访问也不会受到影响。

从我们的结果也可以看出，优化潜力存在于硬件/软件协议栈的多个级别。例如，我们已经演示了使用大页面来减少地址转换开销。还可以在 SoC 中插入更有效的特定于应用程序的翻译机制，因为所有翻译都发生在 ATSSwitch 模块中，该模块具有良好记录的接口，可以用自定义版本替换。这可以被利用，例如，在 Sec.V 的 DBMS 用例中，即使对于超过 ATC 容量的随机访问模式，也可以完全避免 ATS。ATC 本身似乎也有优化潜力，但这需要更大的工程努力，因为它与供应商提供的系统黑盒部分更紧密地集成在一起。

编辑：黄飞

阅读全文

FPGA(591969) FPGA(591969)
cpu(206163) cpu(206163)
摩尔定律(78502) 摩尔定律(78502)
加速器(36399) 加速器(36399)
数据库(63273) 数据库(63273)

20纳米战火炽 FPGA商竞推全新架构

进入20纳米节点后，FPGA厂商除了比拼先进制程技术外，亦开始推出全新的设计架构及开发工具，助力客户突破20纳米以下FPGA产品将遇到的设计瓶颈，让FPGA市场竞争战况愈来愈激烈。

2014-01-29 11:59:02

1130

工程师深谈ARM+FPGA的设计架构

最近学习了ARM+FPGA的设计架构，ARM和FPGA结构的通信大致可以分为两种。

2015-05-25 10:35:04

21452

ARM/高通/华为组建CCIX联盟共推处理器架构

CPU处理器擅长通用任务处理，GPU这样的处理器则擅长专用处理，但浮点性能极强，CPU+GPU这样的异构运算在当前已不鲜见，而它只是主处理器+加速器架构中的一种，其他还有CPU+FPGA、CPU+网络芯片等等。

2016-05-26 10:52:42

1419

基于直方图算法进行FPGA架构设计

加速。安排如下：首先基于直方图算法进行FPGA架构设计，这里主要考虑了如何加速以及FPGA资源的利用两个因素；最后基于system Verilog搭建一个验证系统。 FPGA设计架构不论是图像灰度直方图还是梯度直方图，本质上是对数据的分布进行计数。从F

2020-12-10 16:37:20

2339

FPGA内部详细架构解析

FPGA 芯片整体架构如下所示，大体按照时钟域划分的，即根据不同的工艺、器件速度和对应的时钟进行划分。

2022-10-20 09:58:03

1389

FPGA架构演进之路 FPGA架构设计原则和实现挑战

成本。FPGA架构的设计涉及许多不同的设计选择，从高级架构参数到晶体管级实现细节，目标是制造高度可编程的器件，同时最小化可重新配置的面积和性能成本。随着应用需求和工艺技术能力的不断发展，FPGA架构也必须适应

2023-08-11 09:52:09

921

CCIX 1.1设备必须支持PCIe 5.0 PHY或CCIX EDR PHY这两种物理层吗

的各种扩展能力也是以链表的形式分布，只不过第一个扩展能力寄存器就在0x100位置。每一个扩展能力寄存器的第一排寄存器格式类似。在CCIX中，对于DVSEC链表的没有特定顺序的要求。功能版本

2022-08-16 15:45:06

FPGA 内部详细架构精选资料分享

FPGA 内部详细架构FPGA 芯片整体架构1.可编程输入输出单元（IOB）（Input Output Block）2.可配置逻辑块（CLB）（Configurable Logic Block）3.

2021-07-30 08:10:06

FPGA上实现网络通信用的协议

TCP/IP协议：TCP/IP协议是Internet上使用的主要协议之一，它定义了数据在网络中的传输方式和处理方式。FPGA可以通过实现TCP/IP协议栈来支持TCP/IP通信。PCIe协议：PCI

2023-03-27 09:01:46

FPGA架构和应用基础知识

`FPGA代表现场可编程门阵列，它是一种半导体逻辑芯片，可编程成几乎任何类型的系统或数字电路，类似于PLD。PLD仅限于数百个门，但FPGA支持数千个门。FPGA架构的配置通常使用语言来指定，即

2018-12-14 17:39:44

FPGA各芯片架构特点

文章目录各种硬件CPUGPUNPUFPGA各芯片架构特点总结国产化分析华为Atlas 300寒武纪比特大陆各种硬件CPUCPU（Central Processing Unit）中央处理器，是一块

2021-07-26 07:02:18

FPGA实战演练逻辑篇16：FPGA核心板电路设计架构

2015-04-20 11:25:47

FPGA的资源使用如何评估

请问FPGA的资源使用如何评估？

2024-02-22 09:55:53

FPGA研发之道(2)FPGA和他那些小伙伴们(一)系统架构组

领域通常是高速网络处理器(NP)+FPGA的典型架构。　　(3)4G等通信设备，对于新一代通信基站的信号处理，FPGA+DSP阵列的架构就是绝配。特别是在专用处理芯片面世之前，这样的架构可以保证新一代通信

2018-08-06 11:45:27

FPGA芯片整体架构

FPGA芯片整体架构如下所示，整个芯片是以BANK进...

2021-07-29 07:00:54

FPGA芯片的整体架构是由哪些部分组成的

FPGA芯片的整体架构是由哪些部分组成的？各模块有什么功能？

2021-11-05 06:54:06

FPGA设计之模块划分常用架构

FPGA设计之模块划分常用架构

2019-08-14 09:42:36

FPGA项目开发之初始时钟架构和相关的复位架构绘制

数据或控制信号跟随损坏。我们将从 7 系列FPGA开始我们的旅程。当我们考虑时钟规划时，我们需要确保使用设备内最合适的资源并了解其内部时钟架构。我们只需要简单的确保时钟信号连接到 IO 上适当的时钟引脚

2022-10-08 15:28:35

在FPGA上加速过winograd吗

在FPGA上加速过winograd吗，有没有和arm端做过加速结果比较

2022-09-21 11:28:56

在FPGA上建立MATLAB和Simulink算法原型的四种最佳方法

。由于HDL仿真不足以发现系统级错误，芯片设计人员正利用FPGA来加速算法创建和原型设计。利用FPGA处理大型测试数据集可以使工程师快速评估算法和架构并迅速做出权衡。工程师也可以在实际环境下测试设计，避免

2020-05-04 07:00:00

在PXI总线架构上的虚拟仪器是怎么实现射频功能的呢？

基于PXI的虚拟射频仪器的特点是什么？在PXI总线架构上的虚拟仪器是怎么实现射频功能的呢？

2021-05-26 06:02:40

在SP605评估板上运行BIST时哪里出现了问题？

你好我正在尝试在SP605评估板上运行BIST。我没有改变紧凑型闪存内容。我按照“Xilinx Spartan-6 FPGA SP605评估套件UG525入门指南”中的说明进行了跳线设置。但是当我按

2019-07-22 13:25:24

在Xilinx ZCU102评估套件上启用NVMe SSD接口

功能丰富的（PL）UltraScale架构在单个设备中。还包括片上存储器，多端口外部存储器接口和丰富的外围连接接口集，尤其是GTH 16.3 Gbps收发器，它具有支持PCIExpress®Gen3

2020-09-03 16:07:35

Altera加速替代ASIC市场关注FPGA架构和软件创新

影响,Altera也不例外。Altera在28nm制程节点上开发FPGA新系列产品,以及支持软件的成本,要远远高于65nm开发时所投入的2.5亿美元。只有很少的终全文下载

2010-04-22 11:30:41

Arch Linux ARM （在ARM架构上的移植）下载

著名轻量系统Arch Linux在ARM架构上的移植。注重对于开发者的简洁，任何可有可无的软件一律不自带。仅有命令行界面，不建议初学者使用。Arch Linux的软件策略是相当激进的，使用Arch

2014-07-01 00:09:04

LiteOS在RISC-V架构上的适配过程的具体步骤有哪些

RISC-V是什么？LiteOS在RISC-V架构上的适配过程的具体步骤有哪些？

2021-10-19 10:23:09

XILINX FPGA 芯片整体架构是如何构成的

XILINX FPGA 芯片整体架构是如何构成的？XILINX FPGA 芯片有哪些资源？

2021-10-29 06:26:23

Xilinx FPGA:Virtex-II基本架构

Xilinx FPGA:Virtex-II基本架构

2012-08-02 23:12:34

[转帖]FPGA和他那些小伙伴们（一）系统架构组成

，多核处理器也能处理大数据量的业务的并行，例如业界TERILA已推出64核的多核处理器，采用MIPS处理器，通过二维MASH网络连接在一起，形成NOC的结构。在性能上已经和现有的高速FPGA的处理能力上

2017-06-07 13:12:54

kicad的架构移植复杂度评估

的评估。我很感谢你的帮助和回应！基于扫描工具，移植的复杂性被确定为苦难，项目中的CPU架构相关的代码量较多。这将需要一个专业的开发者或团队，来处理这个任务（指的是从使项目适应特定架构到在该架构上实现全部功能的总体工作量）。这样的评价准确吗？我期待着你的帮助和回应。

2023-09-11 17:03:23

kicad的cpu架构移植复杂度评估

各位网友大家好啊~~~~我正在实施一个工具，以评估CPU架构移植的复杂性。它主要关注RISC-V体系结构的移植。实际上，他可能对所有架构移植进行一个平均估计。我关注的是某个工程从过去到将来所有移植

2023-09-11 17:06:03

soc fpga架构下的读心术

的读心术。soc fpga架构下的的ARM处理器通过AIX总线访问 FPGA域中的外设或者内存空间，这些总线行为是可以通过硬逻辑状态机来监控的，针对一些需要高速处理的外设，硬逻辑状态机和处理器之间的交互

2015-01-06 17:24:03

【MPS电源评估板试用申请】基于FPGA的红外热成像系统

项目名称：基于FPGA的红外热成像系统试用计划：申请理由本人从事红外热成像的研发工作，在公司主要负责基于FPGA的红外热成像系统的架构设计和驱动程序的开发。熟悉FPGA开发技术，参与公司多个红外热

2020-06-18 13:45:35

【WEBENCH 大赛作品】WEBENCH FPGA 电源架构设计

使用WEBENCH® FPGA Power Architect 设计工具，进行FPGA的电源架构设计作品地址：https://www.elecfans.com/uploads/ComDoc/20150716/55a754d88f528.zip

2015-07-16 14:54:22

【设计技巧】FPGA架构设计漫谈

/u/97edd21e88（一）流驱动和调用式架构设计是每个FPGA工程师都要面临的第一关。经常有这样的项目，需求分析，架构设计匆匆忙忙，号称一两个月开发完毕，实际上维护项目就花了一年半时间。主要包括

2019-08-02 08:30:00

一文弄懂CCIX协议层

链路。CCIX链路定义为两个CCIX端口之间的（逻辑）连接，具有专用的通信资源。一个CCIX系统在正常工作前，需要主机通过发现（discovery）和枚举（enumeration）机制去初始化

2022-06-08 17:23:02

使用XUPV5-LX110T评估平台在FPGA上实现OpenSparc，很多旧的IP都不可用，请问如何解决？

嗨，我正在使用XUPV5-LX110T评估平台在FPGA上实现OpenSparc。给出的整个项目文件是使用EDK 10.3版本SP3生成的。但我的实验室安装了12.2版本。毫无疑问，EDK更新了

2019-01-18 10:24:12

例说FPGA连载15：硬件整体架构设计

2016-08-01 18:19:50

周易AIPU必须用在Arm架构上吗？是否可以用在其他架构上呢？

2022-09-28 10:20:03

固件代码在3个FPGA中的一个FPGA上出现问题如何解决

我的固件代码在3个FPGA中的一个FPGA上出现问题。应用程序明智的代码在两个virtex 5 FPGA上正常工作，但一个FPGA数据与其他FPGA数据相比不正确。所有FPGA都是相同的。 FPGA

2020-07-08 10:03:00

国产ARM+FPGA架构在“能源电力”中的典型应用详解

/高速AD数据采集、处理、存储和显示的应用场景。目前，ARM + FPGA异构多核框架已成为能源电力行业的经典架构，可轻松面对广泛的应用场景。能源电力中“典型应用”举例国产ARM + FPGA平台与架构

2023-03-31 16:48:05

基于FPGA的安全产品应用

市场上愈演愈烈的架构之争，《网络世界》有必要与读者一起分享技术上的来龙去脉。　　写在讨论之前　　在阅读本文之前，我们请读者牢记产业经济学上的三个要素：技术、成本与市场需求。因为在FPGA在安全产品的应用进程中，始终离不开这三个支点。　　

2019-07-16 07:30:20

基于FPGA的神经网络的性能评估及局限性

FPGA实现神经网络关键问题分析基于FPGA的ANN实现方法基于FPGA的神经网络的性能评估及局限性

2021-04-30 06:58:13

如何有效地开展FPGA/SoC架构设计工作？

感到好奇，因此我在多个FPGA讨论板/论坛上提出了问题并收到了很多有趣的回答。大多数受访者表示他们使用了常见的图纸设计套件。我们可以使用这里所有的绘图包创建漂亮的架构图，有趣的是，有几个人回答说他们

2021-06-23 08:00:00

如何有效地开展FPGA/SoC架构设计工作？

2021-09-15 10:55:58

将FPGA的数据显示在实时电脑上

新手发帖：老师让我们用FPGA来制作21点游戏，牌的点数，胜负显示在FPGA上。请问，有没有方法把所有结果不仅仅显示在FPGA上，还显示在电脑上。比方说，你得到一张红桃3，FPGA在display屏幕显示，在所连接的电脑屏幕也显示出来。

2016-12-17 07:58:22

快上车！带你了解FPGA-ARM架构

`FPGA的应用非常广泛，通信领域，视频图像处理领域，汽车电子领域，消费电子领域，工业领域，数据处理领域等，都能看到FPGA的身影。在设计中，FPGA通常和其他处理IC架构，完成整个

2019-12-10 17:58:16

怎么在FPGA上USB转换

我期待将USB转换为PS / 2和USB转换为PCMCIA。我在网上研究过，我发现的任何芯片都已经过时了。我要采取的下一步是尝试在FPGA上实现这些。我可以使用任何现有的VHDL或IP吗？任何指导

2019-04-28 14:08:43

怎么设计基于DSP+FPGA协处理架构的无线子系统？

您可以显著提高无线系统中信号处理功能的性能。怎样提高呢？有效方法是利用FPGA结构的灵活性和目前受益于并行处理的FPGA架构中的嵌入式DSP模块。

2019-09-19 07:50:50

求助-在FPGA上实现retinex算法

求助大神，在FPGA上实现retinex算法。。。

2013-05-08 23:29:41

求助：基于SRAM结构的FPGA上电瞬间电流大小如何去评估，上电瞬间的电流很大，比正常工作电流大很多，如何去评估？

求助：基于SRAM结构的FPGA上电瞬间电流大小如何去评估，上电瞬间的电流很大，比正常工作电流大很多，如何去评估？资料上没找到描述，感谢讨论

2019-04-18 16:50:00

能否在AD9681评估板HSC-ADC-EVALDZ上使用自己的FPGA程序进行信号处理？

能否在AD9681评估板HSC-ADC-EVALDZ上使用我们自己的FPGA程序进行信号处理，及FPGA能否在线编程？

2023-12-05 06:16:40

请教电力电子方向里dsp+FPGA架构的案例

请教电力电子方向里dsp+FPGA架构的案例

2018-12-10 18:32:58

请问如何实现6657DSP 评估板与xilinx kintex7 FPGA之间的PCIE连接？

本帖最后由一只耳朵怪于 2018-6-25 11:01 编辑你好！我目前正在实现6657DSP 评估板与xilinx kintex7 FPGA之间的PCIE连接，其中DSP作为Root

2018-06-25 05:14:40

集中式电源架构和分布式电源架构

1、概述在高速电路设计中一块单板上常存在多种电源（3.3V，1.8V，1.2V，1.0V，0.9V，0.75V等），有时光是对FPGA供电就需要五六种电源，为了便于使用往往用户只需要提供一种或几种

2021-11-15 07:11:43

EasyGo FPGA Solver

概述EasyGo FPGA Solver是EasyGo开发的专门部署在FPGA 硬件上的解算器软件。根据不同的应用需求，会有不同的FPGA Solver 选择

2022-05-19 09:21:43

异核架构-i.MX 8M Mini+ARTIX7核心板及开发板-ARM+FPGA架构-米尔电子

基于ARM+FPGA架构，高速采集和高清显示二合一CPU集成i.MX 8M Mini+ARTIX7处理器，二合一成本优势明显；高性能的ARM MPU+多媒体能力，良好

2022-11-04 16:12:46

Actel的SmartFusion混合信号FPGA开发评估方

Actel的SmartFusion混合信号FPGA开发评估方案 Actel公司的SmartFusion是集成了FPGA, ARM Cortex-M3和可编程模拟的智能混合信号FPGA,非常适合硬件和嵌入系统设计.

2010-03-31 08:46:22

2668

Xilinx宣布CCIX联盟成员增长3倍并推出相关规范

AMD 公司研究员兼 I/O 和电路技术副总裁 Gerry Talbot 表示：“AMD 欢迎 CCIX 规范标准首版发布，也欢迎新成员加入并共同建立起 CCIX 这个开放式缓存一致性加速器本地互联

2016-10-18 09:34:04

490

7 35T Arty FPGA 评估套件

Artix®-7 35T FPGA 评估套件由 Avnet 和 Digilen 设计，是一款完全可定制的开发套件，是需要高灵活、低功耗平台的嵌入式设计人员的理想选择。 Artix

2017-02-08 20:38:01

335

FPGA 是如何引入工业驱动架构的？

在这个系列的第一篇博文中，我们了解到FPGA是如何被引入到驱动架构中的。现在，我们来看一看在一个工业驱动/伺服机架构中使用FPGA时遇到的一些挑战，以及以COTS MCU形式运转的控制片上系统 (SoC) 的全新功能如何用FPGA来改变针对工业驱动的成本有效模型。

2017-04-26 12:17:39

2013

Arm、Xilinx、Cadence和台积公司共同宣布首款采用7 nm工艺的CCIX测试芯片

这一测试芯片旨在从硅芯片层面证明 CCIX 能够支持多核高性能 Arm CPU 和 FPGA 加速器实现一致性互联。

2017-09-19 10:54:16

7050

4巨头强强联手合作开发7纳米工艺CCIX测试芯片

赛灵思、Arm、Cadence和台积公司今日宣布一项合作，将共同构建首款基于台积7纳米FinFET工艺的支持芯片间缓存一致性（CCIX）的加速器测试芯片，并计划在2018年交付

2017-09-23 10:32:12

4003

为什么这些公司都采用 7 纳米工艺的 CCIX 测试芯片

赛灵思、Arm、Cadence和台积公司今日宣布计划在 2018 年交付 7 纳米 FinFET 工艺芯片。这一测试芯片旨在从硅芯片层面证明 CCIX 能够支持多核高性能 Arm CPU 和 FPGA 加速器实现一致性互联。

2017-09-25 11:20:20

6826

CCIX协议对于一些高性能应用详解

用于加速器的缓存一致互联协议（CCIX）是指由一家新的行业标准机构 – CCIX联盟 -- 开发的一组规范。CCIX的驱动因素是需要比当前可用技术更快的互连，并且需要缓存一致性，以便在异构多处理器

2017-11-15 11:14:02

13398

SoC设计中嵌入FPGA(eFPGA)内核实用评估方法

虽然系统级芯片( SoC )的架构师们已了解嵌入式FPGA( eFPGA )内核能如何为他们的ASIC/ SoC 设计增加价值，甚至是在规划出一个具体应用之前就了解，但可能还不清楚如何开始进行一次

2018-09-20 09:51:00

3835

Lattice的iCEstick FPGA评估套件是全球首款专为移动设备市场设计的FPGA

莱迪思半导体公司（Lattice）推出iCEstick评估套件，一款易于使用、带有USB接口、拇指大小的开发板，可以让工程师和系统架构师迅速评估和开发基于莱迪思 iCE40 mobileFPGA

2018-09-25 16:22:00

1970

Artix-7 ARTY FPGA评估套件的演示

该视频演示了基于Artix-7的低功耗ARTY FPGA评估套件，该套件采用-1LI Artix-7 FPGA。对于演示，该套件的工作功率不到半瓦，运行真实设计，并配有软处理器。

2018-11-29 06:23:00

2506

Xilinx 16nm Virtex UltraScale+ FPGA器件的功能

在本视频中，了解Xilinx采用高带宽存储器（HBM）和CCIX技术的16nm Virtex UltraScale + FPGA的功能和存储器带宽。

2018-11-27 06:20:00

3624

Kintex UltraScale FPGA KCU105评估套件的特点性能介绍

查看Kintex®UltraScale™FPGA KCU105评估套件，该评估套件具有完美的开发环境，可用于评估尖端的Kintex UltraScale All Programmable FPGA。

2018-11-26 06:13:00

4457

浅析如何评估FPGA的资源

在使用FPGA过程中，通常需要对资源做出评估，下面简单谈谈如何评估FPGA的资源。

2019-02-15 15:09:05

3580

GCC和CCIX 联盟签订备忘录，支持CCIX作为互联技术工业标准

基于这份合作备忘录，CCIX 和GCC 共同将CCIX 作为GCC 绿色计算标准体系的支柱技术之一，来推进绿色计算发展。合作的长期目标是通过异构缓存一致性加速架构来推进高性能、低功耗的绿色计算。

2019-07-26 09:39:51

3058

易灵思推Trion Titanium FPGA，采用 “Quantum™ 计算架构”

Trion Titanium FPGA 是基于16纳米工艺节点，并采用易灵思的 “Quantum™ 计算架构”。

2020-07-20 17:01:08

1102

FPGA的组成架构、类型及应用讲解

通用FPGA架构由三种类型的模块组成。它们是I / O块或焊盘，开关矩阵/互连线和可配置逻辑块（CLB）。基本FPGA架构具有二维逻辑块阵列，其具有用于用户安排逻辑块之间的互连的装置。下面讨论FPGA架构模块的功能：

2020-09-30 14:00:33

7542

如何评估FPGA的资源

在使用 FPGA 过程中，通常需要对资源做出评估，下面简单谈谈如何评估 FPGA 的资源。 FF 和 LUT 的数目：这个在写出具体代码之前，初学者通常没法估算，但资深 FPGA 工程师会估算

2020-12-28 07:59:00

如何开展FPGA/SoC架构设计工作？

逻辑设计的架构？在我有一次同时在为三个FPGA项目设计架构（作为卫星开发的一部分）时，这个问题浮现在我的脑海中。当然，由于最终应用场景的原因，该架构受到了主承包商和航天局的多次审查。因此，我将尽可能详细的画出架构图，以便让我的设计团队可以

2021-05-27 11:33:00

1975

（06）FPGA资源评估

（06）FPGA资源评估1.1 目录1）目录2）FPGA简介3）Verilog HDL简介4）FPGA资源评估5）结语1.2 FPGA简介FPGA（Field Programmable Gate

2021-12-29 19:40:45

一文详细了解CCIX规范

正文开始前，闲扯几句。在接下来分析CCIX规范的过程中，大家会发现CCIX里面有太多ARM的影子，尤其是协议层的一致性协议部分，你会看到有很多跟CHI相似的东西。另外，在CCIX规范的底层，基本全是复用和遵循PCIe规范。

2022-06-23 09:20:32

1431

CCIX协议层消息字段的含义

每个CCIX代理都有一个ID，通过ID进行消息路由。

2022-06-28 17:22:18

1024

CCIX规范的简单介绍

对于芯片互联网络，有两个指标是至关重要的：带宽和延时。CCIX 采用两种机制来提高性能、降低延时。第一种机制是采用缓存一致性，自动保持处理器和加速器的缓存一致，提升易用性、降低延时。

2022-07-21 14:35:46

1030

一文详解CCIX规范

2022-08-01 14:01:38

1436

CCIX协议层详解

每个CCIX代理都有一个ID，通过ID进行消息路由。每个CCIX端口可以与一个或多个其他CCIX端口通信。CCIX交换机（Switch）包括CCIX端口并支持CCIX链路。CCIX链路定义为两个CCIX端口之间的（逻辑）连接，具有专用的通信资源。

2022-08-03 14:12:16

2009

CCIX传输层详解

开篇中提过，CCIX可以看作两个主要规范，分别是CCIX协议规范和CCIX传输规范。

2022-08-09 11:39:26

1177

CCIX物理层详解

CCIX 1.1设备必须支持两种物理层中的一种：PCIe 5.0 PHY，或者是CCIX EDR PHY。

2022-08-15 11:12:15

1613

CCIX传输层详解

开篇中提过，CCIX可以看作两个主要规范，分别是CCIX协议规范和CCIX传输规范。

2022-09-09 13:01:42

1003

脑洞大开的FPGA架构上的创新技术

Quantum架构的FPGA是由XLR(eXchangeable Logic and Routing)单元组成，而XLR 单元可以作为一个基于查找表的逻辑单元的功能，也可以作为切换矩阵功能，通过软件进行灵活切换。Quantum架构FPGA如下图所示。

2023-01-11 16:08:47

854

现代商用FPGA架构的不同关键组件的演变

架构的设计涉及许多不同的设计选择，从高级架构参数到晶体管级实现细节，目标是制造高度可编程的器件，同时最小化可重新配置的面积和性能成本。随着应用需求和工艺技术能力的不断发展，FPGA架构也必须适应。在这篇文章中，我们回顾了现代商用FPGA架构的不同关键组件的演变，并阐明了它们的主要设计原则和实现挑战。

2023-01-31 15:32:01

501