借助自适应 SoC 加速 5G 基带

作者：Awanish Verma，赛灵思首席架构师兼技术营销总监

（赛灵思现在是 AMD 的一部分）

第一部分打造面向新一代通信的全新芯片架构

5G 新无线电（NR）网络规范需要新的无线电和接入网架构。虽然 5G NR 架构包括新的频谱和大规模（mMIMO）天线，但相应的接入网架构也必须演进发展才能实现5G 定义的服务，其中包括增强型移动宽带、超可靠低时延通信与大规模机器类通信。实施这些服务需要在不同级别的网络聚合节点上进行网络切片。由于纯软件解决方案无法满足不断攀升的时延和吞吐量需求，导致网络加速成为巨大需求，而这个问题则可以通过可编程硬件得到良好解决。在本部分，我们专门讨论采用自适应射频（RF） SoC 加速的第一级 5G 接入网聚合。

为了满足这些新要求，3GPP 标准组织在 5G 无线电单元（RU）和 5G 基站之间定义了不同的分割架构。不同的分割架构在决定 gNodeB 架构方面起着决定性的作用。上层分割定义了集中式单元（CU）和分布式单元（DU）之间的功能划分，而下层分割则定义了 RU 和 DU 之间的功能分区。下层（RU-DU）分割在时序和时延方面更为关键和敏感，并且没有标准化。

图 1：下层分割有多种选择

虽然Split-8 在传统的 4G-LTE 网络中更为常见，但在 5G 网络中则更多采用的是Split-7.2。分割选项 7.2 具有多种变体，因此也被称为选项 7-2x，因为它可以根据部署场景向左或向右移动，如上图所示。由于分割选项很灵活，并且 DU 和 RU 之间的接口在接口协议、带宽、时延和时序方面也没有严格定义，因此为实现接口与功能而在 RU 和 DU 处部署可编程处理器，通常是较为理想的选择。

商用网络接口卡（NIC）可用于终止 5G 基站在 DU 的前传。然而，基于 ASIC 的网卡只能处理 L2-L3 流量，并且依赖于软件进行 O-RAN 处理，而且大多数通用网卡都没有定时同步功能。由于 DU 需要与无线电单元和相邻基站实现严格的时间同步，因此它们需要支持来自中央GPS时钟源的主、从和边界时钟操作模式。另一个重要的定时功能，是在基站硬件上实现的时钟保持电路，以便在丢失参考时钟的情况下保持时钟的同步。

一旦来自 RU 的无线电 IQ 数据可用于处理，就需要对其进行处理，以便在上行链路和下行链路方向上识别为用户平面、控制平面、管理平面和同步平面数据。同步和管理平面协议消息的吞吐量明显低于 U 平面和 C 平面消息，因此，大部分时间消息的同步和管理在软件中处理，而应用则在用户空间中运行。

3GPP 分割选项 7-2 split 还定义了 High-PHY 和 low-PHY 功能之间的明确划分，其中 Low-PHY 功能（如预编码、FFT/IFFT）与资源元素（RE）映射/解映射功能，要么在远程无线电单元（RRU）实现，要么在 RU 和 DU 之间的前传网关网络节点实现。High-PHY 功能（主要包括编码/解码、加扰和调制/解调制）在 DU 中执行。

图 2：采用赛灵思自适应 RFSoC 的 5G 分割选项 7-2 split 实现方案

gNodeB （DU）中的 High-PHY 功能可以完全通过软件实现，也可以通过将软件与可编程硬件相结合来实现。软硬件之间的 High-PHY 功能划分取决于众多因素，例如：

软件（或硬件）对整体性能的性能限制，即软件不应限制硬件的性能，反之亦然。
时延考虑因素：由于 5G 规范对不同类别的服务提出了严格的时延要求，因此该划分不应对时延产生负面影响。
与行业标准软件 API 的兼容性：一些 High-PHY 功能具有用户空间 API 的标准定义，因此任何硬件实现方案都应保持与标准 API 的兼容性，以实现无缝过渡。

上述标准概述了赛灵思等公司基于可编程硬件的加速器所需的功能。理想的加速器架构可能需要在硬件中实现完整的 5G High-PHY，这将实现最高性能和最低时延，同时还可以跨多个基于 mMIMO 的 RRU 配置进行扩展。随着 5G 和 O-RAN 标准与功能的演进发展，赛灵思已开始在可编程加速器卡上实现 O-RAN 处理和后备通道编码/解码。通道编码是 High-PHY 功能之一，由于其计算密集型特性，最适用于可编程硬件。此外，它还可以与混合自动重传请求（HARQ）功能相结合，以提高性能并降低时延。

加速 5G L1 High-PHY 功能的一种方法，是基于自适应和可编程的赛灵思 T 系列电信加速器卡。这些卡带有自适应 RFSoC，可强化基于软决策的前向纠错（SD-FEC）模块，并通过板载 DRAM 实现 HARQ 功能，以便获得更优异且可扩展的性能。

在下一篇文章中，我们将深入探讨有关电信加速器卡的一些细节，同时还将探讨 5G 基带加速的下一步发展。

第二部分 5G 基站前传和 L1 High-PHY 的实现

在文章第一部分中，我们讨论了 5G 分割架构，重点介绍了广泛采用的分割选项 7-2 split。在第二部分中，我们将介绍 5G 基站前传和 L1 High-PHY 的实现。5G 分布式单元（DU）可用于通过 O-RAN 处理与部分卸载处理前传数据，以进行 High-PHY 处理，其中包括 LDPC 编码器、LDPC 解码器以及编码器与解码器逻辑的包装器功能。

前传处理：下面的示例架构假设有两个网络接口连接至 5G 无线电单元（RU），如图 3 所示。5G DU 必须能够在 5G 和 5G 基站之间进行全容量的网络连接数据传输。网络接口模块包括连接至工业标准接口光学模块的以太网 MAC 接口，用于发送和接收增强型通用公共无线电接口（eCPRI）、以太网无线电（RoE）或来自 5G RU 的时间敏感型网络（TSN）以太网数据。主机接口通常是 PCIe，包括采用直接存储器访问（DMA）的高速数据传输机制。

前传处理可以分为以下主要子模块，接下来我们将进一步介绍每个模块。

图 3：5G 基站节点上的前传处理。

1. 精确时间协议（PTP）功能：通过利用亚纳秒粒度的流量时间戳，使本地时钟（充当从节点时钟）与系统主时钟实现同步。DU 将接收到的 1588v2 PTP 数据包作为流量的一部分，并将其标识为同步平面数据包。然后，在将时间戳字段替换为由参考时钟生成的时间戳字段后，它们将被发送到在 x86 上运行的 S 平面应用。该模块的其他功能包括延迟请求的处理、从软件更新一天时间的主时钟定时器值以及在主模式下产生 1PPS（每秒脉冲）。

2. 流量分类器/聚合器：该模块的功能支持控制、用户、同步和管理（C、U、S 和 M 平面）消息的路由。流量分类器模块可以执行流量规则，用于丢弃或处理来自传入网络端口的传入前传流量。该模块可以在上行链路和下行链路方向上接收 eCPRI 数据包（C 和 U 平面）和以太网数据包（S 和 M 平面）。

对于上行链路处理，eCPRI 数据包由数据包报头中的 eCPRI 消息类型字段进行识别。这包括根据配置规则检查源 MAC 地址、目标 MAC 地址和虚拟局域网（VLAN） ID，以及在规则不匹配时丢弃数据包。对于上行链路方向的 S 和 M 平面以太网数据包，它可以实现一个简单的仲裁器，以进行调度并将其传输到主机接口队列。

对于下行链路，它可以根据 eCPRI 报头中的消息类型字段配置不同 eCPRI 消息的优先级。此外，它还可以根据 C 和 U 平面配置添加 VLAN 标签，而且 VLAN 标签中的优先级字段可用于为 C/U 平面消息分配优先级。也可以对 S 和 M 平面进行 VLAN 标记并分配优先级。与此同时，该模块还可以实施优先级调度程序，以便根据分配的优先级将数据包发送到已连接的前传端口之一。

3. eCPRI 成帧器和解帧器：eCPRI 成帧器/解帧器处理负责上行链路和下行链路 C/U 平面消息的 eCPRI 协议处理。eCPRI 处理需要包括单独的上行链路和下行链路数据路径处理。由于 eCPRI 处理必须支持基站中的多天线载波（AxC）配置，因此该模块的灵活应变能力使其能够根据部署场景进行放大和缩小。eCPRI-over-Ethernet 消息的数据包格式如图 4 所示。添加填充（零填充）字段是为了使短消息的 eCPRI 最大传输单元（MTU）的大小为 64B。

图 4：以太网数据包中的 eCPRI-over-Ethernet 消息。

由于下行链路的 C 平面消息也在 5G DU 处生成，因此 eCPRI 成帧器同时处理上行链路和下行链路 C 平面消息以及下行链路 U 平面消息。通过使用分层调度程序和多路复用方案，eCPRI 消息的多个流/层可以由单个 eCPRI 成帧器数据路径共享。eCPRI 成帧器生成 eCPRI 消息的不同字段并进行填充，以创建 eCPRI-over-Ethernet 数据包，通过前传接口进行传输。

eCPRI 解帧器模块具有以下功能：

以太网报头的处理与删除
eCPRI 报头的解析与删除
删除 eCPRI 填充，其中包括基于报头字段的流标识和序列号
删除 eCPRI 数据中的零填充（对于短消息）
检查长度和其他协议错误
每个 eCPRI 流的统计信息

4. O-RAN 处理器：O-RAN 模块与 eCPRI 模块一起工作，通常与主机接口连接以提供以下功能：

从 e-CPRI 解帧器接收上行链路 U 平面消息，以提取 IQ 数据并将其传送到主机
提取 C 平面 IQ 数据的包装信息，并将其相应地用于上行链路 U 平面消息
延迟管理并将 C 平面消息转发到 eCPRI 模块
从主机到 O-RAN 消息的 U 平面 IQ 数据成帧，并传送到 eCPRI 成帧器

O-RAN 模块接口如图 5 所示。

图 5：上行链路和下行链路数据的 O-RAN 模块接口。

O-RAN 上行链路和下行链路模块均设计为与四个独立的 AxC 接口连接。在上行链路方向上，O-RAN 模块根据 O-RAN 报头中的参数将 U 平面消息分为物理随机接入信道（PRACH）或物理上行链路共享信道（PUSCH）。然后对这些消息进行解帧，以提取相应的 IQ（用于无线电信号的数据格式）样本。在下行链路模块中，对 C 平面消息进行解析，以提取 U 平面成帧所需的信息。

5. IQ 数据主机接口：主机接口模块向 CPU 发送并从其接收 IQ 数据样本，处理 U 平面和 C 平面消息的延迟管理。对于 IQ 样本的缓存，可以使用外部存储器来确保数据包无损传输到前传接口。主机接口模块读取存储在存储器中的数据以及自适应片上系统（ASOC）生成的定时信号，以确保 ASOC 和主机 CPU 之间的插槽同步。

如上所述，前传处理和 L1 High-PHY 加速需要能够适应各种大规模多输入多输出（mMIMO）天线配置，以实现前传连接和吞吐量。数据路径处理应该能够提供具有 eCPRI 和 O-RAN 处理的线路速率接口，同时满足 5G 规范的时延和同步要求。

赛灵思在其 T1 电信加速器卡中实现了前传参考设计，可处理的总吞吐量为 50Gbps，这大约相当于 8 层 4T4R 100MHz 的主备配置。该卡使用自适应 MPSoC 和 RFSoC 器件保持功能的灵活性。在大多数 DU 实现方案中，在自适应器件上使用 O-RAN 处理器，x86 软件可实现完整的无线 L1 堆栈，并且可以提供显著的吞吐量和时延优势。

阅读全文