下一代数据包处理技术架构选择

　　系统厂商在为满足未来的扩展性和集成挑战而研究下一代数据包处理技术时，面临着多种架构选择。目前有两种常用架构：通用多核架构和专用数据流架构。

　　每种架构都有其长处。通常情况是，每个系统供应商的设计决策归根到底都是平台的预期任务。从本质上讲，决策过程就是根据应用选择架构的过程。

　　数据包处理背景

　　数据包处理是数据密集型操作，需要优化的硬件。在宽带互联网出现之前，通用处理器既被用于控制会话处理又肩负用户流量的数据包处理。

　　但是，由数据和控制平面共享中央处理单元(CPU)资源的作法已被证明难以满足随带宽需求增长带来的更高要求。对于交换机和路由器来说，数据平面的数据包处理任务已转交给定制的固定功能ASIC或可编程网络处理器单元(NPU)。从而把通用CPU解放出来以专门应对控制平面任务。

　　有几家NPU供应商一直在试图针对2-4层包处理任务优化通用处理器，并提供集成了网络硬件(即物理层、媒体存取控制器和表存储器)以及用于特定任务(即散列)的硬件引擎的多核架构。在20世纪末20世纪初，MMC、C-Port和英特尔的IXP部门等机构开发了这类器件。

　　虽然这些产品各有不同，但它们的基本架构是相同的。通过降低复杂性，处理器核能够得到简化，从而使得器件内可以集成数十个处理器核以满足更高的并行要求。

　　除了极少数例外，这些NPU供应商在商业上都不成功。根本原因是这些NPU不能有效地满足超过10Gbps的网络应用对处理能力和存储器访问方面的要求。

　　现在，当我们迈进2010年，我们看到了旨在应对网络处理市场的新一代多核供应商的出现。虽然CMOS技术、存储器带宽和时钟周期性能得到了提升，但它们仍基于同样的基本架构。因此，这些新兴公司能期待获得更大的成功吗?

　　这将取决于它们针对的是哪类应用。现在的网络节点不仅处理2-4层的数据包，也需在更高层进行处理以支持服务和增加安全性。我们将研究其中的差异，以及对任何给定应用来说，为什么某些架构比其它架构效果更好。

　　线速包处理

　　2-4层数据包处理不同于其它网络应用(表1)。首先，能对所有大小的数据包进行线速处理是一个关键目标。现代路由器和交换机被设计为拥有广泛的网络功能，服务提供商期望能同时获得这些功能且不降低性能。

　　第二，数据平面将数据包视为独立个体，允许高度并行的处理。对一个100Gbps应用来说，网络处理器需要每秒处理1.5亿个数据包以确保线速性能。处理器10μs的延时相当于1,500个数据包的并行处理时间。

　　第三，数据平面程序需要高I/O存储器访问带宽以完成表查询转发、状态更新及其它处理。在高速平台上，数据包到达间隔时间非常短，因而对存储器延时提出了苛刻要求。对于小型数据包来说，执行这些任务的存储器带宽是链路带宽的数倍。

　　最后，当今网络的功耗很高。出于运营成本和环保两方面的考虑，服务提供商在煞费苦心地追求最佳的每瓦性能。考虑到包处理的特点，应以线速性能条件下、每瓦功率可实现的最高性能来衡量最有效的架构。

　　服务和安全处理特征

　　与数据包处理相近的市场是服务和安全处理。这些应用具有与2-4层数据包处理不同的特点。因此，可实施其它的硬件设计优化。

　　在客户机-服务器方式中，这些应用终止和处理主机至主机协议，或在中间网络节点(即防火墙、负载均衡器、入侵和防御系统)上处理重组的净载数据包数据。这些产品必须能够跨数据包边界工作，因为它们通常需要在更大的数据量上进行更大规模的操作，这将导致数据并行性较低。另一方面，相对所处理的数据而言，这类所需的I/O存储器带宽较低。

　　架构比较

　　NPU承诺可提供定制ASIC的性能，且具有通用处理器的可编程能力。但是，比较处理器的性能较困难，因为理论上的最大值通常与真实世界关联不大。此外，有效利用可用处理性能的能力，以及与处理容量相关的I/O存储器的利用情况也是影响处理器性能的因素。

　　因此，这种比较必须从设计层面开始。我们首先从一个通用多核NPU架构开始。多核NPU架构衍生于通用处理器架构，该架构希望通过增加处理器核来实现更高的并行处理能力。降低复杂性并移除当今通用处理器架构内不必要的功能(即浮点指令)可实现这一目标。

　　多核NPU架构对处理器核进行了专门分组。这些内核或被分组到各个并行池或以串行方式进行流水线排列(图1)。NPU供应商在设计时，允许架构对这种分组实施严格控制以优化性能。

　　图1：处理器核采用流水线或者并行池架构，混合模式也很常见。

　　如果定义得较松散，这种分组就允许程序员更自由地在内核间划分任务，最终结果是以性能控制为代价提供更大的灵活性。在许多情况下，多核网络处理器最终会以流水线和并行池的混合架构形态出现。

　　处理器核的分组对编程模式有重要影响。并行池带有相关的多线程编程模式，其中每个处理器核可运行一个或多个线程。从本质上讲就是程序获取一个数据包并对其执行一系列操作。

　　一旦处理完一个数据包，程序就准备好按顺序取用下一个数据包。程序员通过把数据包分配给不同的并行池来有效利用处理资源。线程之间的同步是程序员的另一个关键系统任务。

　　流水线模式处理数据平面应用，并将其划分为不同的处理任务(即：分类、修改、隧道处理以及状态更新)。然后，每个任务被映射到不同的处理器核，任务的执行或由架构强制完成，或交由程序员处理。由于吞吐量受限于速度最慢的部分，因此如何在各内核间有效地划分任务通常是个挑战。

　　通用多核架构内的数据包通常存储在共享存储器区域(图2)。在这种情况下，程序员必须将分类和数据包修改任务分别分配给处理资源的并行池和流水线。

　　图2：多核架构共享资源，以及用于处理器核和资源互连的高速总线或crossbar总线。

　　共享数据的复杂性

　　在并行数据包处理过程中，多个线程可能需要访问和更新诸如状态和ARP条目等共享数据。不同的线程需要进行同步以强制互斥并实现通用共享模式。但众所周知，同步并非易事而且会对性能造成影响。

　　为提高性能，许多多核处理器采用硬件缓存。虽然这可以极大缩短平均存储器访问延迟，但架构会变得更难以预测。

　　缓存一致性协议保证了采用缓存层次结构的多核系统中数据的完整性。虽然这对于程序员是透明的，但为了调节性能，程序员需要了解缓存和一致性协议是如何运作的。另一方面，存储器一致性模型也对程序员开放。因此，程序员需要了解存储器一致性模型以编写正确的程序。

　　保持数据包顺序

　　并行数据包处理的另一个挑战是保持数据包的顺序。所有节点都应针对相关的数据包保持数据包顺序，因为上层传输协议的正常工作依赖这种顺序。了解哪些类数据包需要保持包顺序以及如何最有效地满足这一需求通常是程序员的职责。

　　为降低复杂度，NPU供应商通常会提供硬件支持和软件库。添加更多的数据包缓冲器可有助于确保数据包顺序，但这总是以增加延迟为代价。

　　降低复杂性需求

　　驾驭基于多核的NPU并非易事。英特尔公司的Larry Huston在第10届高性能计算机体系结构国际研讨会上发表的论文中总结道：

　　“理想的情况应是，程序员将应用写成一段软件，而工具会自动划分应用并将应用映射到并行资源集。这也许是个难以实现的目标，但在该方向上的任一进步都将升华开发者的开发生命。”

　　数据流架构正好满足这一需求。虽然Larry Huston的上述见解发表在2004年，但它在今天的效用和意义与6年前一样。

　　确定性数据流架构

　　数据流架构(图3)采用了独特的方法，且具有处理器内核组成的单个流水线。该架构已被设计成完全确定性和超高效的。除执行语境外，它还包括一个数据包指令集计算机(PISC)和一个引擎接入点(EAP)。

　　图3：数据流架构(图3)拥有包含数百个PISC处理器内核的单个流水线，以及嵌入式引擎接入点。

　　PISC是专为数据包处理设计的处理器核。流水线可以包含数百个(超过400)PISC。EAP是用于分类任务的专用I/O单元。EAP统一访问存储在嵌入式或外部存储器(TCAM、SRAM、DRAM)中的存储表，并包含用于计量、计数、散列、格式化、流量管理以及表搜索的资源引擎。

　　执行语境是程序员可用的数据包内的具体数据。它包括数据包最初的256个字节、通用寄存器、设备寄存器和状态标志。一个执行语境唯一地对应一个数据包并使该数据包在流水线内传送。

　　数据包在流水线中传送就像在一个固定长度的先入先出(FIFO)设备中行进一样。在每个时钟周期，流水线内的所有数据包都前移一级以便在下一个处理器或EAP内执行。

　　指令总是在一个时钟周期内执行完。每条指令都能以超长指令字(VLIW)方式并行执行多达5个操作。然后，数据包继续前进到下一个PISC或EAP。

　　数据平面程序经编译后存储在位于处理器核内的指令存储器，从而无需在程序执行期间从共享存储器内将指令发送到处理器内核。另外，此举还显著提升了性能，降低了功耗。

　　编程模式反映出众所周知的顺序单处理器模式，其中，程序员可以编写顺序执行的模块以避免多个并行编程(即存储器连贯性、一致性和同步)的麻烦。当软件被编译后，程序代码会自动映射到由处理器内核构成的单一流水线。一个VLIW指令占用流水线中的一个处理器核。

　　这种架构和编程模式的一个显著好处是，它强制执行线速运作。每种数据包都有经确保数量的操作和分类资源。

　　降低复杂度，提高性能

　　多核架构无法保证某一水平的性能，而数据流架构是完全确定性的(表2)。通过降低复杂度并面向2-4层包处理充分优化架构，数据流架构的设计可扩展到数百个处理器核，从而能以强大的线速保证支持100Gbps的速率和每秒1.5亿个数据包的操作。

　　虽然原始处理器的性能非常重要，但在数据流架构中，程序员将处理器性能发挥到极致的能力是衡量架构实际效用的另一关键因素。从原子操作到表存储的一系列公共存储器操作允许高效编码和代码复用，这些操作独立于存储器类型(片上或外部存储器)和贯穿整个流水线的通用处理器核。

　　在多核架构中，每一级都需要处理能力的冗余配置，在实践中，这对于总是感到处理资源短缺的程序员来说是个重大挑战。因此，为恢复丢失的时钟周期，数据平面程序员会陷入“测试-性能优化-再测试-再性能优化”这样一个无尽的循环中。

　　针对数据包处理比较数据流与多核架构，两款架构在效率上的差异显而易见。下面让我们借助两款当今最先进的处理器来比较2-4层包处理的各项指标。

　　第一款处理器是Xelerated基于数据流架构的HX 330 NPU。它工作在300MHz，拥有448个处理器核，每个内核可同时进行5项操作。每两个时钟周期就有一个新数据包可以进入流水线。

　　这相当于每秒可处理1.5亿个数据包，也就是说即使是最小的64字节以太网数据包，也需要确保能提供100Gbps的线速操作支持。每个数据包可确保5×448 =2240个操作。

　　当然，2240个操作是理论上的数值。真实的数据平面应用并不会用到全部的潜能。经优化的数据平面代码大约用到50%的资源，这允许很高的服务密度。

　　第二款处理器是市场上性能最高的多核处理器之一。它拥有64个处理器核、工作在700 MHz。将该处理器用于100Gbps的数据包处理应用时，需要每四个时钟周期调度一个新的数据包。平均而言，每个数据包理论上将获得256个时钟周期的处理能力。

　　同步挑战以及管理共享数据所耗费的性能会将整体性能降低到利用率最多为50%。这相当于每个数据包128个操作，或者HX NPU的13%处理资源。此外，这些操作的性能得不到保证。

　　如果再考虑功耗因素，则两者的差异更为显著。基于数据流架构的NPU，其每瓦性能(在线速下)是多核处理器架构NPU的15至20倍。

　　不同需求，不同架构

　　对于2-4层数据包处理来说，数据流架构具有明显优势。但其它比较却会产生不同结果。因此，起初看起来具有竞争力的方法实际上也许要大打折扣。

　　对面向服务的应用来说，由于多核架构能很好地协调共同工作，因此它们能够有效地扩展。在一个分离的架构中，系统供应商可以利用基于数据流的处理器执行2-4层处理并通过运行多核处理器完成内容识别、加密和完成服务等操作。

　　本文小结

　　有关架构的争论在不断循环往复。十年前，在10Gbps以上领域业内有30多家NPU供应商。这些公司的研发大多基于多核架构。

　　而今天，我们知道这种架构在进行2-4层数据包处理时，无法与专用数据流架构媲美。数据流架构的能效要比多核架构高出15至20倍，且严格保证线速。

　　当就网络处理对架构进行比较时，不要被其所支持的接口带宽所误导，因为如果不考虑服务密度，则这一指标没有意义。当服务提供商评估网络平台时，真正有价值的是在线速操作下同时支持的服务数量。系统供应商需要在研发阶段的早期就密切关注服务密度。

　　虽然在2-4层处理的服务密度上达不到要求，但新一代多核处理器仍可满足巨大且不断增长的网络市场的需求。这是对基于网络的服务和安全处理应用的大力推动，它为现代多核处理器和数据流架构的结合创造了新的机会(表3)。

阅读全文

数据包(23979) 数据包(23979)
架构(25078) 架构(25078)

NVIDIA推动中国下一代车辆发展

NVIDIA推动中国下一代车辆发展

2023-08-01 14:52:02

408

高性能领导力：为下一代数据中心和汽车架构提供动力

高性能领导力：为下一代数据中心和汽车架构提供动力演讲ppt分享

2023-07-14 17:15:32

利用下一代处理器实现物联网未来

利用下一代处理器实现物联网未来演讲ppt分享

2023-07-14 17:15:32

数据中心 AI 加速器：当前一代和下一代

数据中心 AI 加速器：当前一代和下一代演讲ppt分享

2023-07-14 17:15:32

下一代硅光子技术会是什么样子？

下一代硅光子技术会是什么样子？

2023-07-05 14:48:56

135

如何用Burpsuite抓取exe数据包？

前几天在群里看到有师傅在问如何用Burpsuite抓取exe数据包的问题？所以想着写篇文章简单记录一下Burpsuite+Proxifier抓取exe数据包的方法。

2023-06-12 16:12:00

1187

Wireshark网络数据包分析软件简介

wireshark是一个免费开源的网络数据包分析软件，功能十分强大。可以截取各种网络数据包，显示网络数据包的详细信息。

2023-04-26 09:52:55

889

KYOCERA AVX和VisIC Technologies合作开发下一代电车应用GaN技术

KYOCERA AVX和VisIC Technologies合作开发下一代电车应用GaN技术

2023-03-01 13:54:56

344

下一代DPI技术的需求如何

深度包检测技术即DPI技术是一种基于应用层的流量检测和控制技术，当IP数据包、TCP或UDP数据流通过基于DPI技术的带宽管理系统时，该系统通过深入读取IP包载荷的内容来对OSI七层协议中的应用层信息进行重组，从而得到整个应用程序的内容，然后按照系统定义的管理策略对流量进行整形操作。

2023-02-06 16:45:49

992

使用 NVIDIA DOCA GPUNetIO 进行内联 GPU 数据包处理

越来越多的网络应用程序需要进行 GPU 实时数据包处理，以实现高数据率解决方案：数据过滤、数据放置、网络分析、传感器信号处理等。一个主要动机是 GPU 可以实现并行处理多个数据包的高度并行性，同时

2023-01-13 23:25:02

497

为下一代计算机处理器选择互连监控解决方案

proteanTecs的解决方案来监控其下一代处理器中的芯片到芯片 (D2D) 连接。 PEZY Computing为其下一代超级计算机处理器选择proteanTe

2022-12-21 21:17:58

209

用自组织多频EoC实现下一代广电网络

【作者】：田明;许如钢;顾士平;吴军基;【来源】：《电视技术》2010年02期【摘要】：介绍多路并行处理器及高频调谐器如何并行协调工作,如何自组织实现多个频道捆绑,实现下一代广电网络。为基于广电

2010-04-23 11:25:14

下一代数据中心100G接口——DSFP封装

近年来，随着互联网与5G的快速发展使得数据流量需求不断增加，驱动着数据中心向着更高吞吐和更大带宽的方向发展，服务器网卡和接入交换机都在向着下一代100G接口演进—DSFP。本篇文章为您简单介绍100G DSFP封装。

2022-11-04 10:40:13

1070

偏移校正技术可提高下一代心率智能手表的性能

偏移校正技术可提高下一代心率智能手表的性能

2022-11-03 08:04:45

蔚来下一代电子电气架构技术原理解析

下一代的电子电气架构中，蔚来的选择是区域控制器架构，整个系统由中央计算单元、区域控制器和高速以太网构建基本骨架，通过三者的协同，构建自适应、自学习系统，并且提供广泛的智能互联功能。

2022-11-02 12:00:36

898

通过分布式架构驱动下一代电动汽车驱动系统

通过分布式架构驱动下一代电动汽车驱动系统

2022-10-28 12:00:03

简化下一代物联网应用的雷达开发

简化下一代物联网应用的雷达开发

2022-10-28 11:59:52

虹科分享 | 什么是深度数据包检测（DPI）

深度数据包检测(DPI)是一种分析通过网络发送的流量的高级方法。DPI使用数据处理来检查数据包的特定细节，作为数据包过滤的一种形式。虽然DPI用于查看OSI模型的第2-7层，但仅当设备可以查看并根据

2022-10-13 09:48:56

458

网络数据包分析软件wireshark的基本使用

Wireshark（前称Ethereal）是一个网络数据包分析软件。网络数据包分析软件的功能是截取网络数据包，并尽可能显示出最为详细的网络数据包数据。Wireshark使用WinPCAP作为接口，直接与网卡进行数据报文交换。

2022-09-29 14:48:28

2135

数据包的发送流程

一个数据包，从聊天框里发出，消息会从聊天软件所在的用户空间拷贝到内核空间的发送缓冲区（send buffer），数据包就这样顺着传输层、网络层，进入到数据链路层，在这里数据包会经过流控（qdisc

2022-08-19 14:38:32

1801

ZigBee3.0数据包解析

ZigBee3.0是ZigBee联盟推出的可以互联互通的标准协议，用之前的Packet Sniffer抓包工具是无法解析ZigBee3.0的数据包，因ZigBee3.0的安全机制所有的数据包都是加密

2022-02-28 11:48:45

2139

400G将如何引领下一代数据中心网络

400G光模块正在加速数据中心的发展，随着5G时代的到来和国内外大型数据中心的兴建，下一代数据中心100G光模块正在慢慢被400G光模块所取代，接下来我们要讲述的是400G如何引领下一代数据中心网络

2021-06-11 17:26:56

627

数字媒体设备的下一代安全技术

数字媒体设备的下一代安全技术

2021-05-27 13:53:48

硬件加速器提升下一代SHARC处理器的性能

硬件加速器提升下一代SHARC处理器的性能

2021-04-23 13:06:32

高通与蔚来合作研发下一代数字座舱技术

1月10日消息，日前，高通技术公司与蔚来宣布双方将合作为蔚来首款旗舰轿车蔚来ET7带来最新下一代数字座舱技术。2022年量产的蔚来ET7将采用第三代高通骁龙汽车数字座舱平台和高通骁龙汽车5G平台，为用户带来智能沉浸式车内体验。

2021-01-10 09:18:35

2275

下一代移动处理器的竞争愈演愈烈

下一代移动处理器的竞争如火如荼。苹果、华为和高通都发布了他们最新的旗舰级芯片组，清一色采用前沿的5nm制程。

2020-12-07 14:01:20

1647

显示技术发展至今下一代显示技术解析

说到显示面板，大家几乎就会想到LCD和OLED，前者是一项已经相当普及的技术，广泛应用在各种显示设备上。后者则是近几年才逐渐普及的新显示技术，也被称为下一代显示技术。除此之外，还有QLED、MicroLED也被成为下一代显示技术。

2020-07-30 09:07:36

1503

在英特尔架构上启用下一代分析

在英特尔架构上启用下一代分析

2020-05-31 09:17:00

2296

三星下一代Exynos处理器或堆出公版架构怪兽定位高端且对标骁龙875和麒麟1020

在关闭自研CPU内核（Mongoose）分部后，三星的下一代Exynos旗舰处理器预计会堆出公版架构怪兽。

2020-04-10 08:51:59

1121

Intel CPU架构升级将提升至5年，下一代架构代号NGC

关于下一代架构，Jim Keller表示，自2018年自己进入Intel就在研发了，代号NGC，它的目标是要支撑下一个10年的计算及体验。

2020-02-11 11:53:33

2432

下一代无线技术是VR下一代发展的缺失环节

虚拟现实头显在过去五年中取得了明显的改进，并且在未来五年内，由于计算机图形和显示技术的进步，将向前迈出更大的一步。下一代无线技术是VR下一代发展的缺失环节，因为当代无线VR硬件无法满足用户期望的流畅沉浸。

2019-08-11 10:46:20

557

Microchip面向下一代数据中心应用推出四款全新20路微分时钟缓冲器

20路输出PCIe时钟缓冲器是下一代服务器、数据中心、存储设备及其他PCIe应用的理想选择。

2019-07-01 16:36:40

963

HYCAN广汽蔚来定义下一代数字座舱

本文是在北京举办的第六届国际智能网联汽车技术年会朱赛春老师《如何定义下一代数字座舱》的发言稿。

2019-06-06 15:09:11

4504

高通开发下一代数字眼镜，打造扩增实境（AR）应用

移动视觉平台将支持开发者为下一代数字眼镜（Digital Eyewear）打造扩增实境（AR）应用。为数字眼镜推出的全新Vuforia数字眼镜软件开发工具包（SDK）将带来用户体验的大幅提升——使互动3D内容在视觉上与现实世界重叠。

2019-03-13 14:31:47

920

人工智能成下一代技术革命

Rolandberger发布了新报告“下一代技术革命‘AI’来袭”，分析了人们是否准备好迎接下一代技术革命。

2019-01-07 10:37:42

3672

TE推出OSFP连接器和电缆组件可应对下一代数据中心需求

全球连接与传感领域领军企业TE Connectivity （TE）近日宣布推出的 OSFP 连接器和电缆组件支持 200G 的数据量和高达 400 Gbps 的总体数据速率，可应对下一代数据中心需求

2018-11-23 17:17:42

679

下一代旗舰处理器麒麟990完成首次流片

麒麟980刚上市不久，最近又有消息传出了下一代麒麟旗舰处理器麒麟990的消息。

2018-11-13 09:38:36

7761

研究和探索下一代处理器领域的多核技术

探讨现今TI 在高性能 DSP，多核及适应于未来发展趋势的下一代处理器领域的研究和探索。

2018-06-12 01:52:00

3223

Mobileye选择MIPS I6500为下一代EyeQ5 SoC核心

ADAS和汽车自主驾驶技术领导厂商Mobileye选择MIPS Warrior级多核异构I6500 CPU成为其下一代EyeQ5 SoC核心，该SoC将成为2020年问世的完全无人驾驶汽车的传感器数据融合应用的中央处理器。

2017-05-01 11:22:28

4536

Netfilter架构下数据包信息存储的应用_吴良敏

Netfilter架构下数据包信息存储的应用_吴良敏

2017-03-19 11:27:34

美军下一代战术数据链系统-TTNT探究

美军下一代战术数据链系统-TTNT探究。美军下一代战术数据链系统-TTNT探究。

2016-02-23 16:24:36

下一代网络核心技术概览

下一代网络技术（NGN）的概念起源于美国克林顿政府1997年10月10日提出的下一代互联网行动计划（NGI）。其目的是研究下一代先进的组网技术、建立试验床、开发革命性应用。NGN一直是业界普遍关注的热点和焦点，一些行业组织和标准化机构也分别对各自领域的下一代网络技术进行了研究。

2016-01-14 16:18:00