DPU是继CPU、GPU之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等数据中心基础设施虚拟化能力的专用处理器。 关于DPU技术应用及技术原理,请参看文章“DPU技术原理、算力效率及应用场景解析”和“主流DPU架构实现及技术对比”、“DPU性能基准:测评框架与测试流程介绍(2022)”以及“DPU全球格局,国内5家崛起(2023)”,《50份智能网卡和DPU合集》。
DPU提升数据中心效率、降低TCO
CPU和GPU已经存在很长时间,它们在数据中心中各有其用途,但它们并不能通过实际降低成本或功耗来提高TCO的效率,它们只能通过在它们各自的特定角色中高效运行来降低数据中心的TCO。此外,它们价格昂贵,耗电量大,并被要求执行并不擅长的任务。 另一种看待DPU融入数据中心的方式是将其比作技术人员的新工具,这些新工具可以极大地节省时间和精力。我们只是在数据中心引入了一种新工具,它有望显著提高存储效率。 DPU在几年前逐渐崭露头角,用于解决特定的数据处理需求。随着DPU的角色不断扩展,人们逐渐认识到,经过精心设计,它能够以更低的功耗和更高的效率在数据中心中处理数据,远胜于传统的CPU或GPU。 这些成本和功耗的节省在大规模数据中心中尤为重要,因为存储增长呈指数增长。 地球母亲能够产生的能源是有限的,这意味着数据中心的功耗也是有限的。这将使DPU在未来的数据中心中成为必不可少的,因为它能有效降低功耗。
DPU特性与局限
简而言之,DPU是一组资源,它们能够比数据中心中的其它处理器更高效地处理、移动和存储数据。“高效”是关键词,因为DPU应该显著改善数据中心的性能指标,如性能/瓦和性能/元。 值得注意的是,我没有对DPU进行具体的物理定义。以我的理解,DPU可以是芯片,也可以是插卡,从某种程度上说,它是一组可以以多种方式实现的功能的抽象。 因此,如果有时候我谈的是处理芯片,有时候我谈的是PCIe卡,有时候我进行哲学性的思考,这是因为这些资源必须在成本或功耗效率方面胜过GPU和CPU。
以数据为中心的工作负载
DPU的任务包括数据保护/安全、数据缩减、数据移动和数据操作/分析等功能。由于每个数据中心都有不同的架构和要求,DPU必须具备高度的可编程性。 DPU的可编程性使其能够在高度多变的工作负载和需求下实现高效处理。DPU资源可以采用一组具有特定数据处理指令的处理器形式,也可以采用协处理器和硬件加速器的形式,以有效处理数据。 为了实现最佳效率,处理器需要具备专门的、低功耗的内核和支持计算卸载功能的协处理器。最优秀的DPU具备综合处理器、加速器和决策能力,能够智能选择何时以何种方式应用于与数据相关的问题。
上面的定义部分强调了数据移动作为DPU的关键标准,因此必须具备高速且适用于数据中心的接口。如果一个高效的处理器无法与数据中心中的其它设备进行连接,又有何用呢? 因此,DPU需要至少配备Gen 4 PCIe接口,以允许与内部硬件(如SSD或CPU)进行通信,并具备至少多个100GbE接口等高速外部接口,以与其它数据中心设备进行外部通信。
总结一下
让我们全面了解一下DPU——它包括外部网络接口,可以通过NVMeoF/TCP和RoCE协议进行通信,还有内部PCIe接口,可以将NVMe通信为根复合体(Root Complex)或终端设备(Endpoint)。此外,还包括大量的特殊内核、协处理器和加速器,以及用于充分利用所有这些资源的软件堆栈。 在前文中,我多次强调了“高效”一词。那么为什么在本文中频繁提到这个词呢? DPU的出现最重要的原因之一是为了降低TCO。按照定义,DPU必须通过接管数据中心中的其它处理器的工作来实现成本节省。这可能涉及网络卸载、计算卸载或数据服务卸载。具体而言,我指的是减少投入数据中心的资本成本以及降低运营数据中心的成本。 DPU必须在功耗和成本方面优于其它处理单元,并且必须简化数据中心的构建,从而提高其可靠性。要成为真正的DPU,它必须在几乎所有这些TCO挑战中发挥作用,实现最佳的性能/瓦和性能/元效率。
DPU存储、DPU网络和其它
为了更深入地探讨,我已经阐述了DPU必须在其卸载的工作上比数据中心中的其它处理器更高效。那么这里所指的其它处理器是什么呢?虽然有很多种,但在现代数据中心中,CPU和GPU是DPU可能替代的主要目标。需要注意的是,我特别强调了工作负载的替代——稍后将详细介绍。
值得一提的是,尽管我提到了这些替代关系,但我认为理想的数据中心应该包含这三种处理器类型,它们可以在数据中心中协同工作,每种都根据其能力来执行最适合的任务。
DPU、GPU与CPU的比较
让我们深入探讨这三种类型的处理器:DPU、GPU和CPU。 在讨论了DPU的优越性之后,让我们谈谈它在数据中心中扮演与其它处理器不同的角色的原因。 CPU已经存在了几十年,被迫保持通用性,以便可以在众多需要支持它的应用程序之间前后兼容。它是那匹每天都在为依赖它的数以万计的应用程序耕耘领域的工作马。 CPU昂贵且耗电量大,其优势在于其一致性,一代又一代。全世界的编程工具都建立在这种一致性的基础上。但由于其优势,它在纯粹的数据处理相关任务上并不高效。直到几年前,它是唯一真正的处理器之王,演变成了一种非常昂贵且耗电量巨大的怪物。 另一方面,GPU是用于视频和图形数据的高度专门化处理器。它们比CPU更昂贵,非常耗电。 按照我们的马的比喻,它们将是纯种赛马。它们在一项任务上表现出色,但数据处理指标较差。正如纯种赛马性情难以驾驭一样,GPU在历史上一直很难用于与图形处理无关的任务,因为它们难以编程。 总结我们对DPU、GPU和CPU的分析,最关键的问题是“DPU是哪匹马?”延续马的比喻,我选择了一匹驿马快信(Pony Express)的小马。 这些小马身形小巧、速度快,拥有在各种地形上行驶数百英里所需的高耐力。它们被特意选择用于驿马快信服务,因为它们具备了胜任工作所需的准确特质。DPU是一种低功耗、低成本、专为处理数据而构建的处理单元,比其它处理器更高效地处理数据处理任务。
不同类型的处理器
正如前面提到的,DPU是一种功能和特性的抽象,有各种各样的架构。它们可以从头开始设计,具备专用内核和加速功能。 它们可以采用纯粹的ASIC形式,也可以采用ASIC + CPU内核的形式。甚至可以采用FPGA的形式。每种类型都有其优点和缺点,接下来将讨论这些。
具有不灵活数据平面的DPU
有些DPU结合了处理器和硬连线加速器,因此区别在于使用了哪些内核以及内核与硬连线逻辑之间的工作分配。它们通常共享高速接口,如PCIe总线和100GbE端口。 你可能会认为将内核和硬连线功能结合是最佳选择,但事实并非如此。大多数DPU通常具有从8到64个ARM内核,主要用于控制平面功能。与x86处理器相比,ARM内核在数据处理方面没有明显的优势,但功耗较低。 如果ARM内核需要在数据平面处理数据,与x86处理器相比没有明显的优势,如果数据平面仅在硬连线逻辑中处理,那么几乎没有灵活性来使DPU执行超出ASIC初始设计范围之外的功能。 总之,这种类型的DPU具有非常不灵活的数据平面和相对有限的处理控制平面,这可以节省一些功耗,但不多。但是,它们的成本要低于CPU,因此它们确实有助于降低数据中心的TCO。如果你有特定的网络、安全或存储卸载任务,如TLS、IPsec、纠删码或压缩等任务,那么这些类型的DPU会工作得相当不错。
具有较少或无处理能力的DPU
具有极少或几乎没有处理能力的DPU与上述类型的DPU类似。它们在很大程度上依赖于硬连线功能,通常采用ASIC或FPGA的形式。它们在成本和功耗方面非常高效,但它们对数据操作和分析任务非常不灵活。
可编程DPU:低功耗与高性能数据处理的最佳选择
另一种形式依赖于许多低功耗、数据高效的内核和硬件加速引擎,以提供最高效和灵活的DPU解决方案。 数据平面和控制平面的处理都在内核中进行,每个内核或一组内核可以在何时以及如何使用协处理器或加速器来增强功能时做出最佳决策。与ARM或x86内核相比,该DPU的每个内核功耗更低,因此大大降低了功耗。这种DPU的内核在其指令集方面更加高效,因此可以处理比典型CPU内核更多的数据。 总之,这种类型的DPU通过降低功耗和成本最大程度地减少TCO,并提供了处理固定任务的最大灵活性,例如上面讨论的卸载任务。与此同时,它具备执行数据操作任务,如AI或推理工作负载的能力。
DPU与智能网卡(SmartNIC)
另一个经常被问到的问题是“DPU和智能网卡基本上是一样的吗?”作为一名技术专家,我有些犹豫,也许因为它们在功能上非常相似,不确定是否可以回答“是”或“否”。然而,我认为真正的答案是不,它们并不是完全相同的东西。我认为根本原因是智能网卡具有一些网络、安全和卸载功能,而最聪明的智能网卡在处理能力方面有一定限制,但它们的能力有限。 智能网卡的处理能力用于控制平面功能,而不用于数据平面处理。它们没有执行视频识别、AI推理或处理计算存储等功能的能力,也不像DPU那样显著改变数据中心的TCO。
DPU存储、DPU网络…DPU及其在数据中心中的角色带来了哪些启示?
CPU、DPU和GPU在数据中心中都扮演着至关重要的角色。应该将它们视为同等地位的同行,各自执行着其他处理器难以胜任的任务。 CPU将永远承担运行用户应用程序、虚拟机和容器的重要工作,而GPU则在处理大规模并行计算方面表现出色。DPU则是它们之间的纽带,执行DPU网络、DPU安全和DPU存储等功能,包括数据操作,这些任务CPU和GPU都做得不太出色。由于对数据中心TCO节省的期望,未来几年内,DPU的整合将大幅增加。 Source: Tim Lieber, WHY DATA CENTERS NEED DATA PROCESSING UNITS, March 2, 2023
编辑:黄飞
评论
查看更多