0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于DPU与SmartNIC的K8s Service解决方案

DPU高性能云异构算力解决方案 来源:DPU高性能云异构算力解决 作者:DPU高性能云异构算 2024-09-02 17:01 次阅读

1. 方案背景

1.1. Kubernetes Service介绍

Kubernetes Service是Kubernetes中的一个核心概念,它定义了一种抽象,用于表示一组提供相同功能的Pods(容器组)的逻辑集合,并提供了一种方式让这些Pods能够被系统内的其他组件发现并访问。简单来说,Service提供了一种让客户端能够稳定地连接到后端Pods的机制,即使这些Pods会动态地创建、销毁或迁移。

Kubernetes Service主要特性和用途

服务发现:Service允许客户端(如Pods中的应用程序)通过稳定的IP地址和端口号访问后端Pods集合,而无需关心实际Pod的IP地址或端口号,因为这些信息可能会因为Pod的重启或迁移而改变。

负载均衡:Kubernetes会自动在Service后面创建的Pods之间分配进入的流量,实现了简单的负载均衡。这意味着当多个Pods提供了相同的服务时,客户端的请求可以被均衡地分发到这些Pods上。

支持DNS:Kubernetes支持基于DNS的服务发现,允许Pods通过服务名(而不是IP地址)来相互通信。这大大简化了服务之间的调用和依赖关系的管理。

定义服务类型:Service可以有多种类型,最常见的是ClusterIP(默认,仅集群内部可访问)、NodePort(通过集群中每个节点的静态端口暴露服务)、LoadBalancer(在Cloud环境中,使用云提供商的负载均衡器暴露服务)和ExternalName(将服务映射到DNS名称,而不是选择Pods)。

在Kubernetes集群中,kube-proxy作为Service的代理组件,负责实现集群内部及外部对Service的访问。kube-proxy通过监听Kubernetes API Server中的Service和Endpoint资源变化,动态地在每个节点上配置网络规则,确保对Service的请求能够被正确地路由到后端的Pod实例上。

在iptables 模式下,kube-proxy会在每个节点上通过iptables规则来实现请求的转发。它会创建一系列的iptables规则,这些规则根据Service的IP和端口,将访问Service的流量重定向到后端的Pod IP和端口上。这种方式简单直接,但随着Service和Pod数量的增加,iptables规则会急剧膨胀,影响性能。

作为iptables的改进,ipvs(IP Virtual Server)模式提供了更高的性能和更好的扩展性。ipvs使用更高效的哈希表来管理网络规则,可以更快地查找和转发流量。这使得在大规模集群中,Service的访问性能得到显著提升。

1.2. 问题与挑战

尽管kube-proxy在大多数基础场景中表现良好,但它也存在一些明显的局限性:

1、场景简单:kube-proxy主要适用于简单的网络拓扑结构,对于复杂的IaaS(Infrastructure as a Service)场景,如需要支持VPC(Virtual Private Cloud)网络隔离、灵活的EIP(Elastic IP)使用等高级网络功能时,显得力不从心。

2、性能瓶颈:由于kube-proxy的报文转发完全依赖于软件实现(无论是iptables还是ipvs),这意味着它无法利用现代硬件(如DPU、SmartNIC)进行网络加速,在高负载跨节点转发的情况下,这种软件实现的性能瓶颈尤为明显。

3、资源消耗:基于软件实现的Kubernetes Service,在高负载跨节点转发的情况下会导致CPU资源消耗过高,从而影响整体系统的稳定性和性能。

与kube-proxy相似,许多开源的容器网络接口(CNI)插件,如使用Open vSwitch(OVS)的kube-ovn、Antrea等,通常依赖于自己的数据面处理机制来转发Service网络流量,在没有硬件加速的情况下,也面临类似的性能瓶颈和资源消耗问题。

2. 方案介绍

2.1.整体架构

本方案基于DPU&SmartNIC实现了Kubernetes Service的解决方案,简称“驭云Service”。

驭云Service在驭云SDN的架构中实现,其中驭云SDN通过ovn/ovs机制将DPU&SmartNIC加入到同一个ovn集群,对网络进行统一的虚拟化,整体物理架构图如所示:

wKgaombVfKSADTRAAAEh7sOTYlY884.png

在Pod/裸机/VM接入DPU卡或SmartNIC卡后,用户的请求由Service处理后送往对应的Pod/裸机/VM。

软件整体架构如下:

wKgaombVfKmAWtCnAAG9vIVUhzY541.png

如图所示,驭云Service基于驭云SDN,上图各个组件中均会参与处理Service的逻辑,下面分别进行介绍:

ycloud-controller,是SDN系统的控制平面,处理Service的主要逻辑,将用户创建的Service数据通过ovn转换成实际的网络拓扑。

yusurService-controller,处理用户创建的YusurService资源,翻译成内置Service资源给ycloud-controller使用。

ycloud-cni,该组件作为一个DaemonSet运行在每个节点上,是SDN的CNI接口,同时也会负责各个节点上Service的一些处理逻辑。

注:驭云SDN参见《基于DPU&SmartNIC的云原生SDN解决方案》

2.2.方案描述

在驭云SDN的概念中,所有后端资源,无论是Pod、VM还是裸金属服务器,都属于某一个VPC(虚拟私有云)。VPC实现了逻辑隔离的网络空间,这意味着不同VPC内的网络流量不会相互干扰,这提供了重要的安全边界,同时也便于多租户环境中的资源管理和隔离。然而,这种隔离也带来了一个挑战:如何允许不同VPC之间或者外部网络访问这些VPC内的资源。

Service需要解决的就是从不同地方经过Service访问到这些VPC内的资源,并且根据策略进行请求的负载均衡。在驭云Service中,具体包含以下场景:

集群内部互通(ClusterIP类型Service)

场景①:客户端在集群VPC内,访问同VPC下的后端服务:

在这种情况下,客户端可以直接通过Service的ClusterIP访问后端服务。ClusterIP是一种虚拟IP地址,由Kubernetes为Service分配,只在集群内部可见。流量在VPC内直接转发,无需经过额外的网关或负载均衡器。

场景②:客户端在集群节点上,访问默认VPC下的一组后端服务:

当客户端运行在集群节点上时,它同样可以通过ClusterIP访问服务。Kubernetes的网络策略确保流量在节点和后端服务之间正确路由。这种访问方式同样限于集群内部,不需要EIP。

集群外部访问集群内(LoadBalancer类型Service)

场景③:客户端在集群外部,通过EIP访问一个VPC下的一组后端服务:

在此场景下,客户端通过云外访问集群内的服务。LoadBalancer类型Service会分配一个EIP,此时外部流量通过EIP被路由到集群内部的Service。

场景④:客户端在集群外部,通过EIP访问多个VPC下的一组后端服务:

当客户端需要访问跨多个VPC的服务时,情况变得复杂。在这种情况下,当外部流量通过EIP进入集群内Service时,Servcie会同时充当网关,将流量正确地路由到目标VPC。

本方案主要从控制面和数据面2各方面进行介绍。

2.2.1. 控制面

在控制层,我们对原生Service进行了封装,在Kubernetes基础上扩展了对Service的管理能力,整体控制面结构如下图所示:

wKgZombVfOqAFeKBAAGutFCsjYY017.png

Service和Endpoint是Kubernetes内置资源。资源Service定义了构造一个Service的基本信息。

由于内置资源无法满足我们需要功能,包括网络访问场景,和多种后端,于是驭云Service增加了YusurService与NetworkProbe两种自定义资源定义(CRDs):

YusurService: 一种扩展的Service概念,允许定义更广泛的后端资源,包括Pod、VM、BM(裸金属服务器)、VNicIP(虚拟网络接口IP)。通过使用选择器(selectors),可以灵活地匹配不同类型的后端资源,而不仅仅是Pod。支持定义多种网络场景,灵活的指定eip和clusterIP等。

NetworkProbe: 用于健康检查的新CRD,为每个后端资源生成相应的探针,实时监控其健康状态。这可以确保负载均衡器只将请求转发给健康的实例。

用户只需要和YusurService进行交互,yusurService-controller会根据YusurService的信息创建Networkprobe,Endpoint和Service这3种资源。

Service包含网络配置的大多基本信息,Endpoint资源包含本次配置的所有后端;Networkprobe返回后端健康检查结果,yusurService-controller会根据Networkprobe的返回结果调整Endpoint所包含的健康后端。

yscloud-controller则会根据Endpoint和Service的信息通过ovn绘制出整个网络拓扑,打通网络通路。

通过这样的架构,系统不仅提供了高级别的抽象来简化Service管理和后端资源的健康监控,还实现了跨VPC的负载均衡,增强了Kubernetes集群的网络功能。

2.2.2. 数据面

Service的数据面依赖OVN和OpenVswitch,根据不同的访问场景,在不同的地方配置Load_Balancer,Load_Balancer是OVN的逻辑概念,可以应用在OVN的逻辑交换机或者逻辑路由器上面,它将在对应的地方上配置DNAT的规则,将访问VIP的报文转到合适的后端上去。

下文分别针对控制面中所描述的4种Service使用场景进行说明。

2.2.2.1 同vpc下访问资源

wKgZombVfPaAHJ-0AAG1H1i3NBQ835.png

当创建了Service之后,LoadBalancer的网络策略会确保应用在vpc1内的所有Subnet上。当subnet3上的client访问10.0.0.100时,其请求将首先被subnet3上的LoadBalancer接收。LoadBalancer会基于其算法(例如轮询、最少连接数等)选择一个后端Pod,并将数据包的目标地址转换为所选Pod的实际IP地址。数据包随后会通过vpc1被转发到选定的Pod所在的Subnet,例如subnet1,最后转发至Pod1。

2.2.2.2.从集群节点上访问vpc内资源

wKgZombVfP6AVgQoAAHKiU4ZLGU015.png

当集群节点上的client访问10.0.0.100时,报文经过node-interface进入subnet0,经过LoadBalancer将数据包的目标地址转换为所选Pod的实际IP地址后,通过ovn-cluster到对应subnet,完成一次转发。

2.2.2.3.从集群外部访问同一个vpc内资源

wKgZombVfQWAEKmAAAFMXi7JMak347.png

当创建了Service之后,LoadBalancer的网络策略会应用在vpc1上,当client访问200.0.0.100时,其请求将首先被这个EIP子网所属的eipGateway接收。eipGateway会将报文路由到Servic所属的VPC,vpc1内,此时LoadBalancer规则会基于其算法(例如轮询、最少连接数等)选择一个后端Pod,并将数据包的目标地址转换为所选Pod的实际IP地址。数据包随后会通过vpc1被转发到选定的Pod,完成一次转发。

2.2.2.4.从集群外部访问多个vpc内资源

wKgaombVfQ6ANckRAAGaxvDN27A032.png

当创建了Service之后,控制器会创建一个service-gateway的逻辑路由器,LoadBalancer的网络策略会应用在该路由器上,当client访问200.0.0.100时,其请求将首先被这个eip子网所属的eipGateway接收。eipGateway会将报文路由到service-gateway上,此时LoadBalancer规则会基于其算法(例如轮询、最少连接数等)选择一个后端Pod,并将数据包的目标地址转换为所选Pod的实际IP地址,源地址转换为所选service-gateway的系统IP地址。数据包随后会被转发到选定的Pod的vpc上,然后vpc将数据包送到Pod,完成一次转发。

3. 方案测试结果

3.1.创建Service

创建一个带有特定选择器和端口映射的Service YAML文件ysvc1.yaml,如下:

apiVersion: iaas.yusur.io/v1
kind: YusurService
metadata:
name: ysvc1
spec:
type: ClusterIP
scope: vpc
vpc: vpc1
ports:
- port: 5001
name: iperf
protocol: TCP
targetPort: 5001
selector:
svc: svc1-ep

使用kubectl apply -f ysvc1.yaml命令创建Service。

使用kubectl get ysvc ysvc1检查Service,如下:

wKgaombVfTaAWAZeAAMrfFvhW0k948.png

访问Service clusterIP,访问成功。

wKgZombVfT6AcsVOAABq0G30D-Y388.png

图中的netns为service后端同vpc下的一个pod,10.233.46.185为service的clusterIP,5001是service暴露的端口。

3.2.性能对比

3.2.1 Pod的带宽

带宽单位Gbits/s。

测试用例 驭云卸载方案 未卸载方案
1 物理节点之间基准测试 163 166
2 物理节点访问后端在远端的Service 152 130
3 Pod访问后端在远端的Service 151 138

从上面测试数据得出以下结论:

1. 卸载模式下,驭云访问远端Service能够达到接近物理机的带宽。

2. 卸载模式比非卸载在带宽上性能提升了20%左右。

3.2.2 Pod的pps

pps单位为Mpps。

测试用例 驭云卸载方案 未卸载方案
1 物理节点之间基准测试 45 45
2 物理节点访问后端在远端的Service 25.5 12.1
3 Pod访问后端在远端的Service 24.5 12.2

从下面数据得出以下结论:

1. 卸载模式下,驭云访问远端Service能够达到接近物理机的60%pps。

2. 卸载模式比非卸载在pps上性能提升了2倍以上。

3.2.3 Pod的延时

延时单位为us。

测试用例 驭云卸载方案 未卸载方案
1 物理节点之间基准测试 32 32
2 物理节点访问后端在远端的Service 33 48
3 Pod访问后端在远端的Service 33 44

从上面测试数据得出以下结论:

1. 卸载模式下,驭云访问远端Service能够达到接近物理机的延迟。

2. 卸载模式比非卸载在延迟上降低了20%以上。

3.2.4 RPS

单位为Requests/s。

测试用例 驭云卸载方案 未卸载方案
1 物理节点之间基准测试 15999
2 Pod跨节点访问Service 15139 11040

从上面测试数据得出以下结论:

1. 卸载模式下,驭云访问远端Service能够达到接近物理机的rps。

2. 卸载模式比非卸载在rps上提升了40%左右。

3.2.5 每条request的CPU指令数以及CPI

每条request的CPU指令数,单位为instructions/request。

测试用例 驭云卸载方案 未卸载方案
Pod跨节点访问Service 122,613 171,405

CPI,单位为cycles/instruction。

测试用例 驭云卸载方案 未卸载方案
Pod跨节点访问Service 1.94 1.69

从上面测试数据得出以下结论:

1. 一个请求消耗的CPU指令数量,卸载模式比非卸载模式降低30%左右。

2. 在CPI方面,卸载模式比非卸载模式增大了15%左右。

3. 综合消耗的CPU指令数量来看,对CPU的消耗减少了25%左右。

4. 优势总结

基于DPU和SmartNIC的K8s Service解决方案展现出显著的优势,具体总结如下:

① 支持复杂网络拓扑与高级功能

在复杂的网络拓扑下实现K8s Service,支持VPC网络隔离和EIP等高级网络功能,大大增强了Kubernetes集群在IaaS环境中的网络灵活性和安全性,满足复杂场景下的网络需求。

② 显著提升K8s Service性能

根据测试数据,本方案在带宽上性能提升了20%左右,pps上性能提升了2倍以上,延迟降低了20%以上。DPU和SmartNIC内置了强大的网络处理引擎,能够直接在硬件上完成报文的解析、转发和路由决策等任务,这种硬件加速机制使得在高负载跨节点转发时,仍能保持低延迟和高吞吐量,显著提升了Kubernetes Service的性能。

③ 降低资源消耗与优化系统性能

根据测试数据,本方案对CPU的消耗减少了25%左右。由于DPU和SmartNIC承担了大部分的网络处理工作,CPU从繁重的网络转发任务中解放出来,可以专注于执行其他更关键的计算任务,这不仅降低了CPU的资源消耗,还提升了整体系统的稳定性和性能。

综上所述,基于DPU和SmartNIC的K8s Service解决方案在应对复杂网络拓扑、性能瓶颈和资源消耗等方面具有明显的优势,能够显著提升Kubernetes集群在复杂IaaS环境中的网络性能和整体稳定性。

本方案来自于中科驭数软件研发团队,团队核心由一群在云计算、数据中心架构、高性能计算领域深耕多年的业界资深架构师和技术专家组成,不仅拥有丰富的实战经验,还对行业趋势具备敏锐的洞察力,该团队致力于探索、设计、开发、推广可落地的高性能云计算解决方案,帮助最终客户加速数字化转型,提升业务效能,同时降低运营成本。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    7774

    浏览量

    137351
  • DPU
    DPU
    +关注

    关注

    0

    文章

    357

    浏览量

    24169
  • 云原生
    +关注

    关注

    0

    文章

    248

    浏览量

    7947
  • SmartNIC
    +关注

    关注

    0

    文章

    19

    浏览量

    3210
收藏 人收藏

    评论

    相关推荐

    全面提升,阿里云Docker/Kubernetes(K8S) 日志解决方案与选型对比

    摘要: 今天,日志服务再次升级Kubernetes(k8s)的日志解决方案。1分钟内即可完成整个集群部署,支持动态扩容,提供采集宿主机日志、容器日志、容器stdout等所有数据源的一站式采集。点此
    发表于 02-28 12:49

    全面提升,阿里云Docker/Kubernetes(K8S) 日志解决方案与选型对比

    摘要: 今天,日志服务再次升级Kubernetes(k8s)的日志解决方案。1分钟内即可完成整个集群部署,支持动态扩容,提供采集宿主机日志、容器日志、容器stdout等所有数据源的一站式采集。点此
    发表于 02-28 12:50

    OpenStack与K8s结合的两种方案的详细介绍和比较

    OpenStack与K8S结合主要有两种方案。一是K8S部署在OpenStack平台之上,二是K8S和OpenStack组件集成。
    的头像 发表于 10-14 09:38 2.7w次阅读

    评估K8s可用的最常见的存储解决方案

    主要是评估K8s可用的最常见的存储解决方案,并进行基本性能测试。 目前CNCF的存储格局和解决方案已经更新,它已从2019年的30个解决方案增长到目前的45个
    的头像 发表于 01-03 10:37 1.8w次阅读
    评估<b class='flag-5'>K8s</b>可用的最常见的存储<b class='flag-5'>解决方案</b>

    Docker不香吗为什么还要用K8s

    Docker 虽好用,但面对强大的集群,成千上万的容器,突然感觉不香了。 这时候就需要我们的主角 Kubernetes 上场了,先来了解一下 K8s 的基本概念,后面再介绍实践,由浅入深步步为营
    的头像 发表于 06-02 11:56 3436次阅读

    简单说明k8s和Docker之间的关系

    这篇文章主要介绍了k8s和Docker关系简单说明,本文利用图文讲解的很透彻,有需要的同学可以研究下 最近项目用到kubernetes(以下简称k8sks之间有
    的头像 发表于 06-24 15:48 3403次阅读

    K8S集群服务访问失败怎么办 K8S故障处理集锦

    问题1:K8S集群服务访问失败?     原因分析:证书不能被识别,其原因为:自定义证书,过期等。 解决方法:更新证书即可。 问题2:K8S集群服务访问失败? curl: (7) Failed
    的头像 发表于 09-01 11:11 1.6w次阅读
    <b class='flag-5'>K8S</b>集群服务访问失败怎么办 <b class='flag-5'>K8S</b>故障处理集锦

    K8S(kubernetes)学习指南

    K8S(kubernetes)学习指南
    发表于 06-29 14:14 0次下载

    mysql部署在k8s上的实现方案

    的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。这里主要讲 mysql 部署在 k8s 上,mysql 部署在 k8s 上的优势主要有以下几点。
    的头像 发表于 09-26 10:39 2506次阅读

    k8s是什么意思?kubeadm部署k8s集群(k8s部署)|PetaExpres

    k8s是什么意思? kubernetes简称K8s,是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful
    发表于 07-19 13:14 1113次阅读

    什么是K3sK8sK3sK8s有什么区别?

    Kubernetes,通常缩写为 K8s,是领先的容器编排工具。该开源项目最初由 Google 开发,帮助塑造了现代编排的定义。该系统包括了部署和运行容器化系统所需的一切。
    的头像 发表于 08-03 10:53 7511次阅读

    k8s生态链包含哪些技术

    1. Apache APISIX Ingress 定义   在 K8s 生态中,Ingress 作为表示 K8s 流量入口的一种资源,想要让其生效,就需要有一个 Ingress Controller
    的头像 发表于 08-07 10:56 1229次阅读
    <b class='flag-5'>k8s</b>生态链包含哪些技术

    常用的k8s容器网络模式有哪些?

    常用的k8s容器网络模式包括Bridge模式、Host模式、Overlay模式、Flannel模式、CNI(ContainerNetworkInterface)模式。K8s的容器网络模式多种多样
    的头像 发表于 09-19 11:29 234次阅读

    k8s云原生开发要求

    Kubernetes(K8s)云原生开发对硬件有一定要求。CPU方面,建议至少配备2个逻辑核心,高性能CPU更佳。内存至少4GB,但8GB或更高更推荐。存储需至少20-30GB可用空间,SSD提升
    的头像 发表于 10-24 10:03 210次阅读
    <b class='flag-5'>k8s</b>云原生开发要求

    k8s和docker区别对比,哪个更强?

    Docker和Kubernetes(K8s)是容器化技术的两大流行工具。Docker关注构建和打包容器,适用于本地开发和单主机管理;而K8s则提供容器编排和管理平台,适用于多主机或云环境,具备自动化
    的头像 发表于 12-11 13:55 70次阅读