算力调度的基础知识-电子发烧友网

编者按

“算力调度”的概念，这几年越来越多的被提及。刚听到这个概念的时候，我脑海里一直拐不过弯。作为底层芯片出身的我，一直认为：算力是硬件的服务器和集群，他在某个地方，就是固定的；根本就不存在算力的调度，调度的应该是上层的业务软件。

经过跟行业众多朋友的交流和思考后，我逐渐能够理解“算力调度”所表达的意思。从业务的视角，客户关心的是业务本身，需要算力随时随地可用，而不需要关注承载业务的具体的硬件在哪里。当然，要实现不需要关注硬件，有许多工作要做，这就是“算力调度”要完成的事情，也就是说：“算力调度，不仅仅是调度”。

本篇文章，我们简单聊一聊算力调度，仅供探讨，欢迎私信交流。

1 计算任务的特征

1.1 计算任务的时间和空间特征

计算任务（Workload，也译作工作任务、工作负载等），是一个或一组相关的、运行中的应用程序。

站在软件运行的角度，根据运行时间的长短，我们可以把计算任务简单的分为两类，短期型任务和常驻型任务：

短期型任务指的是，任务开始执行，会在一定的时间内运行完成，结束后会释放计算资源。

常驻型任务指的是，没有外部强制关闭的话，任务会一直处于执行状态，不会结束。

从微观的看，某个特定的处理器，在其上运行的程序（线程）是分时调度的。这样，线程的资源占用不会大于1个CPU核。

但相对宏观的某个计算任务（一个进程或一组相关的进程），其占用的处理器资源既可以少于1个CPU核，也可以是多个CPU核，甚至多个CPU芯片、多台服务器的集群，直到成千上万台服务器的大集群。最典型的例子就是AI大模型训练，需要上千台服务器上万张GPU卡的计算集群来运行大模型训练的计算任务，并且一次计算任务运行会持续数十天。

串行和并行，会影响计算任务的时间和空间。串行，是以时间换空间；反过来，并行则是以空间换时间。

当计算资源有限而计算任务尺寸较大时，可以把计算任务拆分成许多小计算任务，然后这些小计算任务串行运行。虽然计算的时间会增大，但可以在较小规模的计算资源上完成计算。

反过来，当计算任务的运行时间非常长，我们也可以把任务拆分成短任务，这些短任务并行运行在不同的计算资源上，从而减少计算的时间。这也就是我们经常说的并行加速。

1.2 计算的两种形态

根据软件任务的尺寸和硬件服务器尺寸的匹配程度，可以简单的把计算分为两种类型：

第一种，一台硬件服务器处理很多件计算任务。

像云计算，通过虚拟化或容器的方式，可以把单台服务器分割成多份，每一个虚机或容器，就运行“一个计算任务”，一台服务器可以同时支持多个计算任务运行。

目前，AI推理的计算任务，通常也可以在一台服务器尺寸范围内完成。也因此，AI推理计算任务通常是基于云虚机或容器的方式来运行。

第二种，很多台硬件服务器处理一件计算任务。

如超级计算（HPC），超算的计算节点可以看做是一台计算机，然后超算实际上是这些计算节点组成的计算集群。超算的计算任务都比较大，通过并行占用所有计算资源的方式，达到快速计算的目的。

AI模型的训练的计算任务，尺寸非常大，所以把模型进行拆分，拆分成若干小的计算任务，并且这些小的计算任务之间的联系更加紧密，是一种紧耦合的关系。也因此，AI模型的训练，通常是千卡万卡，甚至更多GPU卡的高性能集群计算，各个需要计算节点之间需要高速（网络）互联通信。AI训练的计算架构，更接近HPC。

1.3 分布式解构

随着系统越来越大，单机计算已经非常的少见，集群计算已经成为主流。云计算模式，虽然某个具体的计算任务是放在一台计算服务器上去运行，而实际的情况很可能是——这个计算任务是某个巨服务解构拆分出的其中一个微服务。每个微服务聚焦做一个相对简单的事情，从而使得单个微服务可以在单机上以虚机或容器的方式运行。

那这样的话，计算岂不可以统一到一种形态？即单个计算任务需要多台计算服务器来承载其运行。这里的关键，是在于大计算任务解构拆分的不同小计算任务之间的交互耦合度。这样，根据交互耦合度和网络硬件实现，我们分为如下几个情况（耦合性依次降低）：

IB高性能网络+内存一致性硬件加速。计算任务之间完全紧耦合，通常采用超级计算（HPC）模式。超算的各个节点之间主流是通过IB网络连接，但会在其上构建高效的内存一致性协议加速处理，从而使得整个超算连成一台计算机。

IB高性能网络。计算任务之间，联系紧密，数据量大，延迟敏感。计算机集群，通过IB网络连接。本质上仍然是多台计算机组成的计算集群，计算任务间靠点对点通信交互数据。典型案例如AI大模型训练。

RoCEv2高性能网络。计算任务之间延迟敏感，但联系紧密程度再低一些，通常可以选用RoCEv2的方式。RoCEv2在高性能、兼容性和低成本方面达成一个均衡。典型案例如EBS高性能块存储和分布式文件存储。

标准Ethernet网络。计算任务之间完全解耦，则通常采用标准以太网的方式。传统的云计算下，微服务解构的互联网业务通常采取此网络方式。

2 理想化的算力调度

依据计算任务的时间和空间特性，相对应的算力调度方式也就分为四类：

短期的小尺寸计算任务。这是通常大家理解的算力调度，也是算力调度最简单的情况。

短期的大尺寸计算任务。超算或AI大模型训练的计算模式。

常驻的小尺寸计算任务。云计算常见的业务组织方式，是常驻的小尺寸计算任务。

长期的大尺寸计算任务。实际的互联网型业务系统。

这里，我们从计算的角度，谈一下计算方式的统一：

一个是，计算任务的解构（计算任务的弹性）。大尺寸的计算任务，可以拆分成若干个小尺寸的计算任务。从而使得计算任务能够匹配单个裸机的计算主机（裸机、虚拟机、容器等）；

另一个，计算资源的池化（虚拟化）和再组合（计算主机的弹性）。计算主机可以从1/N个处理器核、扩展到多个处理器核，甚至扩展到M个计算节点。因为计算主机的弹性，从而使得计算主机既可以适配小尺寸的计算任务，也可以适配大尺寸的计算任务。

两者相向而行，并且均具有一定的（尺寸）弹性，从而能够尽可能的适配对方。

3 实际算力调度中的问题

3.1 问题一：静态调度和动态调度

静态调度：计算任务在初始运行时，分配计算资源时候的调度。一般来说，短期型的计算任务，通常只有静态调度，也即仅调度一次，运行结束后就立刻释放计算资源。

动态调度：计算任务在运行的过程中，受计算资源的各类情况变化的影响，计算任务需要（重新）调度到其他计算资源，也即我们通常理解的业务迁移。常驻型的计算任务通常会遇到这样的情况。

这里举一个动态调度的案例——跨云边端的高阶自动驾驶汽车：

初始的时候，车辆由驾驶员驾驶。此刻，其他乘车人员，可以在车上玩游戏、看电影、听音乐、刷短视频等等。这些计算任务都运行在车辆终端本地。

当开启自动驾驶时，本地算力不够。游戏、电影、音乐、短视频等计算任务，由于优先级较低，统一调度到边缘侧甚至云侧。而自动驾驶的计算任务，由于尺寸较大，通常也是由解构的若干微服务组成。其中优先级较高的少量微服务，运行在车辆终端本地；而优先级较低的大部分微服务，也和游戏等其他计算任务一样，运行在边缘侧甚至云侧。

解除自动驾驶后，自动驾驶相关微服务（计算任务）退出，并且释放本地和边缘、云端的算力资源。而游戏等其他计算任务再从边缘、云端，重新调度（迁移）到车辆终端本地。

3.2 问题二：任务的状态

无状态计算任务

如果是无状态的计算任务，的确可以随便调度。

但一个计算任务至少有两个状态，一个是计算任务的输入，一个是计算任务的输出。因此，任务调度会受输入源和输出目的的约束——不管调度到哪里，都需要能访问源数据和写入结果数据。

有状态计算任务

如果是有状态的计算任务，那么在运行的过程中，一方面是尽可能提高运行平台的高可用性，尽量减少调度；另一方面则当不得不调度的时候，运行现场需要和计算任务一起调度。

3.3 任务间的关联性

大任务拆分成小任务（巨服务微服务化），这些小任务间必然需要相互访问。那么在调度的时候，就需要考虑这一层约束：凡是有关联的计算任务，只能在一个集群（可网络访问）内调度。如果是跨集群，或者跨数据中心和云边端的计算任务，则需要考虑网络打通、访问延迟、访问权限等方面的问题。事情远不是理想化的算力调度那么简单！

因此，算力调度，此刻应该有两层：

第一层，是全局算力调度。为这个大任务，或者用户的若干大任务分配一个独立的计算集群，可以是跨数据中心、跨云边端的算力资源所组成的“虚拟”的集群。

另一层，则是用户在自己的集群内部，进行业务层次的算力再调度。

3.4 任务的计算平台要求

计算平台由如下部分组成：

CPU处理器。CPU是图灵完备的，可以自运行。

内存。计算数据暂存和数据共享的区域。

存储I/O。本地的存储通过片间总线，如PCIe；远程的存储需要通过网络。

网络I/O。网络主要用于外部通信。在集群计算和计算存储分离的场景下，网络的功能主主要是三个：

访问内网，东西向网络，作为集群内部不同节点间的网络通信，目前主要是IB；

访问远程存储，目前主要使用RoCEv2；

访问外网，南北向网络，作为集群外部的访问端口，目前主要是Ethernet。

一个或多个加速处理器：

从整个架构看，加速处理器是和CPU功能类似的计算部件。

其他加速处理器是非图灵完备的，均需要组成CPU+xPU的异构计算架构。从CPU软件视角看，加速处理器是跟网络和存储I/O类似的部件。

加速处理器，目前常用可以分为两类：GPU，通用的并行计算加速平台。DSA。领域专用加速器，DSA是完全专用（ASIC）向通用可编程性的微调。

因此，计算任务，在不同计算平台调度的时候，需要考虑平台的差异性：

CPU架构的差异性。CPU是x86、ARM还是其他架构；

网络和存储接口是否一致；

加速处理器的类型和架构是否一致。

目前，算力多样性已经成为困扰算力调度最大的问题。如何在多元异构算力平台上，实现统一调度，是目前算力中心发展要解决的重要问题之一。

4 宏观视角：多租户多系统的算力调度

计算的形态，从单机计算，走到了集群计算；并且，还在逐渐走进跨集群、跨数据中心、跨云边端的协同计算，甚至融合计算。宏观的看，一个计算系统，必然是数以万计的租户所拥有的数以百万计的大计算任务（业务系统）共存。这里的每个大计算任务，又会拆分成数十个甚至上百个小计算任务（微服务）。也因此，宏观的计算是：数以万计租户的数以亿计的计算任务，并行不悖的交叉混合运行在数十个甚至上百个云算力中心、数以千计的边缘数据中心，以及数以百万计的终端计算节点上。从算力的视角，全局存在一个统一的调度系统，所有的计算任务都是统一的调度的。调度系统能完全考虑并满足所有计算任务的各种特性要求。从业务的视角，调度通常是两层：

业务从全局调度系统获取自己的资源（第一层调度），组成自己的“虚拟”集群；

然后，业务的计算任务，在这“虚拟”集群里再进行调度。

全局调度为计算实例分配好资源之后，仍然可以动态调度（迁移），以保证计算实例的高可用。

业务从全局调度系统获取资源也是动态的，可增加，可减少。

5 算力调度的分层

以容器和K8S容器管理为中心的云原生体系，越来越成熟，行业里出现了一个声音：“是不是传统IaaS虚拟化层就没有存在的必要了？” 我们的观点是：企业云场景，虚拟化的确没有必要（企业云规模小，没有必要那么复杂）；但超大规模多租户的算力中心场景，IaaS层仍然非常有必要，也仍然非常有价值。这样，在硬件之上，业务之下，存在两层抽象层：

第一层，资源抽象层。通过计算机虚拟化，对资源进行抽象和封装，以及资源的池化和弹性切分。目前，业界一些先进的解决方案，可以通过DPU的加持，实现虚拟化的零损耗，以及裸机和虚拟机的统一，既有裸机的性能又有虚机的高可用和弹性。因此，裸机和虚拟主机的相关劣势已经“不复存在”。此外，通过虚拟化，可以实现接口的抽象统一，从而减少多元异构算力带来架构/接口兼容性的问题。

第二层，算力调度层。容器化及云原生的核心优势，是以应用为中心：一次打包，到处运行。因此，通常是以容器为载体，以容器为基础调度粒度，从而实现算力的高效调度。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算

计算

+关注

关注
2

文章
451

浏览量
38861
调度

调度

+关注

关注
0

文章
53

浏览量
10790
算力

算力

+关注

关注
1

文章
1012

浏览量
14943

原文标题：聊一聊算力调度

文章出处：【微信号：SDNLAB，微信公众号：SDNLAB】欢迎添加关注！文章转载请注明出处。

从堆算力到用算力，宁畅用精装算力，助力产业打造智能化摩天大楼

算力

脑极体

发布于 :2025年01月22日 00:00:50

算智算中心的算力如何衡量？

作为当下科技发展的重要基础设施，其算力的衡量关乎其能否高效支撑人工智能、大数据分析等智能应用的运行。以下是对智算中心算力衡量的详细阐述：一、算

发表于 01-16 14:03 •440次阅读

科技云报到：要算力更要“算利”，“精装算力”触发大模型产业新变局？

科技云报到：要算力更要“算利”，“精装算力”触发大模型产业新变局？

发表于 01-16 10:24 •111次阅读

超算智算融合南京信易达发布全新“智能算力融合平台”

四大系统模块,为算力集群提供全面的运营运维管理服务与用户自助服务。通过资源监控、作业调度、应用中心、数据中心等功能,一站式解决多元算力的管

发表于 01-08 10:56 •141次阅读

EMC基础知识-华为

EMC基础知识-华为

发表于 01-06 14:09 •0次下载

算力基础篇：从零开始了解算力

算力即计算能力（Computing Power），狭义上指对数字问题的运算能力，而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同，但处理过程的能力都可抽象为算力。比

发表于 11-15 14:22 •1015次阅读

企业AI算力租赁是什么

企业AI算力租赁是指企业通过互联网向专业的算力提供商租用所需的计算资源，以满足其AI应用的需求。以下是对企业AI算

发表于 11-14 09:30 •1107次阅读

品质管理基础知识

品质管理基础知识

发表于 11-01 11:08 •408次阅读

GPU算力开发平台是什么

随着AI技术的广泛应用，算力需求呈现出爆发式增长。AI算力租赁作为一种新兴的服务模式，正逐渐成为企业获取算

发表于 10-31 10:31 •252次阅读

大模型时代的算力需求

现在AI已进入大模型时代，各企业都争相部署大模型，但如何保证大模型的算力，以及相关的稳定性和性能，是一个极为重要的问题，带着这个极为重要的问题，我需要在此书中找到答案。

发表于 08-20 09:04

中科曙光入选2024算力服务产业图谱及算力服务产品名录

近日，中国信通院公布首个《算力服务产业图谱(2024年)》及《算力服务产品名录(2024年)》。曙光智算构建的全国一体化

发表于 08-06 14:23 •816次阅读

神州鲲泰亮相北京数字安全大会，以智能算力构筑数据安全的坚实底座

算力正成为赋能各行各业数字化转型的基础技术要素，神州鲲泰面对智算时代多云、异构、绿色计算等现实需求，智算集群间以及集群内复杂异构兼容问题，整合异构算

发表于 07-18 16:06 •482次阅读

算力基础设施的风险与挑战

编者按算力网络有一个美好的愿景，就是希望算力和算网，能像电力和电网一样：算

发表于 06-13 08:27 •624次阅读

算力系列基础篇——算力101：从零开始了解算力

相信大家已经感受到，我们正处在一个人工智能时代。如果要问在人工智能时代最重要的是什么？那必须是：算力！算力！算

发表于 04-24 08:05 •1002次阅读

智能算力规模超通用算力，大模型对智能算力提出高要求

电子发烧友网报道（文/李弯弯）算力是设备通过处理数据，实现特定结果输出的计算能力，常用FLOPS作为计量单位。FLOPS是Floating-point Operations Per Second

发表于 02-06 00:08 •6522次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

算力调度的基础知识

评论

从堆算力到用算力，宁畅用精装算力，助力产业打造智能化摩天大楼

算智算中心的算力如何衡量？

科技云报到：要算力更要“算利”，“精装算力”触发大模型产业新变局？

超算智算融合南京信易达发布全新“智能算力融合平台”

EMC基础知识-华为

算力基础篇：从零开始了解算力

企业AI算力租赁是什么

品质管理基础知识

GPU算力开发平台是什么

大模型时代的算力需求

中科曙光入选2024算力服务产业图谱及算力服务产品名录

神州鲲泰亮相北京数字安全大会，以智能算力构筑数据安全的坚实底座

算力基础设施的风险与挑战

算力系列基础篇——算力101：从零开始了解算力

智能算力规模超通用算力，大模型对智能算力提出高要求