作为 AI 市场中的重要组成,以 GPU、FPGA 等为主的 AI 加速器市场发展也随之水涨船高。GPU 资源池化技术从初期的简单虚拟化,到资源池化,经历了四个技术演进阶段。
简单虚拟化。将物理 GPU 按照 2 的 N 次方,切分成多个固定大小的 vGPU(Virtual GPU,虚拟 GPU),每个 vGPU 的算力和显存相等。实践证明,不同的 AI 模型对于算力、显存资源的需求是不同的。所以,这样的切分方式,并不能满足 AI 模型多样化的需求。
任意虚拟化。将物理 GPU 按照算力和显存两个维度,自定义切分,获得满足 AI 应用个性化需求的 vGPU。
远程调用。AI 应用与物理 GPU 服务器分离部署,允许通过高性能网络远程调用 GPU资源。这样可以实现 AI 应用与物理 GPU 资源剥离,AI 应用可以部署在私有云的任意位置,只需要网络可达,即可调用 GPU 资源。
资源池化。形成 GPU 资源池后,需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时,也需要提供北向 API,与数据中心级的资源调度平台对接,让用户在单一界面,就可以调度包括 vGPU 在内的数据中心内的各类资源。
OrionX 通过软件定义 AI 算力,颠覆了原有的 AI 应用直接调用物理 GPU 的架构,增加软件层,将 AI 应用与物理 GPU 解耦合。AI 应用调用逻辑的 vGPU,再由 OrionX 将 vGPU需求匹配到具体的物理 GPU。OrionX 架构实现了 GPU 资源池化,让用户高效、智能、灵活地使用 GPU 资源,达到了降本增效的目的。
一个典型的 OrionX GPU 资源池的逻辑架构中包含了 OrionX Controller(OC)、OrionX Server Service(OSS)、OrionX Client Runtime(OCRT)、和 OrionX GUI(OG)等功能组件。
OrionX 的各功能组件可以根据用户环境需求被部署在单服务器上,也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中,各功能组件可以通过多种类型的网络建立连接,从而把数据中心的 GPU 资源管理起来,形成一种可以被全局共享的计算资源,对 AI 应用提供可远程访问的、可灵活切分的、可聚合的弹性 GPU算力。OrionX 的逻辑架构如下图所示。
CUDA是由 Nvidia 公司定义且公开推广、维护的一种 GPU 编程接口。从 2007 年推出之后,经过十几年生态培育,已经成为 GPU 编程的一个事实标准。大部分流行的 AI 框架,例如 TensorFlow、PyTorch、MXNet 和 PaddlePaddle都是基于 CUDA 编程接口开发。
OrionX 在管理物理 GPU 之后,通过模拟 CUDA 标准接口,为各种 AI 应用提供一个与 Nvidia CUDA SDK 接口功能一致的运行环境,从而使得 AI 应用透明无感知地运行在 OrionX GPU资源池之上。OrionX 不仅在单服务器上模拟了 CUDA 标准接口,并且通过分布式部署各功能组件,能够提供分布式的 CUDA 运行环境。
OrionX 的各个功能组件通过管理平面网络和数据平面网络进行通信,共同完成 GPU 资源池的管理以及 GPU 资源的调度等功能。
在部署 OrionX 时,使用基于 TCP/IP 网络的管理平面,来承载整个系统的管理工作。通过管理网络,分布在各个节点的功能组件都保持和 OrionX Controller 同步。管理平面逻辑结构如下图所示。
在应用运行的过程中,应用所在环境和 GPU 物理节点之间的数据传输使用的是 OrionX 的数据面。该数据面支持多种后端数据传输载体,包括 TCP/IP 以太网络、RoCE RDMA、Infiniband RDMA、Share Memory 等。具备高带宽、低延迟。同时支持多种传输协议,根据优先级自动使用高性能的传输方式。支持虚拟机、容器和宿主机之间的 TCP/IP 网络隔离。
OrionX 的各个组件,支持直接部署在裸金属服务器上,即安装操作系统后,直接以 Binary形式部署,也支持容器化部署。OrionX 具备适配多种 Linux 操作系统和云平台的能力,因此,OrionX 具有多样化的部署形式。
OrionX 支持 CentOS、Ubuntu、Debian 等 Linux 发行版本,同时支持基于 KVM 的虚拟机云平台和基于 Docker 的容器云平台。尤其是支持原生容器,并实现了和 Kubernetes 的平滑对接。
-
FPGA
+关注
关注
1625文章
21664浏览量
601720 -
服务器
+关注
关注
12文章
9015浏览量
85169 -
AI芯片
+关注
关注
17文章
1859浏览量
34903
原文标题:OrionX AI芯片计算资源池化技术
文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论