0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OrionX AI芯片计算资源池化技术

智能计算芯世界 来源:智能计算芯世界 2023-07-10 14:48 次阅读

作为 AI 市场中的重要组成,以 GPUFPGA 等为主的 AI 加速器市场发展也随之水涨船高。GPU 资源池化技术从初期的简单虚拟化,到资源池化,经历了四个技术演进阶段。

简单虚拟化。将物理 GPU 按照 2 的 N 次方,切分成多个固定大小的 vGPU(Virtual GPU,虚拟 GPU),每个 vGPU 的算力和显存相等。实践证明,不同的 AI 模型对于算力、显存资源的需求是不同的。所以,这样的切分方式,并不能满足 AI 模型多样化的需求。

任意虚拟化。将物理 GPU 按照算力和显存两个维度,自定义切分,获得满足 AI 应用个性化需求的 vGPU。

远程调用。AI 应用与物理 GPU 服务器分离部署,允许通过高性能网络远程调用 GPU资源。这样可以实现 AI 应用与物理 GPU 资源剥离,AI 应用可以部署在私有云的任意位置,只需要网络可达,即可调用 GPU 资源。

资源池化。形成 GPU 资源池后,需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时,也需要提供北向 API,与数据中心级的资源调度平台对接,让用户在单一界面,就可以调度包括 vGPU 在内的数据中心内的各类资源。

OrionX 通过软件定义 AI 算力,颠覆了原有的 AI 应用直接调用物理 GPU 的架构,增加软件层,将 AI 应用与物理 GPU 解耦合。AI 应用调用逻辑的 vGPU,再由 OrionX 将 vGPU需求匹配到具体的物理 GPU。OrionX 架构实现了 GPU 资源池化,让用户高效、智能、灵活地使用 GPU 资源,达到了降本增效的目的。

b492344e-1ec8-11ee-962d-dac502259ad0.png

一个典型的 OrionX GPU 资源池的逻辑架构中包含了 OrionX Controller(OC)、OrionX Server Service(OSS)、OrionX Client Runtime(OCRT)、和 OrionX GUI(OG)等功能组件。

OrionX 的各功能组件可以根据用户环境需求被部署在单服务器上,也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中,各功能组件可以通过多种类型的网络建立连接,从而把数据中心的 GPU 资源管理起来,形成一种可以被全局共享的计算资源,对 AI 应用提供可远程访问的、可灵活切分的、可聚合的弹性 GPU算力。OrionX 的逻辑架构如下图所示。

b4ec7800-1ec8-11ee-962d-dac502259ad0.png

CUDA是由 Nvidia 公司定义且公开推广、维护的一种 GPU 编程接口。从 2007 年推出之后,经过十几年生态培育,已经成为 GPU 编程的一个事实标准。大部分流行的 AI 框架,例如 TensorFlow、PyTorch、MXNet 和 PaddlePaddle都是基于 CUDA 编程接口开发。

OrionX 在管理物理 GPU 之后,通过模拟 CUDA 标准接口,为各种 AI 应用提供一个与 Nvidia CUDA SDK 接口功能一致的运行环境,从而使得 AI 应用透明无感知地运行在 OrionX GPU资源池之上。OrionX 不仅在单服务器上模拟了 CUDA 标准接口,并且通过分布式部署各功能组件,能够提供分布式的 CUDA 运行环境。

OrionX 的各个功能组件通过管理平面网络和数据平面网络进行通信,共同完成 GPU 资源池的管理以及 GPU 资源的调度等功能。

在部署 OrionX 时,使用基于 TCP/IP 网络的管理平面,来承载整个系统的管理工作。通过管理网络,分布在各个节点的功能组件都保持和 OrionX Controller 同步。管理平面逻辑结构如下图所示。

b51a473a-1ec8-11ee-962d-dac502259ad0.png

在应用运行的过程中,应用所在环境和 GPU 物理节点之间的数据传输使用的是 OrionX 的数据面。该数据面支持多种后端数据传输载体,包括 TCP/IP 以太网络、RoCE RDMA、Infiniband RDMA、Share Memory 等。具备高带宽、低延迟。同时支持多种传输协议,根据优先级自动使用高性能的传输方式。支持虚拟机、容器和宿主机之间的 TCP/IP 网络隔离。

b5432fb0-1ec8-11ee-962d-dac502259ad0.png

OrionX 的各个组件,支持直接部署在裸金属服务器上,即安装操作系统后,直接以 Binary形式部署,也支持容器化部署。OrionX 具备适配多种 Linux 操作系统和云平台的能力,因此,OrionX 具有多样化的部署形式。

OrionX 支持 CentOS、Ubuntu、Debian 等 Linux 发行版本,同时支持基于 KVM 的虚拟机云平台和基于 Docker 的容器云平台。尤其是支持原生容器,并实现了和 Kubernetes 的平滑对接。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1624

    文章

    21597

    浏览量

    601015
  • 服务器
    +关注

    关注

    12

    文章

    8921

    浏览量

    85030
  • AI芯片
    +关注

    关注

    17

    文章

    1849

    浏览量

    34820

原文标题:OrionX AI芯片计算资源池化技术

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NanoEdge AI技术原理、应用场景及优势

    NanoEdge AI 是一种基于边缘计算的人工智能技术,旨在将人工智能算法应用于物联网(IoT)设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身,从而减少数据传
    发表于 03-12 08:09

    AI发展对芯片技术有什么影响?

    现在说AI是未来人类技术进步的一大方向,相信大家都不会反对。说到AI芯片技术的关系,我觉得主要体现在两个方面:第一,
    发表于 08-12 06:38

    ai加速芯片

    ai加速芯片,申耀的科技观察读懂科技,赢取未来!毫无疑问,以大数据分析、云计算、人工智能等新技术所推动的数字转型正迅速的改变着我们所处的时
    发表于 07-28 07:53

    平头哥剑CDK 更新重磅来袭!三大亮点速看!

    芯片的开发。剑CDK概览一、剑CDK基本介绍剑CDK在产品设计中,分为四个部分:Packages:组件模块;用于支撑剑
    发表于 09-01 15:00

    OpenHarmony3.1 Release版本特性解析——OpenHarmony硬件资源架构介绍

    ,实现硬件互助、资源共享,为用户提供流畅的全场景体验。本期,我们通过介绍 OpenHarmony 的硬件资源框架,为大家揭晓 OpenHarmony 是如何实现多设备协同的。一、硬
    发表于 05-23 16:42

    电力云资源的建立

    国家电网公司从2010年开始建设电力云资源,存储域作为资源的必须部分,设计和实现存储域是资源
    发表于 11-27 17:33 0次下载
    电力云<b class='flag-5'>资源</b><b class='flag-5'>池</b>的建立

    华为视频云平台通过云技术实现计算、网络、存储资源

    华为视频云的支撑框架为云平台FusionCloud,可承建北京城市副中心行政办公区的视频监控系统,构建计算、存储等资源适配视频的应用业务,通过基于主流开放的OpenStack架构的云虚拟
    的头像 发表于 12-14 16:35 8103次阅读

    OpenHarmony硬件资源模型

    在设计初期,为解决两台设备间的协同问题,我们通过 OpenHarmony 提供的分布式设备虚拟能力将两台设备的硬件资源进行融合,实现了“一对一”的硬件资源访问。这便是硬件资源
    的头像 发表于 05-11 10:24 1479次阅读

    什么是内存

    1什么是内存 1.1技术 所谓“技术”,就
    的头像 发表于 11-08 16:26 803次阅读
    什么是内存<b class='flag-5'>池</b>

    高并发内存项目实现

    相关知识 1、技术 技术就是程序先向系统申请过量的
    的头像 发表于 11-09 11:16 648次阅读
    高并发内存<b class='flag-5'>池</b>项目实现

    了解连接、线程、内存、异步请求

    技术 技术能够减少资源对象的创建次数,提⾼程
    的头像 发表于 11-09 14:44 1116次阅读
    了解连接<b class='flag-5'>池</b>、线程<b class='flag-5'>池</b>、内存<b class='flag-5'>池</b>、异步请求<b class='flag-5'>池</b>

    内存主要解决的问题

    内存的定义 1.技术 是在计算机技术中经常使用的一种设计模式,其内涵在于:将程序中需要
    的头像 发表于 11-13 15:23 640次阅读
    内存<b class='flag-5'>池</b>主要解决的问题

    技术的应用实践

    作为一名Java开发人员,技术或多或少在业务代码中使用。常见的包括线程、连接等。也是因为Java语言超级丰富的基建,基本上这些
    的头像 发表于 11-24 10:22 464次阅读
    <b class='flag-5'>池</b><b class='flag-5'>化</b><b class='flag-5'>技术</b>的应用实践

    优刻得与联想AI实验室携手共建高效AI资源

    近日,云计算服务提供商优刻得(UCloud)与联想AI实验室宣布达成战略合作,双方将共同打造一个高效且灵活的本地AI资源
    的头像 发表于 07-14 14:19 1031次阅读

    打造异构计算新标杆!国数集联发布首款CXL混合资源参考设计

    今日,领先的高速互联芯片及方案设计厂商国数集联发布业界首创的CXL混合资源(Compute Express Link Hybrid Resource Pool ,以下简称“CHRP”)参考设计。该
    的头像 发表于 08-06 14:19 251次阅读
    打造异构<b class='flag-5'>计算</b>新标杆!国数集联发布首款CXL混合<b class='flag-5'>资源</b><b class='flag-5'>池</b>参考设计