0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用GPU Operator 1.8简化GPU对部署场景的管理

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-11 16:06 次阅读

在本文中,我们将介绍 GPU Operator release 1.8 中添加的新功能,进一步简化 GPU 对各种部署场景的管理,包括:

增加了对 GPU 操作员升级的支持

支持 NVX 交换机系统,包括 DGX A100 和 NVIDIA HGX A100 服务器

支持收集 GPU 操作员状态指标

GPU 运营商和网络运营商改进多节点培训

支持 Red Hat OpenShift 4.8

NVIDIA 软件生命周期管理

GPU Operator 的 1.8 版为组织提供了更新机制,以更新其 GPU Operator 版本,而不会中断运行 GPU Operator 的群集的工作流。 GPU Operator 的早期版本要求用户在安装新版本之前卸载以前的版本,这意味着在升级过程中群集中没有可用的 GPU 。

从 1.8 开始,升级版本不会中断工作流程。该机制以滚动方式一次更新一个节点,因此其他节点可以继续使用。只有在安装完成且上一个节点重新联机时,下一个节点才会更新。用户可以确信,在更新 GPU 操作员时,他们的工作流程将得到更好的管理。

现在支持 NVS 交换机系统

对于 1.8 , GPU 操作员自动在 NVIDIA 上部署初始化结构所需的软件 NVSwitch 系统,包括 NVIDIA HGX A100 和 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建一个可扩展的终端计算平台。

GPU 操作员还经过认证,可在 DGX A100 系统上与 Red Hat OpenShift 4 一起使用。

支持收集 GPU 操作员状态指标

在 1.8 版本中, GPU 运营商现在报告各种指标,供用户监控 GPU 运营商和 GPU – 运营商资源命名空间下的运营商部署资源的总体运行状况。 SRE 团队和集群管理员现在可以配置必要的 Prometheus 用于收集指标以及在某些故障情况下触发警报的资源。

对于 OpenShift 容器平台,这些资源将在此版本中自动创建。监控解决方案,如 Grafana 可用于构建仪表板和可视化 GPU 操作员和节点组件的操作状态。

更好地结合: NVIDIA 加速计算和联网

最近, NVIDIA 发布了 NVIDIA Network Operator 。 模拟 NVIDIA GPU Operator ,网络运营商通过自动化网络部署和配置的各个方面简化了 Kubernetes 的扩展网络设计,否则需要手动操作。它在具有 NVIDIA 网络接口的任何群集节点上加载所需的驱动程序、库、设备插件和 CNI 。

当它们一起部署时, NVIDIA GPU 和网络运营商启用 GPU 直接 RDMA ,即不同节点上 NVIDIA GPU 之间的快速数据路径。这是数据密集型工作负载(如 AI 多节点培训)的关键技术促成因素。

了解有关最新版本的更多信息 NVIDIA 网络运营商发布 。

增加了对 Red Hat OpenShift 的支持

我们继续支持红帽 OpenShift 。

GPU Operator 1.8 和 1.7 支持 Red Hat OpenShift 4.8 和 4 . 7

GPU 运算符 1.6 支持 Red Hat OpenShift 4. 7

GPU 运算符 1. 5 支持 Red Hat OpenShift 4 . 6

GPU Operator 1. 4 和1 .3 分别支持 Red Hat OpenShift 4.5 和 4.4

概括

以下资源可用于使用 NVIDIA GPU 运算符:

GPU 操作员 1.8 发行说明

入门指南

GPU NGC 上的操作员舵图

GitHub 上的 GPU 运算符

NVIDIA GPU 运算符是许多应用程序的关键组件 边缘计算 解决。

关于作者

Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

Erik Bohnhorst 是 NVIDIA 的高级产品经理,专注于云本地技术,为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ,以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队,直到他加入了 EGX 团队。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4682

    浏览量

    102117
  • 数据中心
    +关注

    关注

    15

    文章

    4344

    浏览量

    71006
收藏 人收藏

    评论

    相关推荐

    NVLink技术之GPUGPU的通信

    在多 GPU 系统内部,GPU 间通信的带宽通常在数百GB/s以上,PCIe总线的数据传输速率容易成为瓶颈,且PCIe链路接口的串并转换会产生较大延时,影响GPU并行计算的效率和性能。
    发表于 03-27 09:40 1368次阅读
    NVLink技术之<b class='flag-5'>GPU</b>与<b class='flag-5'>GPU</b>的通信

    FPGA在深度学习应用中或将取代GPU

    通常是在一个确定的环境中进行的,运行神经网络的系统会在部署中遇到各种限制——这可能会对 GPU 的实际使用造成压力。” GPU 需要大量的电力,会产生大量的热量,并需要使用风扇冷却。当你在台式工作站
    发表于 03-21 15:19

    揭秘GPU: 高端GPU架构设计的挑战

    在计算领域,GPU(图形处理单元)一直是性能飞跃的代表。众所周知,高端GPU的设计充满了挑战。GPU的架构创新,为软件承接大模型训练和推理场景的人工智能计算提供了持续提升的硬件基础。
    的头像 发表于 12-21 08:28 593次阅读
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b>架构设计的挑战

    什么是虚拟GPU?虚拟GPU的优势有哪些?

    虚拟 GPU,也称为 vGPU,是通过将数据中心 GPU 进行虚拟化,用户可在多个虚拟机中共享该 GPU
    的头像 发表于 11-10 09:48 1027次阅读
    什么是虚拟<b class='flag-5'>GPU</b>?虚拟<b class='flag-5'>GPU</b>的优势有哪些?

    #GPU显卡 #中国制造  中国GPU面临至暗时刻吗?

    半导体元器件gpu
    深圳市浮思特科技有限公司
    发布于 :2023年11月07日 14:43:15

    什么是OperatorOperator是如何工作的?如何构建Operator

    你也许能够将应用熟练的部署到 Kubernetes 上,但你知道什么是 Operator 吗?Operator 是如何工作的?如何构建 Operator?这是一个复杂的课题,但幸运的是
    的头像 发表于 09-01 15:35 765次阅读

    Mali GPU OpenGL ES应用程序开发指南

    这是适用于马里GPU的OpenGL ES应用程序开发指南。 它提供了使用OpenGL ES 1.1和OpenGL ES 2.0 API为马里GPU开发应用程序的指南。 本文档适用于马里GPU系列,即
    发表于 08-30 07:57

    GPU发起的Rowhammer攻击常见问题

    以下信息提供了有关GPU发起的“Rowhammer”攻击的一些常见问题的答案。 你能用外行的话解释这个问题吗? 安全研究人员已经证明了GPU通过WebGL程序发起的微体系结构攻击,使他们能够构建指向
    发表于 08-25 06:41

    Arm Mali™ GPU OpenCL开发者指南

    Arm®生产马里家庭™ GPU。Bifrost、Valhall和第五代是马里的三个™ GPU架构。 马里™ GPU并行运行包含相对较少控制代码的数据处理任务。马里™ GPU通常包含比应
    发表于 08-10 07:47

    ARM GPU最佳实践开发人员指南

    我们的指南提供了在为Arm Immortalis和Mali GPU开发时如何优化应用程序的建议。这些建议是为那些希望开始使用Arm GPU的成熟开发人员准备的。
    发表于 08-10 06:58

    Mali-Valhall系列GPU可编程内核

    本指南介绍了典型的Mali-Valhall系列GPU 可编程内核。Valhall是Mali 的第四代GPU。这个Valhall系列包括Mali-G5x和Mali-G7x系列产品。这些产品已发布自
    发表于 08-02 16:38

    基于磁贴的GPU架构优缺点

    本指南介绍了基于磁贴的GPU架构的优缺点。它还将ARM马里基于瓷砖的GPU架构设计与台式PC或控制台中常见的更传统的即时模式GPU进行了比较。 马里GPU使用基于平铺的渲染体系结构。
    发表于 08-02 12:54

    GPU服务器是什么?

    从字面上来看GPU服务器是服务器当中的一种,简单的介绍,GPU服务器就是基于CGP的应用在视频编解码,深度学习,科学计算等多场景稳定快速,稳定,弹性的计算服务。那么GPU服务器的作用
    的头像 发表于 08-01 18:03 731次阅读