使用GPU Operator 1.8简化GPU对部署场景的管理-电子发烧友网

在本文中，我们将介绍 GPU Operator release 1.8 中添加的新功能，进一步简化 GPU 对各种部署场景的管理，包括：

增加了对 GPU 操作员升级的支持

支持 NVX 交换机系统，包括 DGX A100 和 NVIDIA HGX A100 服务器

支持收集 GPU 操作员状态指标

GPU 运营商和网络运营商改进多节点培训

支持 Red Hat OpenShift 4.8

NVIDIA 软件生命周期管理

GPU Operator 的 1.8 版为组织提供了更新机制，以更新其 GPU Operator 版本，而不会中断运行 GPU Operator 的群集的工作流。 GPU Operator 的早期版本要求用户在安装新版本之前卸载以前的版本，这意味着在升级过程中群集中没有可用的 GPU 。

从 1.8 开始，升级版本不会中断工作流程。该机制以滚动方式一次更新一个节点，因此其他节点可以继续使用。只有在安装完成且上一个节点重新联机时，下一个节点才会更新。用户可以确信，在更新 GPU 操作员时，他们的工作流程将得到更好的管理。

现在支持 NVS 交换机系统

对于 1.8 ， GPU 操作员自动在 NVIDIA 上部署初始化结构所需的软件 NVSwitch 系统，包括 NVIDIA HGX A100 和 DGX A100 。一旦初始化，所有 GPU 都可以在全 NVLink 带宽下相互通信，以创建一个可扩展的终端计算平台。

GPU 操作员还经过认证，可在 DGX A100 系统上与 Red Hat OpenShift 4 一起使用。

支持收集 GPU 操作员状态指标

在 1.8 版本中， GPU 运营商现在报告各种指标，供用户监控 GPU 运营商和 GPU – 运营商资源命名空间下的运营商部署资源的总体运行状况。 SRE 团队和集群管理员现在可以配置必要的 Prometheus 用于收集指标以及在某些故障情况下触发警报的资源。

对于 OpenShift 容器平台，这些资源将在此版本中自动创建。监控解决方案，如 Grafana 可用于构建仪表板和可视化 GPU 操作员和节点组件的操作状态。

更好地结合： NVIDIA 加速计算和联网

最近， NVIDIA 发布了 NVIDIA Network Operator 。模拟 NVIDIA GPU Operator ，网络运营商通过自动化网络部署和配置的各个方面简化了 Kubernetes 的扩展网络设计，否则需要手动操作。它在具有 NVIDIA 网络接口的任何群集节点上加载所需的驱动程序、库、设备插件和 CNI 。

当它们一起部署时， NVIDIA GPU 和网络运营商启用 GPU 直接 RDMA ，即不同节点上 NVIDIA GPU 之间的快速数据路径。这是数据密集型工作负载（如 AI 多节点培训）的关键技术促成因素。

了解有关最新版本的更多信息 NVIDIA 网络运营商发布。

增加了对 Red Hat OpenShift 的支持

我们继续支持红帽 OpenShift 。

GPU Operator 1.8 和 1.7 支持 Red Hat OpenShift 4.8 和 4 . 7

GPU 运算符 1.6 支持 Red Hat OpenShift 4. 7

GPU 运算符 1. 5 支持 Red Hat OpenShift 4 . 6

GPU Operator 1. 4 和1 .3 分别支持 Red Hat OpenShift 4.5 和 4.4

概括

以下资源可用于使用 NVIDIA GPU 运算符：

GPU 操作员 1.8 发行说明

入门指南