0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用GPU Operator 1.8简化GPU对部署场景的管理

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-11 16:06 次阅读

在本文中,我们将介绍 GPU Operator release 1.8 中添加的新功能,进一步简化 GPU 对各种部署场景的管理,包括:

增加了对 GPU 操作员升级的支持

支持 NVX 交换机系统,包括 DGX A100 和 NVIDIA HGX A100 服务器

支持收集 GPU 操作员状态指标

GPU 运营商和网络运营商改进多节点培训

支持 Red Hat OpenShift 4.8

NVIDIA 软件生命周期管理

GPU Operator 的 1.8 版为组织提供了更新机制,以更新其 GPU Operator 版本,而不会中断运行 GPU Operator 的群集的工作流。 GPU Operator 的早期版本要求用户在安装新版本之前卸载以前的版本,这意味着在升级过程中群集中没有可用的 GPU 。

从 1.8 开始,升级版本不会中断工作流程。该机制以滚动方式一次更新一个节点,因此其他节点可以继续使用。只有在安装完成且上一个节点重新联机时,下一个节点才会更新。用户可以确信,在更新 GPU 操作员时,他们的工作流程将得到更好的管理。

现在支持 NVS 交换机系统

对于 1.8 , GPU 操作员自动在 NVIDIA 上部署初始化结构所需的软件 NVSwitch 系统,包括 NVIDIA HGX A100 和 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建一个可扩展的终端计算平台。

GPU 操作员还经过认证,可在 DGX A100 系统上与 Red Hat OpenShift 4 一起使用。

支持收集 GPU 操作员状态指标

在 1.8 版本中, GPU 运营商现在报告各种指标,供用户监控 GPU 运营商和 GPU – 运营商资源命名空间下的运营商部署资源的总体运行状况。 SRE 团队和集群管理员现在可以配置必要的 Prometheus 用于收集指标以及在某些故障情况下触发警报的资源。

对于 OpenShift 容器平台,这些资源将在此版本中自动创建。监控解决方案,如 Grafana 可用于构建仪表板和可视化 GPU 操作员和节点组件的操作状态。

更好地结合: NVIDIA 加速计算和联网

最近, NVIDIA 发布了 NVIDIA Network Operator 。 模拟 NVIDIA GPU Operator ,网络运营商通过自动化网络部署和配置的各个方面简化了 Kubernetes 的扩展网络设计,否则需要手动操作。它在具有 NVIDIA 网络接口的任何群集节点上加载所需的驱动程序、库、设备插件和 CNI 。

当它们一起部署时, NVIDIA GPU 和网络运营商启用 GPU 直接 RDMA ,即不同节点上 NVIDIA GPU 之间的快速数据路径。这是数据密集型工作负载(如 AI 多节点培训)的关键技术促成因素。

了解有关最新版本的更多信息 NVIDIA 网络运营商发布 。

增加了对 Red Hat OpenShift 的支持

我们继续支持红帽 OpenShift 。

GPU Operator 1.8 和 1.7 支持 Red Hat OpenShift 4.8 和 4 . 7

GPU 运算符 1.6 支持 Red Hat OpenShift 4. 7

GPU 运算符 1. 5 支持 Red Hat OpenShift 4 . 6

GPU Operator 1. 4 和1 .3 分别支持 Red Hat OpenShift 4.5 和 4.4

概括

以下资源可用于使用 NVIDIA GPU 运算符:

GPU 操作员 1.8 发行说明

入门指南

GPU NGC 上的操作员舵图

GitHub 上的 GPU 运算符

NVIDIA GPU 运算符是许多应用程序的关键组件 边缘计算 解决。

关于作者

Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

Erik Bohnhorst 是 NVIDIA 的高级产品经理,专注于云本地技术,为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ,以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队,直到他加入了 EGX 团队。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4991

    浏览量

    103142
  • 数据中心
    +关注

    关注

    16

    文章

    4790

    浏览量

    72162
收藏 人收藏

    评论

    相关推荐

    Triton编译器与GPU编程的结合应用

    优化,以及生成高效的并行执行计划。 GPU编程的挑战 GPU编程面临的主要挑战包括: 编程复杂性 :GPU编程需要对硬件架构有深入的理解,包括线程、块和网格的概念。 内存管理
    的头像 发表于 12-25 09:13 231次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    问题,但会降低旧GPU硬件性能,可通过NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU计算需要启用,可通过命令行工具nvidia
    发表于 12-16 14:25

    GPU在虚拟现实中的表现 低功耗GPU的优缺点

    GPU在虚拟现实中的表现 虚拟现实(VR)技术的发展离不开高性能的图形处理单元(GPU)。GPU在VR中扮演着至关重要的角色,它负责渲染复杂的三维场景,提供流畅的图像输出,以及处理用户
    的头像 发表于 11-19 10:58 351次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

    本篇阅读学习第七、八章,了解GPU架构演进及CPGPU存储体系与线程管理 █从图形到计算的GPU架构演进 GPU图像计算发展 ●从三角形开始的几何阶段 在现代图形渲染中,三角形是最常用
    发表于 11-03 12:55

    谈谈GPU的使用寿命

    上文结合论文谈一谈,三年寿命的GPU [上]说到,电路腐蚀导致橡树岭实验室的GPU寿命只有3年,更换了11,000块GPU
    的头像 发表于 11-01 10:27 282次阅读
    谈谈<b class='flag-5'>GPU</b>的使用寿命

    【一文看懂】大白话解释“GPUGPU算力”

    随着大模型的兴起,“GPU算力”这个词正频繁出现在人工智能、游戏、图形设计等工作场景中,什么是GPU,它与CPU的区别是什么?以及到底什么是GPU算力?本篇文章主要从以下5个角度,让您
    的头像 发表于 10-29 08:05 702次阅读
    【一文看懂】大白话解释“<b class='flag-5'>GPU</b>与<b class='flag-5'>GPU</b>算力”

    常见GPU问题及解决方法

    GPU(图形处理单元)是计算机硬件的重要组成部分,负责处理图形和视频渲染任务。随着技术的发展,GPU在深度学习、游戏、视频编辑等领域扮演着越来越重要的角色。然而,在使用GPU的过程中,我们可能会遇到
    的头像 发表于 10-27 14:12 1461次阅读

    GPU超频设置技巧

    超频GPU(图形处理单元)可以提高显卡的性能,但同时也可能增加热量和功耗,甚至可能缩短硬件的寿命。在进行GPU超频之前,确保你了解可能的风险,并且愿意承担这些风险。以下是一些基本的GPU超频设置
    的头像 发表于 10-27 11:09 487次阅读

    如何选择适合的GPU

    。因此,选择一个适合自己需求的GPU是一个需要综合考虑多个因素的过程。 1. 确定用途 首先,你需要明确你的GPU将用于什么目的。不同的应用场景GPU的需求差异很大。例如,如果你主要
    的头像 发表于 10-27 11:07 325次阅读

    GPU算力租用平台是什么

    GPU算力租用平台是一种基于云计算的服务模式,它允许用户通过互联网按需租用高性能GPU资源,而无需自行购买、部署和维护这些硬件。
    的头像 发表于 10-16 10:15 238次阅读

    暴涨预警!NVIDIA GPU供应大跳水

    gpu
    jf_02331860
    发布于 :2024年07月26日 09:41:42

    CPU渲染和GPU渲染优劣分析

    使用计算机进行渲染时,有两种流行的系统:基于中央处理单元(CPU)或基于图形处理单元(GPU)。CPU渲染利用计算机的CPU来执行场景并将其渲染到接近完美。这也是执行渲染的更传统方式。然而,随着
    的头像 发表于 05-23 08:27 604次阅读
    CPU渲染和<b class='flag-5'>GPU</b>渲染优劣分析

    NVLink技术之GPUGPU的通信

    在多 GPU 系统内部,GPU 间通信的带宽通常在数百GB/s以上,PCIe总线的数据传输速率容易成为瓶颈,且PCIe链路接口的串并转换会产生较大延时,影响GPU并行计算的效率和性能。
    发表于 03-27 09:40 3968次阅读
    NVLink技术之<b class='flag-5'>GPU</b>与<b class='flag-5'>GPU</b>的通信

    FPGA在深度学习应用中或将取代GPU

    通常是在一个确定的环境中进行的,运行神经网络的系统会在部署中遇到各种限制——这可能会对 GPU 的实际使用造成压力。” GPU 需要大量的电力,会产生大量的热量,并需要使用风扇冷却。当你在台式工作站
    发表于 03-21 15:19

    gpu是什么和cpu的区别

    GPU和CPU是两种常见的计算机处理器,它们在结构和功能上有很大的区别。在这篇文章中,我们将探讨GPU和CPU的区别,并详细介绍它们的原理、应用领域和性能特点。 一、概述 1.1 GPU(图形处理器
    的头像 发表于 02-20 11:24 1.9w次阅读