0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

企业可在Kubernetes上轻松扩展NVIDIA GPU

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-11 14:56 次阅读

NVIDIA GPU 运营商允许企业在 Kubernetes 上轻松扩展 NVIDIA GPU 。

通过使用 Kubernetes 简化 GPU 的部署和管理, GPU 运营商使基础设施团队能够在几分钟内自动无误地扩展 GPU 应用程序。

GPU Operator 1.9 现已推出,其中包括几个关键功能,以及其他更新,使用户可以更快地开始使用并保持不间断服务。

GPU 操作员 1.9 包括:

支持使用 DGX 操作系统的 NVIDIA DGX A100 系统

简化的安装过程

使用 DGX 操作系统支持 DGX A100

对于 1.9 , GPU 操作员自动在 NVIDIA NVSwitch 系统上部署初始化结构所需的软件,包括与 DGX OS 一起使用时的 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建端到端可扩展计算平台。

DGX A100 配备了世界上最先进的加速器,使企业能够将培训、推理和分析整合到统一、易于部署的 AI 基础设施中。现在,有了 GPU 运营商的支持,企业可以将其应用程序从培训扩展到与世界上最先进的系统相匹配。

简化的安装过程

对于 GPU 运营商的早期版本,使用 GPU 运营商和 OpenShift 的组织需要从 Red Hat 申请额外的权利,以便成功使用 GPU 运营商。由于授权密钥过期,用户需要重新应用这些密钥,以确保其工作流程不会中断。

GPU Operator 1.9 现在支持 OpenShift 的免授权驱动程序容器。这是通过利用 RedHat 提供的 Driver-Toolkit 映像以及为构建 NVIDIA 内核模块而预先安装的必要内核包来实现的。用户不再需要确保运行 GPU 运算符时始终应用具有 RHEL 订阅的有效证书。更重要的是,对于断开连接的集群,它消除了对私有包存储库的依赖。

版本 1.9 还包括对带有 MIG Manager 的预装驱动程序的支持,对预装 MOFED 使用 GPUDirect RDMA 的支持,对容器运行时的自动检测,以及对 NOUVEAU 的自动禁用–所有这些都旨在让用户更容易开始并继续使用 GPU 加速的 Kubernetes 。

此外, GPU Operator 1.9 会自动检测工作节点上安装的容器运行时。无需在安装时指定容器运行时。

GPU 操作员 1.9 :

helm install --wait --generate-name nvidia/gpu-operator

GPU 操作员 1.8 及更早版本:

helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd

GPU 操作员要求禁用 Nouveau 。在以前的 GPU 操作员版本中, K8s 管理员必须按照文档 禁用 Nouveau 。 GPU 操作员 1.9 会自动检测 Nouveau 是否已启用并为您禁用。

GPU 操作员资源

以下资源可用于使用 NVIDIA GPU 运营商:

GPU 操作员 1.9 发行说明

入门指南

GPU NGC 上的操作员舵图

GitHub 上的 GPU 运算符

关于作者

Erik Bohnhorst 是 NVIDIA 的高级产品经理,专注于云本地技术,为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ,以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队,直到他加入了 EGX 团队。

Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4862

    浏览量

    102739
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4684

    浏览量

    128630
收藏 人收藏

    评论

    相关推荐

    AMD与NVIDIA GPU优缺点

    NVIDIA的RTX系列显卡以其强大的光线追踪和DLSS技术领先于市场。例如,NVIDIA的RTX 3080在4K分辨率下提供了卓越的游戏体验,而AMD的Radeon RX 6800 XT虽然在某些游戏中表现接近,但在光线追踪技术
    的头像 发表于 10-27 11:15 409次阅读

    NVIDIA NIM助力企业高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM,将允许用户通过 API 调用来大规模地部署大语言模型。
    的头像 发表于 10-10 09:49 352次阅读

    暴涨预警!NVIDIA GPU供应大跳水

    gpu
    jf_02331860
    发布于 :2024年07月26日 09:41:42

    NVIDIA全面转向开源GPU内核模块

    借助 R515 驱动程序,NVIDIA 于 2022 年 5 月发布了一套开源的 Linux GPU 内核模块,该模块采用双许可证,即 GPL 和 MIT 许可。初始版本主要面向数据中心计算 GPU,而 GeForce 和工作站
    的头像 发表于 07-25 09:56 351次阅读
    <b class='flag-5'>NVIDIA</b>全面转向开源<b class='flag-5'>GPU</b>内核模块

    英国公司实现英伟达CUDA软件在AMD GPU的无缝运行

    7月18日最新资讯,英国创新科技企业Spectral Compute震撼发布了其革命性GPGPU编程工具包——“SCALE”,该工具包实现了英伟达CUDA软件在AMD GPU的无缝迁移与运行,标志着在
    的头像 发表于 07-18 14:40 585次阅读

    如何使用Kubeadm命令在PetaExpress Ubuntu系统安装Kubernetes集群

    Kubernetes,通常缩写为K8s,是一个开源的容器编排平台,旨在自动化容器化应用的部署、扩展和管理。有了Kubernetes,您可以轻松地部署、更新和
    的头像 发表于 07-15 13:31 802次阅读
    如何使用Kubeadm命令在PetaExpress Ubuntu系统<b class='flag-5'>上</b>安装<b class='flag-5'>Kubernetes</b>集群

    Omniverse教程(12):NVIDIA Omniverse USD Presenter的基础应用

    如前所述,NVIDIA Omniverse™ 是一个参考开发平台,通过模块化的开发框架能够轻松扩展和自定义。
    的头像 发表于 05-20 10:09 614次阅读
    Omniverse教程(12):<b class='flag-5'>NVIDIA</b> Omniverse USD Presenter的基础应用

    NVIDIA推出两款基于NVIDIA Ampere架构的全新台式机GPU

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-26 11:25 567次阅读

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 运行。
    的头像 发表于 04-23 09:52 414次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于
    的头像 发表于 04-20 09:39 614次阅读

    Google Gemma优化后可在NVIDIA GPU运行

    2024 年 2 月 21 日,NVIDIA 携手 Google 在所有 NVIDIA AI 平台上发布面向 Gemma 的优化功能,Gemma 是 Google 最先进的新型轻量级 2B 和 7B 开放语言模型,可在任何地方运
    的头像 发表于 02-25 11:01 428次阅读

    巨头豪购35万块NVIDIA最强GPU H100

    NVIDIA AI GPU无疑是当下的硬通货,从科技巨头到小型企业都在抢。
    的头像 发表于 01-29 09:58 1005次阅读
    巨头豪购35万块<b class='flag-5'>NVIDIA</b>最强<b class='flag-5'>GPU</b> H100

    NVIDIA GPU的核心架构及架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此
    发表于 11-21 09:40 1433次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架构及架构演进

    NVIDIA 在 Microsoft Azure 推出面向全球企业和初创公司的生成式 AI Foundry 服务

    AI Enterprise 软件进行部署 NVIDIA 于今日推出一项 AI foundry 服务,助力企业和初创公司在 Microsoft Azure 开发、调优和部署其自定义生成式 AI
    的头像 发表于 11-16 21:15 481次阅读

    NVIDIA 在 Microsoft Azure 推出面向全球企业和初创公司的 生成式 AI Foundry 服务

    AI Enterprise 软件进行部署       Microsoft Ignite — 2023 年 11 月 15 日 — NVIDIA 于今日推出一项 AI foundry 服务,助力企业
    发表于 11-16 14:13 314次阅读
    <b class='flag-5'>NVIDIA</b> 在 Microsoft Azure <b class='flag-5'>上</b>推出面向全球<b class='flag-5'>企业</b>和初创公司的 生成式 AI Foundry 服务