0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

企业可在Kubernetes上轻松扩展NVIDIA GPU

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-11 14:56 次阅读

NVIDIA GPU 运营商允许企业在 Kubernetes 上轻松扩展 NVIDIA GPU 。

通过使用 Kubernetes 简化 GPU 的部署和管理, GPU 运营商使基础设施团队能够在几分钟内自动无误地扩展 GPU 应用程序。

GPU Operator 1.9 现已推出,其中包括几个关键功能,以及其他更新,使用户可以更快地开始使用并保持不间断服务。

GPU 操作员 1.9 包括:

支持使用 DGX 操作系统的 NVIDIA DGX A100 系统

简化的安装过程

使用 DGX 操作系统支持 DGX A100

对于 1.9 , GPU 操作员自动在 NVIDIA NVSwitch 系统上部署初始化结构所需的软件,包括与 DGX OS 一起使用时的 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建端到端可扩展计算平台。

DGX A100 配备了世界上最先进的加速器,使企业能够将培训、推理和分析整合到统一、易于部署的 AI 基础设施中。现在,有了 GPU 运营商的支持,企业可以将其应用程序从培训扩展到与世界上最先进的系统相匹配。

简化的安装过程

对于 GPU 运营商的早期版本,使用 GPU 运营商和 OpenShift 的组织需要从 Red Hat 申请额外的权利,以便成功使用 GPU 运营商。由于授权密钥过期,用户需要重新应用这些密钥,以确保其工作流程不会中断。

GPU Operator 1.9 现在支持 OpenShift 的免授权驱动程序容器。这是通过利用 RedHat 提供的 Driver-Toolkit 映像以及为构建 NVIDIA 内核模块而预先安装的必要内核包来实现的。用户不再需要确保运行 GPU 运算符时始终应用具有 RHEL 订阅的有效证书。更重要的是,对于断开连接的集群,它消除了对私有包存储库的依赖。

版本 1.9 还包括对带有 MIG Manager 的预装驱动程序的支持,对预装 MOFED 使用 GPUDirect RDMA 的支持,对容器运行时的自动检测,以及对 NOUVEAU 的自动禁用–所有这些都旨在让用户更容易开始并继续使用 GPU 加速的 Kubernetes 。

此外, GPU Operator 1.9 会自动检测工作节点上安装的容器运行时。无需在安装时指定容器运行时。

GPU 操作员 1.9 :

helm install --wait --generate-name nvidia/gpu-operator

GPU 操作员 1.8 及更早版本:

helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd

GPU 操作员要求禁用 Nouveau 。在以前的 GPU 操作员版本中, K8s 管理员必须按照文档 禁用 Nouveau 。 GPU 操作员 1.9 会自动检测 Nouveau 是否已启用并为您禁用。

GPU 操作员资源

以下资源可用于使用 NVIDIA GPU 运营商:

GPU 操作员 1.9 发行说明

入门指南

GPU NGC 上的操作员舵图

GitHub 上的 GPU 运算符

关于作者

Erik Bohnhorst 是 NVIDIA 的高级产品经理,专注于云本地技术,为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ,以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队,直到他加入了 EGX 团队。

Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5021

    浏览量

    103250
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4753

    浏览量

    129057
收藏 人收藏

    评论

    相关推荐

    解锁新应用:探索GPU扩展是如何提升渲染农场的工作效率

    联瑞GPU扩展方案在渲染农场的应用,是在原有计算机设备的基础增加GPU的数量,不用额外购买GPU服务器,有效的帮助
    的头像 发表于 01-09 17:13 12次阅读
    解锁新应用:探索<b class='flag-5'>GPU</b><b class='flag-5'>扩展</b>是如何提升渲染农场的工作效率

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。
    的头像 发表于 01-06 10:45 116次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    。 2. 操作系统支持:CST Studio Suite在不同操作系统持续测试,可在支持的操作系统使用GPU计算,具体参考相关文档。 3. 许可证:
    发表于 12-16 14:25

    NVIDIA通过加速AWS的机器人仿真推进物理AI的发展

    NVIDIA Isaac Sim 现在可在 Amazon EC2 G6e 实例中的 NVIDIA GPU 云实例使用,将机器人仿真的
    的头像 发表于 12-09 11:50 332次阅读

    AMD与NVIDIA GPU优缺点

    NVIDIA的RTX系列显卡以其强大的光线追踪和DLSS技术领先于市场。例如,NVIDIA的RTX 3080在4K分辨率下提供了卓越的游戏体验,而AMD的Radeon RX 6800 XT虽然在某些游戏中表现接近,但在光线追踪技术
    的头像 发表于 10-27 11:15 808次阅读

    NVIDIA NIM助力企业高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM,将允许用户通过 API 调用来大规模地部署大语言模型。
    的头像 发表于 10-10 09:49 404次阅读

    暴涨预警!NVIDIA GPU供应大跳水

    gpu
    jf_02331860
    发布于 :2024年07月26日 09:41:42

    NVIDIA全面转向开源GPU内核模块

    借助 R515 驱动程序,NVIDIA 于 2022 年 5 月发布了一套开源的 Linux GPU 内核模块,该模块采用双许可证,即 GPL 和 MIT 许可。初始版本主要面向数据中心计算 GPU,而 GeForce 和工作站
    的头像 发表于 07-25 09:56 456次阅读
    <b class='flag-5'>NVIDIA</b>全面转向开源<b class='flag-5'>GPU</b>内核模块

    英国公司实现英伟达CUDA软件在AMD GPU的无缝运行

    7月18日最新资讯,英国创新科技企业Spectral Compute震撼发布了其革命性GPGPU编程工具包——“SCALE”,该工具包实现了英伟达CUDA软件在AMD GPU的无缝迁移与运行,标志着在
    的头像 发表于 07-18 14:40 675次阅读

    如何使用Kubeadm命令在PetaExpress Ubuntu系统安装Kubernetes集群

    Kubernetes,通常缩写为K8s,是一个开源的容器编排平台,旨在自动化容器化应用的部署、扩展和管理。有了Kubernetes,您可以轻松地部署、更新和
    的头像 发表于 07-15 13:31 880次阅读
    如何使用Kubeadm命令在PetaExpress Ubuntu系统<b class='flag-5'>上</b>安装<b class='flag-5'>Kubernetes</b>集群

    NVIDIA推出两款基于NVIDIA Ampere架构的全新台式机GPU

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-26 11:25 638次阅读

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 运行。
    的头像 发表于 04-23 09:52 476次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于
    的头像 发表于 04-20 09:39 758次阅读

    Google Gemma优化后可在NVIDIA GPU运行

    2024 年 2 月 21 日,NVIDIA 携手 Google 在所有 NVIDIA AI 平台上发布面向 Gemma 的优化功能,Gemma 是 Google 最先进的新型轻量级 2B 和 7B 开放语言模型,可在任何地方运
    的头像 发表于 02-25 11:01 477次阅读

    巨头豪购35万块NVIDIA最强GPU H100

    NVIDIA AI GPU无疑是当下的硬通货,从科技巨头到小型企业都在抢。
    的头像 发表于 01-29 09:58 1122次阅读
    巨头豪购35万块<b class='flag-5'>NVIDIA</b>最强<b class='flag-5'>GPU</b> H100