0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

分割NVIDIA A30 GPU并征服多个工作负载

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-10-11 10:07 次阅读

多实例 GPU ( MIG )是 NVIDIA H100 , A100 和 A30 张量核 GPU ,因为它可以将 GPU 划分为多个实例。每个实例都有自己的计算核心、高带宽内存、二级缓存、 DRAM 带宽和解码器等媒体引擎。

这使得多个工作负载或多个用户能够在一个 GPU 上同时运行工作负载,以最大化 CPU 利用率,同时保证服务质量( QoS )。单个 A30 可以被划分为最多四个 MIG 实例,以并行运行四个应用程序。

这篇文章将指导您如何在 A30 上使用 MIG ,从划分 MIG 实例到同时在 MIG 实例上运行深度学习应用程序。

A30 MIG 剖面图

默认情况下, A30 上禁用 MIG 模式。在分区 GPU 上运行任何 MIG 工作负载之前,必须启用 CUDA 模式,然后对 A30 进行分区。要划分 A30 ,请创建 GPU 实例,然后创建相应的计算实例。

GPU 实例是 GPU 切片和 CPU 引擎( DMA 、 NVDEC 等)的组合。 GPU 切片是 GPU 的最小部分,它组合了单个 CPU 内存切片和单个流式多处理器( SM )切片。

在 GPU 实例中,GPU 内存片和其他 CPU 引擎共享,但 SM 片可以进一步细分为计算实例。 GPU 实例提供内存 QoS 。

您可以将具有 24 GB 内存的 A30 配置为:

一个 GPU 实例,具有 24 GB 内存

两个 GPU 实例,每个实例具有 12 GB 内存

三个 GPU 实例,一个具有 12GB 内存,两个具有 6GB 内存

四个 GPU 实例,每个实例具有 6 GB 内存

根据 GPU 实例的大小,可以将 GPU 实例进一步划分为一个或多个计算实例。计算实例包含父 GPU 实例的 SM 切片的子集。 GPU 实例中的计算实例共享内存和其他媒体引擎。但是,每个计算实例都有专用的 SM 切片。

例如,您可以将 A30 分成四个 GPU 实例,每个实例有一个计算实例,或者将 A30 分为两个 GPU 示例,每个实例都有两个计算实例。虽然这两个分区导致四个计算实例可以同时运行四个应用程序,但不同之处在于,内存和其他引擎在 GPU 实例级别隔离,而不是在计算实例级别隔离。因此,如果有多个用户共享 A30 ,最好为不同的用户创建不同的 GPU 实例以保证 QoS 。

表 1 概述了 A30 上支持的 GPU 配置文件,包括显示 MIG 实例数量和每个 CPU 实例中 GPU 切片数量的五种可能 MIG 配置。它还显示了硬件解码器如何在 GPU 实例之间划分。

表 1.A30 支持的 MIG 配置文件

GPC (图形处理集群)或切片表示 SMs 、缓存和内存的分组。 GPC 直接映射到 GPU 实例。 OFA (光流加速器)是基于 A100 和 A30 的 GA100 架构上的引擎。对等( P2P )已禁用。

表 2 提供了 A30 上受支持的 MIG 实例的配置文件名,以及内存、 SMs 和二级缓存如何在 MIG 配置文件之间划分。 MIG 的配置文件名可以解释为其 GPU 实例的 SM 切片计数及其总内存大小( GB )。例如:

MIG 2g 。 12gb 意味着这个 MIG 实例有两个 SM 片和 12gb 内存

MIG 4g 。 24gb 意味着这个 MIG 实例有四个 SM 片和 24gb 内存

通过查看 2g 中 2 或 4 的 SM 切片计数。 12gb 或 4g 。 24gb ,您知道可以将 GPU 实例划分为两个或四个计算实例。

MIG 1g 。 6gb + me : me 是指在创建 1g 时访问视频和 JPEG 解码器的媒体扩展。 6gb 配置文件。

MIG 实例可以动态创建和销毁​。 创建和销毁不会影响其他实例,因此它为您提供了销毁未使用的实例并创建不同配置的灵活性。

管理 MIG 实例

使用mig-parted分区编辑器( MIG )自动创建 GPU 实例和计算实例 工具 或者按照中的nvidia-smi mig命令执行 开始使用 MIG 。

强烈建议使用mig-parted工具,因为它使您能够轻松更改和应用 MIG 分区的配置,而无需发出一系列nvidia-smi mig命令。在使用该工具之前,您必须按照 说明 安装 mig-parted 工具或从标记的 版本 中获取预构建的二进制文件。

下面是如何使用该工具将 A30 划分为 1g 的四个 MIG 实例。 6gb 配置文件。首先,创建一个示例配置文件,然后可以与该工具一起使用。这个示例文件不仅包括前面讨论的分区,还包括一个自定义配置custom-config,将 GPU 0 划分为四个 1g 。 6gb 实例和 GPU 1 到两个 2g 。 12gb 实例。

$ cat << EOF > a30-example-configs.yaml
version: v1
mig-configs:
  all-disabled:
    - devices: all
      mig-enabled: false

  all-enabled:
    - devices: all
      mig-enabled: true
      mig-devices: {}

  all-1g.6gb:
    - devices: all
      mig-enabled: true
      mig-devices:
        "1g.6gb": 4

  all-2g.12gb:
    - devices: all
      mig-enabled: true
      mig-devices:
        "2g.12gb": 2

  all-balanced:
    - devices: all
      mig-enabled: true
      mig-devices:
        "1g.6gb": 2
        "2g.12gb": 1

  custom-config:
    - devices: [0]
      mig-enabled: true
      mig-devices:
        "1g.6gb": 4
    - devices: [1]
      mig-enabled: true
      mig-devices:
        "2g.12gb": 2
EOF

接下来,应用all-1g.6gb配置将 A30 划分为四个 MIG 实例。如果 MIG 模式尚未启用,则mig-parted启用GPU 模式,然后创建分区:

通过指定 MIG 几何图形,然后使用mig-parted适当配置 GPU ,您可以轻松选择其他配置或创建自己的自定义配置。

创建 MIG 实例后,现在您可以运行一些工作负载了!

深度学习用例

您可以在 MIG 实例上同时运行多个深度学习应用程序。图 1 显示了四个 MIG 实例(四个 GPU 实例,每个实例都有一个计算实例),每个实例运行一个深度学习推理模型,以最大限度地利用单个 A30 同时执行四个不同的任务。

例如,您可以 ResNet50 (图像分类)在实例 1 上, EfficientDet (对象检测)在实例二上, BERT (语言模型)在实例三上,以及 FastPitch (语音合成)实例四。该示例还可以表示四个不同的用户在确保 QoS 的情况下同时共享 A30 。

性能分析

为了分析在启用和不启用 MIG 的情况下 A30 的性能改进,我们对 BERT PyTorch 模型 SQuAD (问答)在 A30 (带和不带 MIG )和 T4 上的三种不同场景中。

A30 四个 MIG 实例,每个实例有一个模型,总共四个模型同时微调

A30 MIG 模式被禁用,四个模型在四个容器中同时微调

A30 MIG 模式被禁用,四种型号串联微调

T4 有四个串联微调模型

要运行此示例,请使用 NVIDIA /深度学习示例 github 回购。

根据表 3 中的实验结果,具有四个 MIG 实例的 A30 显示了总共四个模型的最高吞吐量和最短微调时间。

使用 MIG 的 A30 总微调时间的加速:

1.39 倍,与 A30 相比,四种型号同时使用 MIG

1.27 倍,与 A30 相比,在四个串联型号上无 MIG

3.18 倍于 T4

A30 米格的吞吐量

1.39 倍,与 A30 相比,四种型号同时使用 MIG

1.27 倍,与 A30 相比,在四个串联型号上无 MIG

3.18 倍于 T4

在没有 MIG 的情况下,同时对具有四个模型的 A30 进行微调也可以实现高 GPU 利用率,但不同之处在于,没有 MIG 提供的硬件隔离。与使用 MIG 相比,它会产生上下文切换的开销,并导致性能降低。

下一步是什么?

A30 MIG 模式基于最新的 NVIDIA Ampere 架构,可加速各种工作负载,如大规模人工智能推理,使您能够充分利用单个 GPU ,同时以服务质量为多个用户提供服务。

关于作者

Maggie Zhang 是 NVIDIA 的深度学习工程师,致力于深度学习框架和应用程序。她在澳大利亚新南威尔士大学获得计算机科学和工程博士学位,在那里她从事 GPU / CPU 异构计算和编译器优化。

Davide Onofrio 是 NVIDIA 的高级深度学习软件技术营销工程师。他在 NVIDIA 专注于深度学习技术开发人员关注内容的开发和演示。戴维德在生物特征识别、虚拟现实和汽车行业担任计算机视觉机器学习工程师已有多年经验。他的教育背景包括米兰理工学院的信号处理博士学位。Ivan Belyavtsev 是一名图形开发工程师,主要致力于开发人员支持和优化基于虚拟引擎的游戏。他还是 Innopolis 大学游戏开发领域的计算机图形学导师。

Pramod Ramarao 是 NVIDIA 加速计算的产品经理。他领导 CUDA 平台和数据中心软件的产品管理,包括容器技术。

Joe DeLaere 是负责数据中心加速计算的高级产品营销经理,专注于 GPU 和 AI 用例。此前,他曾在 Altera / Intel 和 Xilinx / AMD 担任产品管理和营销职务,专注于基于 FPGA 的数据中心加速解决方案。乔拥有圣何塞州立大学电气工程学士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4978

    浏览量

    102988
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4729

    浏览量

    128890
  • CUDA
    +关注

    关注

    0

    文章

    121

    浏览量

    13620
收藏 人收藏

    评论

    相关推荐

    NVIDIA火热招聘GPU高性能计算架构师

    这边是NVIDIA HR Allen, 我们目前在上海招聘GPU高性能计算架构师(功能验证)的岗位,有意向的朋友欢迎发送简历到 allelin@nvidia
    发表于 09-01 17:22

    NVIDIA-SMI:监控GPU的绝佳起点

    nvidia-smi可执行文件位于虚拟机管理程序上。如果在同一部署中您选择在GPU上使用作为传递,那么GPU正在寻找访客上的NVIDIA驱动程序,因此
    发表于 09-04 15:18

    NVIDIA Vmware vSphere-6.5升级无法启动GPU

    我们已经将esxi主机升级到6.5并将VIB升级到从Nvidia网站下载的受支持的NVIDIA-kepler-vSphere-6.5-367.64-369.71,但基本机器将无法启动GPU(PCI
    发表于 09-20 11:41

    购买哪款Nvidia GPU

    Nvidia的NV 24核,224 GB RAM,1.4 GB临时存储。这是相当昂贵的(每月费用超过3,400美元),除非我承诺1年或3年的承诺,略有减少。我认为如果我购买GPU服务器,从长远来看可能会更便
    发表于 09-26 15:30

    意大利诗丽雅CLASSE A30开箱测评

    体验推向一个更高层次的功放——诗丽雅CLASSE A30。笔者也在一番体验下,第一时间把它加入了我的改装配置之中。下面给大家带来这台功放的全方位开箱测评。 拆开外包装,最直观地映入眼帘的就是他的外观设计
    发表于 09-26 12:06

    NVIDIA网格GPU-PSOD的支持结构

    they blamed it on the nvidia gpu but they dont know if its a driver or hardware issue.Can a
    发表于 10-10 16:15

    Nvidia GPU风扇和电源显示ERR怎么解决

    问题最近在Ubuntu上使用Nvidia GPU训练模型的时候,如果机器锁屏一段时间再打开的时候鼠标非常卡顿,或者说显示界面非常卡顿,使用nvidia-smi查看发现,训练模型的GPU
    发表于 12-30 06:44

    在Ubuntu上使用Nvidia GPU训练模型

    问题最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:解决方案自动风扇控制在
    发表于 01-03 08:24

    A30 USB音频介面使用说明书

    产品简介 A30是一台方便携带USB音频接口,能将任何模拟声音讯号转成数字档案的声音数码模拟转换器。另外,在连接计算器和无声卡的MIDI控制器时,A30可以当作声卡来连接
    发表于 12-29 00:35 22次下载

    艾迈斯推出具有卓越噪声性能的A30新型高性能模拟技术

    全球领先的高性能传感器和模拟IC供应商艾迈斯半导体今天宣布推出高性能模拟低噪声CMOS制程工艺(“A30”)。这种新型的A30制程工艺具有卓越的噪声性能,通过光刻工艺使体积缩小至艾迈斯半导体高级0.35µm高压CMOS制程工艺
    发表于 12-06 16:11 948次阅读

    台电发布极光DDR4 A30内存,自带散热装甲

    A30的主要亮点一是高频,二是自主研发的散热装甲(御风者)。据悉,极光A30 DDR4内存分为4GB/8GB/16GB可选,频率达到2400MHz,比常规普条(2133Mhz)更高。
    发表于 11-09 14:07 1370次阅读

    台电极光a30内存评测 DDR4内存入门首选

    近期,台电将会发布一款名为极光A30的DDR4入门内存。今天就让大家来先睹为快吧。
    的头像 发表于 08-28 10:47 8626次阅读

    NVIDIA安培大核心GPU已集合多个国内厂商技术

    NVIDIA今天在GTC大会上宣布,多家中国顶级云服务提供商、系统制造商都部署了NVIDIA A100 Tensor Core GPUNVIDIA
    的头像 发表于 12-16 10:21 3171次阅读

    最新版本CUDA 11.4功能及其特性

    NVIDIA A30 GPU 启用新的 MIG 配置,使每个 MIG 片的内存量增加一倍。这将为 A30 GPU 上的各种
    的头像 发表于 04-02 16:59 3612次阅读

    使用NVIDIA A30 GPU加速AI推理工作负载

      A30 旨在通过提供四个视频解码器、一个 JPEG 解码器和一个光流解码器来加速智能视频分析( IVA )。
    的头像 发表于 05-16 09:25 3170次阅读
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>A30</b> <b class='flag-5'>GPU</b>加速AI推理<b class='flag-5'>工作</b><b class='flag-5'>负载</b>