NVIDIA Triton 系列文章（10）：模型并发执行-电子发烧友网

前面已经做好了每个推理模型的基础配置，基本上就能正常让 Triton 服务器使用这些独立模型进行推理。接下来的重点，就是要让设备的计算资源尽可能地充分使用，首先第一件事情就是模型并发执行（concurrent model execution）的调试，这是提升 Triton 服务器性能的最基本任务。

Triton 服务器支持的模型并发能力，包括一个模型并发多个推理实例，以及多个模型的多个并发实例。至于能并发多少实例？就需要根据系统上的硬件配置，Triton 支持纯 CPU 以及多 GPU 的计算环境。

GPU 是能够同时执行多个工作负载的计算引擎，Triton 推理服务器通过在 GPU上同时运行多个模型，最大限度地提高性能并减少端到端延迟，这些模型可以完全相同也可以是不同框架的不同模型，显存大小是唯一限制并发运行模型数量的因素。

下图显示了两个计算模型 compute model 0 与 compute model 1 的示例，假设 Triton 服务器当前处于等待状态，当 request 0 与 request 1 两个请求同时到达时，Triton 会立即将这两个请求调度到 GPU 上（下图左），开始并发处理这两个模型的推理计算。

默认情况下，Triton 指定系统中的每个可用 GPU 为每个模型提供一个实例，如果同一模型的多个请求同时到达，Triton 将通过在 GPU 上一次只调度一个请求来串行化它们的执行（上图中）。这样的方式在管理上是最轻松的，但是执行效率并不好，因为计算性能并未被充分调用。

Triton 提供了一个 “instance_group” 的模型配置选项，通过在模型配置中使用这个字段，可以更改模型的执行实例数，调整每个模型的并发执行数量。

上图右就是在 model 1 配置文件中，添加 “instance_group” 配置，并且设置 “count: 3” 的参数，这样就允许一个 GPU 上可以并发三个实例的模型计算，如果用户端发出超过 3 个推理请求时，则第 4 个 model 1 推理请求就必须等到前三个实例中的任一个执行完之后，才能开始执行。

Triton可以提供一个模型的多个实例，从而可以同时处理该模型的多条推理请求。模型配置 ModelInstanceGroup 属性用于指定应可用的执行实例的数量以及应为这些实例使用的计算资源。接下来就看看几个标准用法：

1. 单 CPU 或 GPU 单实例

未添加任何 instance_group 参数时，表示这个模型使用默认的配置，这时该模型可以在系统中可用的每个 GPU 中创建单个执行实例。如果用户端提出多个请求时，就会在 GPU 设备上按照串行方式执行计算，如同上图中 compute model 1 的状态。

2. 单 CPU 或 GPU 并发多实例

实例组设置可用于在每个 GPU 上或仅在某些 GPU 上放置模型的多个执行实例。例如，以下配置将在每个系统 GPU 上放置模型的两个执行实例。如果要让模型在一个 GPU 上执行多个并行实例，就将以下的内容写入模型配置文件内，这里配置的是 2 个并发实例：

instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
  } 
]

如果将上面配置的计算设备配置为 “kind:KIND_CPU” ，就是指定在 CPU 可以并发两个推理计算。 3. 多 CPU 或 GPU 并发多实例 如果设备上有多个计算设备，不管是 CPU 或 GPU，都可以使用以下配置方式，为模型配置多个并发推理实例：

instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0 ] 
  }, 
  { 
    count: 2 
    kind: KIND_GPU 
    gpus: [ 1, 2 ] 
  } 
]

这里的内容，表示 Triton 服务器至少启动 3 个 GPU 计算设备，这个推理模型在编号为 0 的 GPU 上启动 1 个并发实例，在编号为 1 与 2 的 GPU 上可以同时启动 2 个并发实例，以此类推。以上是 instance_group 的基础配置内容，如果要对每个 GPU 设备的计算资源进行更深层的配置，还可以配合一个“比例限制器配置（Rate Limiter Configuration）”参数设置，对于执行实例进行资源的限制，以便于在不同实例直接取得计算平衡。这个比例限制器的配置，主要有以下两部分：

资源（Reousrces）限制：

这个资源主要指的是 GPU 的显存调用，因为数据在 CPU 与 GPU 之间的交换传输，经常在整个计算环节中造成很大的影响，如果当我们需要对同一组数据进行不同的计算，或者计算过程中有流水线前后关系的话，那么将这些需要重复使用的数据保留在 GPU 显存上，就能非常有效减少数据传输次数，进而提升计算效率。因此我们可以对模型实例提出限制，只有当系统闲置资源能满足资源需求时，才进行这个推理模型的计算。如果模型配置里没有提供任何资源限制的需求，那么 Triton 服务器就认定这个模型实例的执行并不需要任何资源，并将在模型实例可用时立即开始执行。这个配置项里有三个参数内容：（1）“name”字段：资源名称；（2）“count”字段：组中模型实例需要运行的资源副本数；（3）“global”字段：指定资源是按设备还是在系统中全局共享。下面是一个简单的模型配置内容的 instance_group 参数组：

instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
gpus: [ 0 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        } 
] 
    } 
  }, 
  { 
    count: 4 
    kind: KIND_GPU 
gpus: [ 1, 2 ] 
    rate_limiter { 
      resources [        
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
} 
  } 
]

第 1 组配置：可并发执行数量为 2，指定使用 gpu[0] 设备，需要名为 “R1” 的计算资源，其内容是需要 2 份设备内存的副本；
第 2 组配置：可并发执行数量为 4，指定使用 gpu[1, 2] 两个设备，需要名为 “R2” 的计算资源，其内容是需要 4 份全局共享内存的副本，

这里面的并发数量与资源配置数量并不存在线性关系，开发人员必须根据模型所需要数据的张量尺度，以及 GPU 卡显存大小去进行调配。 Triton 允许我们指定要为推理提供的每个模型的副本数量，默认情况下会获得每个模型的一个副本，但可以使用 instance_group 在模型配置中指定任意数量的实例。通常拥有一个模型的两个实例会提高性能，因为它允许 CPU 与 GPU 之间的内存传输操作与推理计算重叠。多个实例还通过允许在 GPU 上并发更多推理工作来提高GPU 利用率。

优先级（Priority）设置：

因为计算资源是有限的，因此也可以在资源配置是对其进行优先级的配置，如此也会影响实例进行的先后顺序。下面是一个简单的优先级配置示范：

instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0, 1, 2 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        }, 
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
      priority: 2 
    } 
  } 
]

上面配置组的 3 个模型实例，每个设备（0、1和2）上执行一个，每个实例需要 4 个 “R1” 和 2 个具有全局资源的 “R2” 资源才能执行，并将比例限制器的优先级设置为 2。这三个实例之间不会争夺 “R1” 资源，因为 “R1” 对于它们自己的设备是本地的，但是会争夺 “R2” 资源，因为它被指定为全局资源，这意味着 “R2” 在整个系统中共享。虽然这些实例之间不争 “R1”，但它们将与其他模型实例争夺 “R1“，这些模型实例在资源需求中包含 “R1” 并与它们在同一设备上运行。这是对所有模型的所有实例进行优先级排序，优先级 2 的实例将被赋予优先级 1 的实例 1/2 的调度机会数。以上是关于 Triton 服务器“模型并发执行”的基础内容，后面还有更多关于调度器（scheduler）与批量处理器（batcher）的配合内容，能更进一步地协助开发人员调试系统的总体性能。

原文标题：NVIDIA Triton 系列文章（10）：模型并发执行

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3750

浏览量
90901

原文标题：NVIDIA Triton 系列文章（10）：模型并发执行

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 开发了一个全新的生成式 AI 模型。利用输入的文本和音频，该模型可以创作出包含任意的音乐、人声和声音组合的作品。

发表于 11-27 11:29 •264次阅读

NVIDIA助力提供多样、灵活的模型选择

在本案例中，Dify 以模型中立以及开源生态的优势，为广大 AI 创新者提供丰富的模型选择。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服务器

发表于 09-09 09:19 •446次阅读

NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列，该系列包含最先进

发表于 09-06 14:59 •282次阅读

<b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>帮助开发者生成合成训练数据

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务，与同样刚推出的 Llama 3.1 系列开源

发表于 07-25 09:48 •684次阅读

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

借助 NVIDIA AI Foundry，企业和各国现在能够使用自有数据与 Llama 3.1 405B 和 NVIDIA Nemotron 模型配对，来构建“超级模型”

发表于 07-24 09:39 •688次阅读

<b class='flag-5'>NVIDIA</b> AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI <b class='flag-5'>模型</b>

NVIDIA与Google DeepMind合作推动大语言模型创新

支持 NVIDIA NIM 推理微服务的谷歌最新开源模型 PaliGemma 首次亮相。

发表于 05-16 09:44 •431次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的 NVID

发表于 04-28 10:36 •504次阅读

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •548次阅读

在AMD GPU上如何安装和配置triton？

最近在整理python-based的benchmark代码，反过来在NV的GPU上又把Triton装了一遍，发现Triton的github repo已经给出了对应的llvm的commit id以及对应的编译细节，然后跟着走了一遍，也顺利的安装成功，只需要按照如下方式即可完

发表于 02-22 17:04 •2258次阅读

HarmonyOS如何使用异步并发能力进行开发

。 ● 异步并发是指异步代码在执行到一定程度后会被暂停，以便在未来某个时间点继续执行，这种情况下，同一时间只有一段代码在执行。 ● 多线程并

发表于 02-18 09:18 •506次阅读

【BBuf的CUDA笔记】OpenAI Triton入门笔记一

这里来看官方的介绍：https://openai.com/research/triton ，从官方的介绍中我们可以看到OpenAI Triton的产生动机以及它的目标是什么，还可以看到一些经典算法的实现例子展示。

发表于 01-23 10:00 •2500次阅读

利用NVIDIA产品技术组合提升用户体验

本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型，并借助NVIDIA Triton推理服务器在NVIDIA V1

发表于 01-17 09:30 •667次阅读

不要错过！NVIDIA “大模型没那么泛！”主题活动

2024 新年首发！ NVIDIA 大模型日系列活动将于 2024 年 1 月正式启动，由 NVIDIA 和业界专家携手分享大模型应用开

发表于 12-20 19:35 •644次阅读

什么是Triton-shared？Triton-shared的安装和使用

经过前面几章关于triton在nv gpu上调优的讲解，我们这章开始来看看triton的一个third_party库，该库是为了让triton去支持更多其他的backend。该项目的地址如下所示

发表于 12-19 09:47 •1138次阅读

Triton编译器的原理和性能

Triton是一种用于编写高效自定义深度学习原语的语言和编译器。Triton的目的是提供一个开源环境，以比CUDA更高的生产力编写快速代码，但也比其他现有DSL具有更大的灵活性。Triton已被采用

发表于 12-16 11:22 •2796次阅读