NVIDIA Triton推理服务器的功能与架构简介-电子发烧友网

前面文章介绍微软 Te ams 会议系统、微信软件与腾讯 PCG 服务三个 Triton 推理服务器的成功案例，让大家对 Triton 有初步的认知，但别误以为这个软件只适合在大型的服务类应用中使用，事实上 Triton 能适用于更广泛的推理环节中，并且在越复杂的应用环境中就越能展现其执行成效。

在说明 Triton 推理服务器的架构与功能之前，我们需要先了解一个推理服务器所需要面对并解决的问题。

与大部分的服务器软件所需要的基本功能类似，一个推理服务器也得接受来自不同用户端所提出的各种要求（request）然后做出回应（response），并且对系统的处理进行性能优化与稳定性管理。

但是推理计算需要面对深度学习领域的各式各样推理模型，包括图像分类、物件检测、语义分析、语音识别等不同应用类别，每种类别还有不同神经网络算法与不同框架所训练出来的模型格式等。此外，我们不能对任务进行单纯的串行队列（queue）方式处理，这会使得任务等待时间拖得很长，影响使用的体验感，因此必须对任务进行并行化处理，这里就存在非常复杂的任务管理技巧。

下面列出一个推理服务器所需要面对的技术问题：

1.支持多种模型格式：至少需要支持普及度最高的

2.TensorFlow 的 GraphDef 与 SavedMode 中一种以上格式

(1) PyTorch 的 TorchScript 格式

(2) ONNX 开放标准格式

(3) 其他：包括自定义模型格式

3.支持多种查询类型，包括

(1) 在线的实时查询：尽量降低查询的延迟（latency）时间

(2) 离线的批量处理：尽量提高查询的通量（throughput）

(3) 流水线传输的识别号管理等工作

4.支持多种部署方式：包括

(1) 企业的 GPU 或 CPU 计算设备

(2) 公共云或数据中心

5.对模型进行最佳缩放处理：让个别模型提供更好的性能

6.优化多个 KPI：包括

(1) 硬件利用率

(2) 模型推理识别时间

(3) 总体成本（TCO）

7.提高系统稳定性：需监控模型状态并解决问题以防止停机

在了解推理服务器所需要解决的关键问题之后，接着来看看下方的 Triton 系统高阶架构图，就能更清楚每个板块所负责的任务与使用的对应技术。

Triton 推理服务器采用属于 “主从（client-server）” 架构的系统，由图中的四个板块所组成：

1.模型仓（Model Repostory）：存放 Triton 服务器所要使用的模型文件与配置文件的存储设备，可以是本地服务器的文件系统，也可以使用 Google、AWS、Azure 等云存储空间，只要遵循 Triton 服务器所要求的规范就可以；

2.客户端应用（Client Application）：基于 Triton 用户端 Python / C++ / Java 库所撰写，可以在各种操作系统与 CPU 架构上操作，对 Triton 服务器提交任务请求，并且接受返回的计算结果。这是整个 Triton 推理应用中代码量最多的一部分，也是开发人员需要花费最多心思的部分，在后面会有专文讲解。

3.HTTP / gPRC 通讯协议：作为用户端与服务端互动的通讯协议，开发人员可以根据实际状况选择其中一种通讯协议进行操作，能透过互联网对服务器提出推理请求并返回推理结果，如下图所示：

使用这类通讯协议有以下优点：

(1)支持实时、批处理和流式推理查询，以获得最佳应用程序体验

(2)提供高吞吐量推理，同时使用动态批处理和并发模型执行来满足紧张的延迟预算

(3)模型可以在现场制作中更新，而不会中断应用程序

4.推理服务器（Inference Server）：这是整个 Triton 服务器最核心且最复杂的部分，特别在 “性能”、“稳定”、“扩充” 这三大要求之间取得平衡的管理，主要包括以下几大功能板块：

(1) C 开发接口：

在服务器内的代码属于系统底层机制，主要由 NVIDIA 系统工程师进行维护，因此只提供性能较好的 C 开发接口，一般应用工程师可以忽略这部分，除非您有心深入 Triton 系统底层进行改写。

(2) 模型管理器（Model Management）：

支持多框架的文件格式并提供自定义的扩充能力，目前已支持 TensorFlow 的 GraphDef 与 SavedModel 格式、ONNX、PyTorch TorchScript、TensorRT、用于基于树的 RAPIDS FIL 模型、OpenVINO 等模型文件格式，还能使用自定义的 Python / C++ 模型格式；

(3) 模型的推理队列调度器（Per-Model Scheduler Queues）：

将推理模型用管道形式进行管理，将一个或多个模型的预处理或后处理进行逻辑排列，并管理模型之间的输入和输出张量的连接，任何的推理请求都会触发这个模型管道。这部分还包含以下两个重点：

并发模型执行（Concurrent Model Execution）：允许同一模型的多个模型和 / 或多个实例在同一系统上并行执行，系统可能有零个、一个或多个 GPU。

模型和调度程序（Models And Schedulers）：支持多种调度和批量处理算法，可为每个模型单独选择无状态（stateless）、有状态（stateful）或集成（ensemble）模式。对于给定的模型，调度器的选择和配置是通过模型的配置文件完成的。

(4) 计算资源的优化处理：

这是作为服务器软件的最重要工作之一，就是要将设备的计算资源充分调度，并且优化总体计算性能，主要使用以下三种技术。

支持异构计算模式：可部署在纯 x86 与 ARM CPU 的计算设备上，也支持装载 NVIDIA GPU 的计算设备。

动态批量处理（Dynamic batching）技术：对支持批处理的模型提供多个内置的调度和批处理算法，并结合各个推理请求以提高推理吞吐量，这些调度和批量处理决策对请求推理的客户端是透明的。

批量处理推理请求分为客户端批量处理和服务器批量处理两种，通过将单个推理请求组合在一起来实现服务器批处理，以提高推理吞吐量；

构建一个批量处理缓存区，当达到配置的延迟阈值后便启动处理机制；

调度和批处理决策对请求推断的客户机是透明的，并且根据模型进行配置。

c.并发模型（Concurrent model）运行：多个模型或同一模型的多个实例，可以同时在一个 GPU 或多个 GPU 上运行，以满足不同的模型管理需求。

(5) 框架后端管理器（Framework Backends）：

Triton 的后端就是执行模型的封装代码，每种支持的框架都有一个对应的后端作为支持，例如 tensorrt_backend 就是支持 TensorRT 模型推理所封装的后端、openvino_backend 就是支持 openvine 模型推理所封装的后端，目前在 Triton 开源项目里已经提供大约 15 种后端，技术人员可以根据开发无限扩充。

要添加一个新的后台是相当复杂的过程，因此在本系列文章中并不探索，这里主要说明以下 Triton 服务器对各个后端的管理机制，主要是以下重点：

采用 KFServing 的新社区标准 gRPC 和 HTTP/REST 数据平面（data plane）v2 协议（如下图），这是 Kubernetes 上基于各种标准的无服务器推理架构

通过配置自动化和自动扩展简化 Kubernetes 中的推理服务部署

透明地处理负载峰值，即使请求数量显著增加，请求的服务也将继续顺利运行

可以通过定义转换器，轻松地将标记化和后处理等预处理步骤包含在部署中

可以用 NGC 的 Helm 命令在 Kubernetes 中部署 Triton，也可以部署为容器微服务，为 GPU 和 CPU 上的预处理或后处理和深度学习模型提供服务，也能轻松部署在数据中心或云平台上

将推理实例进行微服务处理，每个实例都可以在 Kubernetes 环境中独立扩展，以获得最佳性能

通过这种新的集成，可以轻松地在 Kubernetes 使用 Triton 部署高性能推理

以上是 Triton 推理服务器的高级框架与主要特性的简介，如果看完本文后仍感觉有许多不太理解的部分，这是正常的现象，因为整个 Triton 系统集成非常多最先进的技术在内，并非朝夕之间就能掌握的。

后面的内容就要进入 Triton 推理服务器的环境安装与调试，以及一些基础范例的执行环节，透过这些实际的操作，逐步体验 Triton 系统的强大。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4978

浏览量
102987
服务器

服务器

+关注

关注
12

文章
9123

浏览量
85324
Triton

Triton

+关注

关注
0

文章
16

浏览量
7033

原文标题：NVIDIA Triton系列文章（2）：功能与架构简介

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

SSR与传统服务器的对比分析

随着云计算技术的快速发展，Serverless架构（无服务器架构）逐渐成为业界关注的焦点。其中，SSR（Serverless Stateful Resources，无服务器有状态资源）

发表于 11-18 11:22 •287次阅读

GPU服务器AI网络架构设计

众所周知，在大型模型训练中，通常采用每台服务器配备多个GPU的集群架构。在上一篇文章《高性能GPU服务器AI网络架构（上篇）》中，我们对GPU网络中的核心术语与概念进行了详尽介绍。本文

发表于 11-05 16:20 •313次阅读

GPU<b class='flag-5'>服务器</b>AI网络<b class='flag-5'>架构</b>设计

功能服务器与机架式的区别

在现代数据中心和IT基础设施中，服务器扮演着至关重要的角色。随着技术的发展，服务器的形式和功能也在不断演变。功能服务器和机架式

发表于 10-14 15:05 •201次阅读

什么是AI服务器？AI服务器的优势是什么？

AI服务器是一种专门为人工智能应用设计的服务器，它采用异构形式的硬件架构，通常搭载GPU、FPGA、ASIC等加速芯片，利用CPU与加速芯片的组合来满足高吞吐量互联的需求，为自然语言处理、计算机视觉、机器学习等人工智能应用场景提

发表于 09-21 11:43 •820次阅读

服务器CPU架构之争:x86稳坐江山,自研力量蓄势待发

在数字化转型的浪潮中，服务器市场持续繁荣，各大厂商竞相投入，力求在激烈的市场竞争中占据一席之地。作为服务器的核心部件，CPU的性能与功耗直接决定了服务器的整体表现，因此，CPU

发表于 09-20 14:54 •781次阅读

基于高通主板的ARM架构服务器

架构主导服务器市场，现面临挑战。Arm 2008 年入服务器领域，虽因性能与生态问题未大突破，但近几年重新冲刺。（二）技术创新引领 Arm 的 Neoverse 平台不断发展。20

发表于 09-11 10:53 •503次阅读

就服务器而言，ARM架构与X86架构有什么区别？各自的优势在哪里？

一、服务器架构概述在数字化时代，服务器架构至关重要。服务器是网络核心节点，存储、处理和提供数据与服务

发表于 09-09 14:05 •1720次阅读

NVIDIA助力提供多样、灵活的模型选择

在本案例中，Dify 以模型中立以及开源生态的优势，为广大 AI 创新者提供丰富的模型选择。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服务器

发表于 09-09 09:19 •460次阅读

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务

发表于 07-25 09:48 •698次阅读

AI服务器的特点和关键技术

AI服务器，即人工智能服务器，是一种专门设计用于运行和加速人工智能（AI）算法与模型的硬件设备。随着人工智能技术的快速发展和普及，AI服务器在数据处理、模型训练、推理应用等方面展现出了

发表于 07-17 16:34 •1519次阅读

ai服务器是什么架构类型

AI服务器，即人工智能服务器，是专门为人工智能应用设计的高性能计算服务器。AI服务器的架构类型有很多种，以下是一些常见的

发表于 07-02 09:51 •1050次阅读

英伟达推出AI模型推理服务NVIDIA NIM

英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程，为全球的2800万英伟达开发者提供前所未有的便利。

发表于 06-04 09:15 •674次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •714次阅读

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •575次阅读

利用NVIDIA产品技术组合提升用户体验

本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型，并借助NVIDIA Triton推理服务器在

发表于 01-17 09:30 •684次阅读

搜索历史

NVIDIA Triton推理服务器的功能与架构简介

评论

SSR与传统服务器的对比分析

GPU服务器AI网络架构设计

功能服务器与机架式的区别

什么是AI服务器？AI服务器的优势是什么？

服务器CPU架构之争:x86稳坐江山,自研力量蓄势待发

基于高通主板的ARM架构服务器

就服务器而言，ARM架构与X86架构有什么区别？各自的优势在哪里？

NVIDIA助力提供多样、灵活的模型选择

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

AI服务器的特点和关键技术

ai服务器是什么架构类型

英伟达推出AI模型推理服务NVIDIA NIM

利用NVIDIA组件提升GPU推理的吞吐

使用NVIDIA Triton推理服务器来加速AI预测

利用NVIDIA产品技术组合提升用户体验