0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NADP+Triton搭建稳定高效的推理平台

NVIDIA英伟达企业解决方案 来源:NVIDIA 郭城 作者:NVIDIA 郭城 2022-10-18 09:24 次阅读

业务背景

蔚来自动驾驶研发平台(NADP)是着力服务于自动驾驶核心业务方向的研发平台。平台化的推理能力作为常规机器学习平台的重要组成部分,也是 NADP 所重点建设和支持的能力之一。NADP 所支持的推理业务,整体上有以下几个特性:

10% 的业务产生 90% 的流量(优化重点业务收益大);

追求引擎层的高性能;

要求在算法框架,量化加速维度尽可能强的扩展性,为算法业务的框架选型, 与后续可能的加速方案都提供尽可能的兼容;

多个模型有业务关联,希望能够满足多个模型之间串行/或者并行的调度。

经过对众多方案的对比和筛选,NVIDIA Triton 在上述每一个方面都能满足蔚来的需求。比如,Triton 支持多个模型或模块进行 DAG 式的编排。其云原生友好的部署方式,能够很轻松的做到多 GPU、多节点的扩展。从生产级别实践的稳定性角度来看,即便是一个优秀的开源方案,作为平台级的核心组件,也是需要长时间、高强度的验证,才能放心的推广到最核心业务上。经过半年的使用,Triton 证明了自己,在保证强大功能的前提下,也提供了很好的稳定性。另外,NVIDIA 有着优秀的生态建设与社区支持,提供了优质的 Triton 社区内容和文档共享,保障了 NADP 的核心推理业务迁移到 Triton 方案上,并平稳运行至今。

8c09e28e-4e20-11ed-a3b6-dac502259ad0.png

引入 Triton 之后的推理平台架构

8c47e610-4e20-11ed-a3b6-dac502259ad0.png

Triton 在设计之初,就融入了云原生的设计思路,为后面逐步围绕 Triton 搭建完整的云原生平台性推理解决方案提供了相当大的便利。作为 NADP 推理平台的核心组件,Triton 与 NADP 的各个组件形成了一套完整的推理一站式解决方案。接下来,将集中在以下 4 个方面具体叙述 Triton 如何在 NADP 推理平台中提供助力:

集成效率

高性能

易用性

高可用

01

集成效率

Triton + 模型仓库 + Argo

Triton 与自建模型仓库深度结合,配合 workflow 方案 Argo,完成全自动化的生产、量化、准入、云端部署、压测和上线的 CICD 流程。

具体来讲:

模型上传,模型仓库自动触发配置好的 workflow;

创建与部署环境硬件环境一致容器,自动量化加速;

得益于 Triton 生态中提供的 perf analyzer,可以像使用 jMeter 一样方便的按照模型的 Input Tensor Shape 自动生成请求与指定的负载。其压测出的服务化之后模型的最大吞吐,很接近真实部署场景。

Triton + Jupyter

在 Triton 镜像中集成了 Jupyter 组件之后,提供开箱即用的开发调试环境,在遇到复杂问题需要进行线上 debug 或者再线下复现问题时,Jupyter 能够提供一个方便的开发环境供用户进行调试。

02

高性能

Triton + Istio

当前 NADP 服务的业务场景,服务流量大,主要传输 cv 场景视频文件+高分辨率图片,必须使用高性能 rpc 协议进行加速,而且推理服务引擎必须对现有的 L4 Load Balancer 和服务发现方案有比较好的支持性。

而 Triton 原生支持 gRPC 的方案进行访问,并且能够很方便的部署为 k8s 容器。但因为 k8s 原生 service 不能够很好的对 gRPC 进行请求级别的负载均衡(仅支持长连接的负载均衡),故在引入了 isito 之后,Triton 就能够在传输协议上满足我们的需求。

具体来讲:

集群内容器直接访问只需要一次跨物理机网络转发;

完美复用 k8s 的 readiness 状态,通过和 Triton 节点的 liveness/readniess 探针进行服务的健康监控;

后续结合模型仓库/配置中心提供用户更友好的服务发现方式:基于域名的服务发现方案切换为基于模型的服务发现方案。

03

易用性

Triton + Apollo 配置中心

使用 Apollo 配置中心,可以极大程度提供更多的便利性。将基于域名的服务发现提升为基于模型名的服务发现。用户将不需要了解模型所部署的具体的域名即可访问模型。结合模型仓库,用户可以直接触发模型的部署。

具体来讲:

用户在模型仓库操作上线之后,将会将模型的真实域名写入配置中心;

用户使用 NADP 提供的客户端可以从配置中心获取到服务的真实域名,并直接访问服务;

作为下一步规划,当前的方案正在逐步迁移到基于开源的 model mesh 方案的版本上。

04

高可用

Triton + k8s CRD

8ca520fa-4e20-11ed-a3b6-dac502259ad0.png

围绕 Triton 蔚来搭建了服务 NIO 推理场景的 K8s CRD。它是以下几个 K8s 原生 CRD 或其他自研 CRD 的组合。而这每一个组件都在一定程度上保障了服务的高可用。

自动扩缩容规则(HPA Rule):进行基于流量的自动扩缩容,在服务流量上升时自动扩容;

Istio service:可靠的 side car 机制,保障 gRPC 流量的服务发现和负载均衡;

Ingress:多实例部署,动态扩容的 Ingress 节点,保障跨集群流量的访问;

k8s deploy:在一个推理实例内管理至少 3 个 Triton Pod,消除了服务的单点问题,并且通过 Triton server 加载多个模型的功能,实现多模型混布共享 GPU 算力,而且消除单点的同时不引入额外的 GPU 资源浪费;

Service Monitor:用于 prometheus 指标的收集,随时监控服务状态,上报异常信息

Service Heartbeat Probe:集成了 Triton Perf Analyzer 的 Pod。Triton 生态中的 Perf Analyzer 工具能够根据部署的模型 meta 信息生成真实请求并部署为主动请求探针,在没有流量的时候监控服务的健康状态并主动重启异常实例,同时上报异常信息。

Triton + Promethus/Grafana

Triton 提供了一套完整的,基于模型维度的模型服务指标。打点几乎包括了整个服务端推理链路的每个关键节点,甚至能够区分执行推理的排队时间和计算时间,使得能够在不需要进入 debug 模式的情况下进行细致的线上模型服务性能诊断和分析。另外,因为指标的格式支持了云原生主流的 Promethus/Grafana, 用户能够非常方便的配置看板和各维度的报警, 为服务的高可用提供指标支持。

模型的级别时延监控

8ccf7eea-4e20-11ed-a3b6-dac502259ad0.png

模型的级别的 qps 监控

8d38cf94-4e20-11ed-a3b6-dac502259ad0.jpg

服务业务场景:数据挖掘

目前,NADP 数据挖掘业务下的相关模型预测服务已经全部迁移至 Triton Inference Server,为上百个模型提供了高吞吐预测能力。同时在某些任务基础上,通过自实现前处理算子、前后处理服务化、BLS 串联模型等手段,将一些模型任务合并起来,极大的提升了处理效率。

服务端模型前处理

通过将服务的前后处理从客户端移动到服务端,不仅能够在网络传输上节省大量的时间,而且 GPU 服务端(Triton)可以用 Nvjpeg 进行 GPU 解码,并在 GPU 上做 resize、transpose 等处理。能够大幅加速前处理,明显减轻 client 端 CPU 计算压力。

01

业务流程

8d7c6632-4e20-11ed-a3b6-dac502259ad0.png

8daf066e-4e20-11ed-a3b6-dac502259ad0.png

02

收益

传压缩图片,而非 input tensor,只需要几百 KB 就能将一张 2K 原图 bytes 传输过去,以当前 onemodel 2k 输入图片为例,模型输入必须为 1920*1080*3*8 byte 大小,而且必须走网络,而在加入服务端后处理之后,在精度损失允许的范围内,可以将原图改为传压缩过的三通道 720P jpg 图片(1280*720*3),在服务端在 resize 成 1920*1080*3*8 byte,节约大量带宽;

服务端前处理完成后将 GPU 显存指针直接送入模型预测,还能省去 Host2Device 的拷贝;

服务端可以封装模型的后处理,使得每次模型升级的时候,client 端不用感知到服务后处理的变化,从而不需要修改处理逻辑代码;

使用 nvJpeg,DALI 等使用 GPU 算力的组件来进行前后处理,加速整体的数据处理速度。

多模型 DAG 式编排

一个统一的前处理模型,一份输入复制多份到多个后端识别模型,该流程在服务端单 GPU 节点内完成,不需要走网络,在 Triton + bls/ensemble 的支持下,甚至可以节约 H2D、D2H 拷贝。

01

业务流程

8e660dbe-4e20-11ed-a3b6-dac502259ad0.png

02

收益

当业务逻辑强制使用多模型 DAG 式编排多个模型之后,每次产生模型的输入/输出都可以叠加服务端前后处理改造的收益,当前部署的 triton 服务最多使用 BLS 串联了 9 个模型;

对于 2k 分辨率的输入来讲,每帧图片的大小为 1920 * 1080 * 3 * 8 = 47Mb, 假设全帧率为 60fps,则每秒输入数据量为 1920 * 1080 * 3 * 8 * 60 = 2847 Mb。如果使用 bls 串联了 9 个模型,则每秒需要产生的数据传输量为 1920 * 1080 * 3 * 8 * 60 * 9 = 25 Gb = 3GB;

如果使用 PCIe 传输,假设 PCIe 带宽为 160Gb = 20GB 每秒, 则理论上每秒产生的数据可以节约 150ms 在数据传输上;

如果使用网络传输,假设可用带宽为 16Gb=2Gb 每秒,则理论上每秒产生的数据可以节约 1500ms 在数据传输上。

总结和展望

NIO 基于 NVIDIA Triton 搭建的推理服务平台,在数据挖掘业务场景下,通过上文详细介绍的“服务器端模型前处理”和“多模型 DAG 式编排”,GPU 资源平均节省 24%;在部分核心 pipeline 上,吞吐能力提升为原来的 5 倍,整体时延降低为原来的 1/6。

另外,NIO 当前已经实现了输入为原始视频而非抽帧后图片的预研版本工作流上线,但只承载了小部分流量。而主要流量还是使用 jpg 压缩图片作为输入的版本。当前只是使用本地脚本完成了数据加载和模型推理,后续会逐步地将当前流程迁移到 Triton 的模型编排能力上。

关于作者 ——郭城

8eaac68e-4e20-11ed-a3b6-dac502259ad0.png

郭城是 NIO 自动驾驶研发平台(NADP)的高级工程师,负责为 NIO 自动驾驶搭建可靠高效的推理平台和深度学习模型 CICD 工具链。在加入 NIO 之前,他在小米技术委员会参与了小米集团机器学习平台的搭建。他个人对 ML-ops、以及所有其他深度学习工程相关的主题感兴趣。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4991

    浏览量

    103134
  • Triton
    +关注

    关注

    0

    文章

    28

    浏览量

    7043
  • DAG
    DAG
    +关注

    关注

    0

    文章

    17

    浏览量

    8174
  • 自动驾驶
    +关注

    关注

    784

    文章

    13835

    浏览量

    166514
  • 云原生
    +关注

    关注

    0

    文章

    249

    浏览量

    7952

原文标题:技术博客:NADP + Triton,搭建稳定高效的推理平台

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Triton编译器与GPU编程的结合应用

    Triton编译器简介 Triton编译器是一种针对并行计算优化的编译器,它能够自动将高级语言代码转换为针对特定硬件优化的低级代码。Triton编译器的核心优势在于其能够识别并行模式,自动进行代码
    的头像 发表于 12-25 09:13 227次阅读

    Triton编译器如何提升编程效率

    开发者能够更快地开发出更高效的软件。 1. 代码优化 1.1 编译时优化 Triton 编译器在编译时进行了大量的代码优化。这些优化包括但不限于: 指令选择 :Triton 编译器能够根据目标硬件的特性选择最合适的指令集,从而提
    的头像 发表于 12-25 09:12 218次阅读

    Triton编译器在高性能计算中的应用

    先进的编译技术,为高性能计算提供了强大的支持。 Triton编译器简介 Triton编译器是一种开源的编译器框架,旨在为异构计算环境提供高效的编译支持。它通过优化代码生成、内存管理和并行执行等方面,显著提高了程序在异构硬件上的性
    的头像 发表于 12-25 09:11 226次阅读

    Triton编译器的优化技巧

    在现代计算环境中,编译器的性能对于软件的运行效率至关重要。Triton 编译器作为一个先进的编译器框架,提供了一系列的优化技术,以确保生成的代码既高效又适应不同的硬件架构。 1. 指令选择
    的头像 发表于 12-25 09:09 213次阅读

    Triton编译器的优势与劣势分析

    Triton编译器作为一种新兴的深度学习编译器,具有一系列显著的优势,同时也存在一些潜在的劣势。以下是对Triton编译器优势与劣势的分析: 优势 高效性能优化 : Triton编译器
    的头像 发表于 12-25 09:07 233次阅读

    Triton编译器在机器学习中的应用

    1. Triton编译器概述 Triton编译器是NVIDIA Triton推理服务平台的一部分,它负责将深度学习模型转换为优化的格式,以便
    的头像 发表于 12-24 18:13 370次阅读

    Triton编译器的常见问题解决方案

    Triton编译器作为一款专注于深度学习的高性能GPU编程工具,在使用过程中可能会遇到一些常见问题。以下是一些常见问题的解决方案: 一、安装与依赖问题 检查Python版本 Triton编译器通常
    的头像 发表于 12-24 18:04 453次阅读

    Triton编译器支持的编程语言

    Triton编译器支持的编程语言主要包括以下几种: 一、主要编程语言 Python :Triton编译器通过Python接口提供了对Triton语言和编译器的访问,使得用户可以在Python环境中
    的头像 发表于 12-24 17:33 358次阅读

    Triton编译器与其他编译器的比较

    的GPU编程框架,使开发者能够编写出接近手工优化的高性能GPU内核。 其他编译器 (如GCC、Clang、MSVC等): 定位:通用编译器,支持多种编程语言,广泛应用于各种软件开发场景。 目标:提供稳定高效的编译服务,优化代码性能,支持跨
    的头像 发表于 12-24 17:25 371次阅读

    Triton编译器功能介绍 Triton编译器使用教程

    Triton 是一个开源的编译器前端,它支持多种编程语言,包括 C、C++、Fortran 和 Ada。Triton 旨在提供一个可扩展和可定制的编译器框架,允许开发者添加新的编程语言特性和优化技术
    的头像 发表于 12-24 17:23 404次阅读

    企业云服务器平台设计与搭建

    企业云服务器平台的设计与搭建是一个复杂但系统的过程,涉及多个环节和因素。主机推荐小编为您整理发布企业云服务器平台设计与搭建这一过程的详细阐述。
    的头像 发表于 12-04 09:51 101次阅读

    高效大模型的推理综述

    大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效
    的头像 发表于 11-15 11:45 406次阅读
    <b class='flag-5'>高效</b>大模型的<b class='flag-5'>推理</b>综述

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 587次阅读

    在AMD GPU上如何安装和配置triton

    最近在整理python-based的benchmark代码,反过来在NV的GPU上又把Triton装了一遍,发现Triton的github repo已经给出了对应的llvm的commit id以及对应的编译细节,然后跟着走了一遍,也顺利的安装成功,只需要按照如下方式即可完
    的头像 发表于 02-22 17:04 2403次阅读
    在AMD GPU上如何安装和配置<b class='flag-5'>triton</b>?

    【BBuf的CUDA笔记】OpenAI Triton入门笔记一

    这里来看官方的介绍:https://openai.com/research/triton ,从官方的介绍中我们可以看到OpenAI Triton的产生动机以及它的目标是什么,还可以看到一些经典算法的实现例子展示。
    的头像 发表于 01-23 10:00 2581次阅读
    【BBuf的CUDA笔记】OpenAI <b class='flag-5'>Triton</b>入门笔记一