NVIDIA Triton助力腾讯构建高性能推理服务-电子发烧友网

藉由 NVIDIAT4 GPU，通过 Ronda 平台调用 NVIDIA Triton 以及 TensorRT ，整体提升开发和推理效能，帮助腾讯 PCG 的多个服务整体效能提升 2 倍，吞吐量最大提升 6 倍，同时降低了 40% 的延时。

腾讯平台与内容事业群（简称腾讯 PCG）负责公司互联网平台和内容文化生态融合发展，整合 QQ、QQ 空间等社交平台，和应用宝、浏览器等流量平台，以及新闻资讯、视频、体育、直播、动漫、影业等内容业务，推动 IP 跨平台、多形态发展，为更多用户创造海量的优质数字内容体验。

腾讯 PCG 机器学习平台部旨在构建和持续优化符合 PCG 技术中台战略的机器学习平台和系统，提升 PCG 机器学习技术应用效率和价值。建设业务领先的模型训练系统和算法框架；提供涵盖数据标注、模型训练、评测、上线的全流程平台服务，实现高效率迭代；在内容理解和处理领域，输出业界领先的元能力和智能策略库。机器学习平台部正服务于 PCG 所有业务产品。

而过往在项目执行时，团队所面挑战包含：

1. 业务繁多，场景复杂

业务开发语言包括C++/Python

模型格式繁多，包括ONNX、Pytorch、TensorFlow、TensorRT等

模型预处理涉及图片下载等网络IO

多模型融合流程比教复杂，涉及循环调用

支持异构推理

2. 模型推理结果异常时，难以方便地调试定位问题

3. 需要与公司内现有协议/框架/平台进行融合

基于以上挑战，腾讯 PCG 选择了采用 NVIDIA Triton 推理服务器，以解决新场景下模型推理引擎面临的挑战，在提升用户研效的同时，大幅降低了服务成本。

NVIDIA Triton 是一款开源软件，对于所有推理模式都可以简化模型在任一框架中以及任何 GPU 或 CPU 上的运行方式，从而在生产环境中使用 AI。Triton 支持多模型 ensemble，以及 TensorFlow、PyTorch、ONNX 等多种深度学习模型框架，可以很好的支持多模型联合推理的场景，构建起视频、图片、语音、文本整个推理服务过程，大大降低多个模型服务的开发和维护成本。

基于 C++ 的基础架构、Dynamic-batch、以及对 TensorRT 的支持，同时配合 T4 的 GPU，将整体推理服务的吞吐能力最大提升 6 倍，延迟最大降低 40%，既满足了业务的低延时需求，成本也降低了 20%-66%。

通过将 Triton 编译为动态链接库，可以方便地链入公司内部框架，对接公司的平台治理体系。符合 C 语言规范的 API 也极大降低了用户的接入成本。

借助 Python Backend 和 Custom Backend，用户可以自由选择使用 C++/Python 语言进行二次开发。

Triton 的 Tracing 能力可以方便地捕捉执行过程中的数据流状态。结合 Metrics 和 Perf Analysis 等组件，可以快速定位开发调试，甚至是线上问题，对于开发和定位问题的效率有很大提升。

NVIDIA DALI 是 GPU 加速的数据增强和图像加载库。DALI Backend 可以用于替换掉原来的图片解码、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理，进一步提升服务端推理性能。

借助 NVIDIA Triton 推理框架，配合 DALI/FIL/Python 等 Backend，以及 TensorRT，整体推理服务的吞吐能力最大提升 6 倍，延迟最大降低 40%。帮助腾讯 PCG 各业务场景中，以更低的成本构建了高性能的推理服务，同时更低的延迟降低了整条系统链路的响应时间，优化了用户体验。

审核编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7006

浏览量
88944
NVIDIA

NVIDIA

+关注

关注
14

文章
4981

浏览量
102994
腾讯

腾讯

+关注

关注
7

文章
1652

浏览量
49423

Amazon Bedrock推出多个新模型和全新强大的推理和数据处理功能

:Invent全球大会上，宣布推出Amazon Bedrock的多项创新功能。Amazon Bedrock是亚马逊云科技一项完全托管的服务，旨在利用高性能基础模型构建和扩展生成式人工智能（AI）应用程序。此次发布进一步彰显了亚马

发表于 12-07 19:31 •582次阅读

Amazon Bedrock推出多个新模型和全新强大的<b class='flag-5'>推理</b>和数据处理功能

NVIDIA助力Amdocs打造生成式AI智能体

正在使用NVIDIA DGX Cloud 与 NVIDIA AI Enterprise软件开发和交付基于商用大语言模型（LLM）和领域适配模型的解决方案。该公司还在使用NVIDIA NIM，这是一套易于使用的

发表于 11-19 14:48 •329次阅读

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise，为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发任务中，还是在高并发推理场景下，都能够确保项

发表于 10-27 10:03 •209次阅读

<b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>丽蟾科技打造AI训练与<b class='flag-5'>推理</b>加速解决方案

Wolfspeed碳化硅助力实现高性能功率系统

Wolfspeed碳化硅助力实现高性能功率系统

发表于 10-24 10:51 •0次下载

澎峰科技高性能大模型推理引擎PerfXLM解析

自ChatGPT问世以来，大模型遍地开花，承载大模型应用的高性能推理框架也不断推出，大有百家争鸣之势。在这种情况下，澎峰科技作为全球领先的智能计算服务提供商，在2023年11月25日发布了针对大语言

发表于 09-29 10:14 •461次阅读

澎峰科技<b class='flag-5'>高性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

NVIDIA助力提供多样、灵活的模型选择

在本案例中，Dify 以模型中立以及开源生态的优势，为广大 AI 创新者提供丰富的模型选择。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服务器

发表于 09-09 09:19 •461次阅读

使用NVIDIA Edify助力的服务创建3D资产和虚拟环境照明

使用 NVIDIA Edify 助力的服务创建 3D 资产和虚拟环境照明，或是减半生成图像时间。

发表于 08-02 15:22 •500次阅读

NVIDIA携手Meta推出AI服务，为企业提供生成式AI服务

NVIDIA近日宣布了一项重大举措，正式推出NVIDIA AI Foundry服务与NVIDIA NIM（NVIDIA Inference

发表于 07-25 16:57 •532次阅读

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务

发表于 07-25 09:48 •698次阅读

英伟达推出AI模型推理服务NVIDIA NIM

英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程，为全球的2800万英伟达开发者提供前所未有的便利。

发表于 06-04 09:15 •674次阅读

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

发表于 05-27 11:50 •531次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •717次阅读

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •576次阅读

基于NVIDIA DOCA 2.6实现高性能和安全的AI云设计

网络平台上快速创建应用程序和服务，并启用 NVIDIA BlueField DPU 和 NVIDIA BlueField SuperNIC 的强大功能，提供突破性的网络、安全和存储性能

发表于 02-23 10:02 •469次阅读

利用NVIDIA产品技术组合提升用户体验

本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型，并借助NVIDIA Triton推理服务器在

发表于 01-17 09:30 •687次阅读

搜索历史

NVIDIA Triton助力腾讯构建高性能推理服务

评论

Amazon Bedrock推出多个新模型和全新强大的推理和数据处理功能

NVIDIA助力Amdocs打造生成式AI智能体

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

Wolfspeed碳化硅助力实现高性能功率系统

澎峰科技高性能大模型推理引擎PerfXLM解析

NVIDIA助力提供多样、灵活的模型选择

使用NVIDIA Edify助力的服务创建3D资产和虚拟环境照明

NVIDIA携手Meta推出AI服务，为企业提供生成式AI服务

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

英伟达推出AI模型推理服务NVIDIA NIM

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

利用NVIDIA组件提升GPU推理的吞吐

使用NVIDIA Triton推理服务器来加速AI预测

基于NVIDIA DOCA 2.6实现高性能和安全的AI云设计

利用NVIDIA产品技术组合提升用户体验