NVIDIA T4 GPU和TensorRT加速微信搜索速度-电子发烧友网

案例简介

腾讯公司利用NVIDIA TensorRT推理引擎的INT8推理能力和基于知识蒸馏的QAT训练，大大加速了微信中的搜索动能，节省了约70%的计算资源。本案例主要应用到NVIDIA T4 GPU和TensorRT。

客户简介及应用背景

随着腾讯微信的发展，微信搜索也成为其越来越重要的功能，这个功能可以用来搜索微信内部的账号、信息，以及搜索互联网上的内容。微信搜索月活跃用户数量达到五亿以上。搜索业务当中使用了大量的神经网络模型，包括自然语言理解、匹配排序等等，这些模型的训练和推理都大量依赖于NVIDIA GPU，尤其在推理方面，NVIDIA GPU及相应的解决方案都满足了业务所需的延迟和吞吐要求。

客户挑战

微信搜索业务由多个子模块构成，包括查询理解、匹配、搜索排序等等。由于搜索的业务特点，这些任务对线上服务的延迟和吞吐都十分敏感。然而在最近几年，随着算力的提升以及算法的创新，很多大型复杂的神经网络模型开始应用在这些任务上，比如BERT/Transformer等模型。

这些大模型需要的计算资源和业务上的高要求对推理端的软硬件都是很大的挑战，必须针对具体的硬件做极致的优化。而且对于大模型的推理，很多技术被探索、应用在这些场景上以便实现性能加速、节约资源，比如模型压缩、剪枝、低精度计算等。这些技术可能会带来精度下降等负面影响，限制了这些技术的广泛应用。因此，如何在保证精度效果以及服务吞吐延迟需求的情况下，高效地对这些模型进行推理成为了业务上的巨大挑战。NVIDIA GPU以及NVIDIA TensorRT给这一场景提供了解决方案。

应用方案

为了满足线上服务的需求，并且尽可能地节约成本，微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来进行线上大模型的推理。

线上服务对于吞吐和延迟有很高的要求，微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来做线上推理服务，利用NVIDIA基于TensorRT开源的BERT实现，可以很方便地在FP16精度下实现满足需求的线上推理功能。这个方案在线上取得了很好的效果。

在此基础上，微信搜索希望进一步加快推理速度，节约计算资源，以便更好地服务用户，节约成本。低精度推理成为了很好的选择。NVIDIA GPU从图灵（Turing）架构开始就有了INT8 Tensor Core，其计算吞吐量最高可达FP16精度的2倍。同时低精度推理跟其他的优化方法也是正交的，可以同时使用其他技术比如剪枝、蒸馏等做进一步提升。微信搜索线上大量使用NVIDIA T4 GPU，非常适合使用INT8推理。而且TensorRT对INT8推理也有良好的支持。利用TensorRT的“校准”（Calibration）功能，能够方便地将Float精度模型转换为INT8低精度模型，实现低精度推理。通过低精度推理，模型的单次推理时间大大缩短。

通过“校准”来做模型转换已经在很多计算机视觉模型上被验证是十分有效的，并且其精度和推理性能都十分优秀。然而对于像BERT一类的模型， “校准” 无法使得精度和性能都完全令人满意。因此，腾讯搜索使用了NVIDIA开发的基于PyTorch/TensorFlow的量化工具进行基于知识蒸馏的量化感知训练（Quantization Aware Training）克服精度下降的问题。TensorRT对于导入量化感知训练好的模型进行INT8低精度推理有着很好的支持。导入这样的模型，不仅得到了最佳性能，而且精度没有损失，线上服务只需更换TensorRT构建好的引擎即可，极大地简化了部署的流程。

通过这样的方案，微信搜索中的一些关键任务，比如查询理解等自然语言理解任务，可以在精度没有损失的情况下，达到2-10倍的加速效果，平均单句推理时间达到了0.1ms。任务相应的计算资源节省了约70%。这个方案大大优化了微信搜索业务的性能，降低了部署成本。

使用效果及影响

使用NVIDIA T4 GPU以及TensorRT推理引擎进行INT8低精度推理，极大提升了微信搜索的速度，进一步提升了用户体验，节约了公司成本。

微信搜索的Hui Liu、Raccoon Liu和Dick Zhu表示：”我们已经实现了基于TensorRT和INT8 QAT的模型推理加速，以加速微信搜索的核心任务，包括Query理解和查询结果排序等。我们用GPU+TensorRT的解决方案突破了NLP模型复杂性的限制，BERT/Transformer可以完全集成到我们的解决方案中。此外，我们利用卓越的性能优化方法，节省了70%的计算资源。”

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5087

浏览量
103916
gpu

gpu

+关注

关注
28

文章
4795

浏览量
129500
计算机

计算机

+关注

关注
19

文章
7553

浏览量
88798

NVIDIA技术助力Pantheon Lab数字人实时交互解决方案

本案例中，Pantheon Lab（万想科技）专注于数字人技术解决方案，通过 NVIDIA 技术实现数字人实时对话与客户互动交流。借助 NVIDIA GPU、NVIDIA

发表于 01-14 11:19 •311次阅读

NVIDIA和GeForce RTX GPU专为AI时代打造

NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。

发表于 01-06 10:45 •251次阅读

借助NVIDIA GPU提升鲁班系统CAE软件计算效率

本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU，实现复杂产品的快速仿真，加速产品开发和设计迭代，缩短开发周期，提升产品竞争力。

发表于 12-27 16:24 •263次阅读

在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术，该技术现在可与 NVIDIA TensorRT-LLM 一起使用。

发表于 12-25 17:31 •290次阅读

在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

解锁NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，确保您的 NVIDIA GPU 能发挥出卓越的推理性能。

发表于 12-17 17:47 •324次阅读

《CST Studio Suite 2024 GPU加速计算指南》

许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟：通过加速对话框启用，打开求解器对话框，点击“

发表于 12-16 14:25

NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布！

发表于 11-28 10:43 •355次阅读

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构，在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈，合并访存机制巧妙解决了内存带宽限制。NVIDIA GPU

发表于 11-24 17:12

将NVIDIA加速计算引入Polars

Polars 近日发布了一款由 RAPIDS cuDF 驱动的全新 GPU 引擎，该引擎可将 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍，使数据科学家仅在一

发表于 11-20 10:03 •318次阅读

将<b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>计算引入Polars

TensorRT-LLM低精度推理优化

本文将分享 TensorRT-LLM 中低精度量化内容，并从精度和速度角度对比 FP8 与 INT8。首先介绍性能，包括速度和精度。其次，介绍量化工具 NVIDIA

发表于 11-19 14:29 •527次阅读

<b class='flag-5'>TensorRT</b>-LLM低精度推理优化

AMD与NVIDIA GPU优缺点

，NVIDIA的RTX系列显卡以其强大的光线追踪和DLSS技术领先于市场。例如，NVIDIA的RTX 3080在4K分辨率下提供了卓越的游戏体验，而AMD的Radeon RX 6800 XT虽然在某些游戏中表现接近，但在光线追踪

发表于 10-27 11:15 •1152次阅读

NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列，该系列包含最先进的指导和奖励模型，以及一个用于生成式 AI

发表于 09-06 14:59 •406次阅读

<b class='flag-5'>NVIDIA</b> Nemotron-<b class='flag-5'>4</b> 340B模型帮助开发者生成合成训练数据

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

Blackwell GPU，标志着 AI 超级计算的一次重大进步。这种独特的配置显著减少传统网络扩展时的通信开销，使得对 1.8T 参数的模型进行实时推理成为可能，同时将模型训练速度提升4

发表于 05-13 17:16

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM

发表于 04-28 10:36 •659次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •843次阅读

搜索历史

NVIDIA T4 GPU和TensorRT加速微信搜索速度

评论