NVIDIA技术助力线上大模型推理-电子发烧友网

随着腾讯微信的发展，微信搜索也成为其越来越重要的功能，这个功能可以用来搜索微信内部的账号、信息，以及搜索互联网上的内容。微信搜索月活跃用户数量达到五亿以上。搜索业务当中使用了大量的神经网络模型，包括自然语言理解、匹配排序等等，这些模型的训练和推理都大量依赖于NVIDIA GPU，尤其在推理方面，NVIDIA GPU及相应的解决方案都满足了业务所需的延迟和吞吐要求。

微信搜索业务需要更高效平台

微信搜索业务由多个子模块构成，包括查询理解、匹配、搜索排序等等。由于搜索的业务特点，这些任务对线上服务的延迟和吞吐都十分敏感。然而在最近几年，随着算力的提升以及算法的创新，很多大型复杂的神经网络模型开始应用在这些任务上，比如BERT/Transformer等模型。

这些大模型需要的计算资源和业务上的高要求对推理端的软硬件都是很大的挑战，必须针对具体的硬件做极致的优化。而且对于大模型的推理，很多技术被探索、应用在这些场景上以便实现性能加速、节约资源，比如模型压缩、剪枝、低精度计算等。这些技术可能会带来精度下降等负面影响，限制了这些技术的广泛应用。因此，如何在保证精度效果以及服务吞吐延迟需求的情况下，高效地对这些模型进行推理成为了业务上的巨大挑战。NVIDIA GPU以及NVIDIA TensorRT给这一场景提供了解决方案。

NVIDIA技术助力线上大模型推理

为了满足线上服务的需求，并且尽可能地节约成本，微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来进行线上大模型的推理。

线上服务对于吞吐和延迟有很高的要求，微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来做线上推理服务，利用NVIDIA基于TensorRT开源的BERT实现，可以很方便地在FP16精度下实现满足需求的线上推理功能。这个方案在线上取得了很好的效果。

在此基础上，微信搜索希望进一步加快推理速度，节约计算资源，以便更好地服务用户，节约成本。低精度推理成为了很好的选择。NVIDIA GPU从图灵（Turing）架构开始就有了INT8 Tensor Core，其计算吞吐量最高可达FP16精度的2倍。同时低精度推理跟其他的优化方法也是正交的，可以同时使用其他技术比如剪枝、蒸馏等做进一步提升。微信搜索线上大量使用NVIDIA T4 GPU，非常适合使用INT8推理。而且TensorRT对INT8推理也有良好的支持。利用TensorRT的“校准”（Calibration）功能，能够方便地将Float精度模型转换为INT8低精度模型，实现低精度推理。通过低精度推理，模型的单次推理时间大大缩短。

通过“校准”来做模型转换已经在很多计算机视觉模型上被验证是十分有效的，并且其精度和推理性能都十分优秀。然而对于像BERT一类的模型， “校准” 无法使得精度和性能都完全令人满意。因此，腾讯搜索使用了NVIDIA开发的基于PyTorch/TensorFlow的量化工具进行基于知识蒸馏的量化感知训练（Quantization Aware Training）克服精度下降的问题。TensorRT对于导入量化感知训练好的模型进行INT8低精度推理有着很好的支持。导入这样的模型，不仅得到了最佳性能，而且精度没有损失，线上服务只需更换TensorRT构建好的引擎即可，极大地简化了部署的流程。

通过这样的方案，微信搜索中的一些关键任务，比如查询理解等自然语言理解任务，可以在精度没有损失的情况下，达到2-10倍的加速效果，平均单句推理时间达到了0.1ms。任务相应的计算资源节省了约70%。这个方案大大优化了微信搜索业务的性能，降低了部署成本。

使用NVIDIA T4 GPU以及TensorRT推理引擎进行INT8低精度推理，极大提升了微信搜索的速度，进一步提升了用户体验，节约了公司成本。

微信搜索的Hui Liu、Raccoon Liu和Dick Zhu表示：“我们已经实现了基于TensorRT和INT8 QAT的模型推理加速，以加速微信搜索的核心任务，包括Query理解和查询结果排序等。我们用GPU+TensorRT的解决方案突破了NLP模型复杂性的限制，BERT/Transformer可以完全集成到我们的解决方案中。此外，我们利用卓越的性能优化方法，节省了70%的计算资源。”

责任编辑：haq

微信搜索业务需要更高效平台

微信搜索业务由多个子模块构成，包括查询理解、匹配、搜索排序等等。由于搜索的业务特点，这些任务对线上服务的延迟和吞吐都十分敏感。然而在最近几年，随着算力的提升以及算法的创新，很多大型复杂的神经网络模型开始应用在这些任务上，比如BERT/Transformer等模型。这些大模型需要的计算资源和业务上的高要求对推理端的软硬件都是很大的挑战，必须针对具体的硬件做极致的优化。而且对于大模型的推理，很多技术被探索、应用在这些场景上以便实现性能加速、节约资源，比如模型压缩、剪枝、低精度计算等。这些技术可能会带来精度下降等负面影响，限制了这些技术的广泛应用。因此，如何在保证精度效果以及服务吞吐延迟需求的情况下，高效地对这些模型进行推理成为了业务上的巨大挑战。NVIDIA GPU以及NVIDIATensorRT给这一场景提供了解决方案。

NVIDIA技术助力线上大模型推理

为了满足线上服务的需求，并且尽可能地节约成本，微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来进行线上大模型的推理。

通过这样的方案，微信搜索中的一些关键任务，比如查询理解等自然语言理解任务，可以在精度没有损失的情况下，达到2-10倍的加速效果，平均单句推理时间达到了0.1ms。任务相应的计算资源节省了约70%。这个方案大大优化了微信搜索业务的性能，降低了部署成本。使用NVIDIA T4 GPU以及TensorRT推理引擎进行INT8低精度推理，极大提升了微信搜索的速度，进一步提升了用户体验，节约了公司成本。微信搜索的Hui Liu、Raccoon Liu和Dick Zhu表示："我们已经实现了基于TensorRT和INT8 QAT的模型推理加速，以加速微信搜索的核心任务，包括Query理解和查询结果排序等。我们用GPU+TensorRT的解决方案突破了NLP模型复杂性的限制，BERT/Transformer可以完全集成到我们的解决方案中。此外，我们利用卓越的性能优化方法，节省了70%的计算资源。"

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100835
NVIDIA

NVIDIA

+关注

关注
14

文章
4994

浏览量
103143
模型

模型

+关注

关注
1

文章
3253

浏览量
48874

原文标题：NVIDIA TensorRT助力腾讯加速微信搜索

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

如何开启Stable Diffusion WebUI模型推理部署

发表于 12-11 20:13 •111次阅读

如何开启Stable Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b>部署

阿里云开源推理大模型QwQ

近日，阿里云通义团队宣布推出全新AI推理模型QwQ-32B-Preview，并同步实现了开源。这一举措标志着阿里云在AI推理领域迈出了重要一步。据评测数据显示，QwQ预览版本已具备研究生水平的科学

发表于 11-29 11:30 •564次阅读

使用vLLM+OpenVINO加速大语言模型推理

随着大语言模型的广泛应用，模型的计算需求大幅提升，带来推理时延高、资源消耗大等挑战。

发表于 11-15 14:20 •413次阅读

使用vLLM+OpenVINO加速大语言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

高效大模型的推理综述

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型

发表于 11-15 11:45 •408次阅读

高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>综述

NVIDIA助力提供多样、灵活的模型选择

在本案例中，Dify 以模型中立以及开源生态的优势，为广大 AI 创新者提供丰富的模型选择。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服务器

发表于 09-09 09:19 •482次阅读

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社区是中国最具影响力的模型开源社区，致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM，大大提高了大语言模型的

发表于 08-23 15:48 •459次阅读

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务，与同样刚推出的 Llama 3.1 系列开源

发表于 07-25 09:48 •712次阅读

LLM大模型推理加速的关键技术

LLM（大型语言模型）大模型推理加速是当前人工智能领域的一个研究热点，旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型

发表于 07-24 11:38 •903次阅读

如何加速大语言模型推理

随着人工智能技术的飞速发展，大语言模型（LLM）已成为自然语言处理领域的核心工具，广泛应用于智能客服、文本生成、机器翻译等多个场景。然而，大语言模型的高计算复杂度和资源消耗成为其在实际应用中面临

发表于 07-04 17:32 •548次阅读

英伟达推出AI模型推理服务NVIDIA NIM

英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程，为全球的2800万英伟达开发者提供前所未有的便利。

发表于 06-04 09:15 •684次阅读

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

发表于 05-27 11:50 •547次阅读

英特尔<b class='flag-5'>助力</b>京东云用CPU加速AI<b class='flag-5'>推理</b>，以大<b class='flag-5'>模型</b>构建数智化供应链

NVIDIA与Google DeepMind合作推动大语言模型创新

支持 NVIDIA NIM 推理微服务的谷歌最新开源模型 PaliGemma 首次亮相。

发表于 05-16 09:44 •456次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的 NVID

发表于 04-28 10:36 •582次阅读

NVIDIA全面加快Meta Llama 3的推理速度

Meta 最新开源大语言模型采用 NVIDIA 技术构建，其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。

发表于 04-23 09:52 •469次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •738次阅读

搜索历史

NVIDIA技术助力线上大模型推理

评论

如何开启Stable Diffusion WebUI模型推理部署

阿里云开源推理大模型QwQ

使用vLLM+OpenVINO加速大语言模型推理

高效大模型的推理综述

NVIDIA助力提供多样、灵活的模型选择

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

LLM大模型推理加速的关键技术

如何加速大语言模型推理

英伟达推出AI模型推理服务NVIDIA NIM

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

NVIDIA与Google DeepMind合作推动大语言模型创新

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA全面加快Meta Llama 3的推理速度

利用NVIDIA组件提升GPU推理的吞吐