0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA技术助力线上大模型推理

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达 2021-10-28 15:28 次阅读

随着腾讯微信的发展,微信搜索也成为其越来越重要的功能,这个功能可以用来搜索微信内部的账号、信息,以及搜索互联网上的内容。微信搜索月活跃用户数量达到五亿以上。搜索业务当中使用了大量的神经网络模型,包括自然语言理解、匹配排序等等,这些模型的训练和推理都大量依赖于NVIDIA GPU,尤其在推理方面,NVIDIA GPU及相应的解决方案都满足了业务所需的延迟和吞吐要求。

微信搜索业务需要更高效平台

微信搜索业务由多个子模块构成,包括查询理解、匹配、搜索排序等等。由于搜索的业务特点,这些任务对线上服务的延迟和吞吐都十分敏感。然而在最近几年,随着算力的提升以及算法的创新,很多大型复杂的神经网络模型开始应用在这些任务上,比如BERT/Transformer等模型。

这些大模型需要的计算资源和业务上的高要求对推理端的软硬件都是很大的挑战,必须针对具体的硬件做极致的优化。而且对于大模型的推理,很多技术被探索、应用在这些场景上以便实现性能加速、节约资源,比如模型压缩、剪枝、低精度计算等。这些技术可能会带来精度下降等负面影响,限制了这些技术的广泛应用。因此,如何在保证精度效果以及服务吞吐延迟需求的情况下,高效地对这些模型进行推理成为了业务上的巨大挑战。NVIDIA GPU以及NVIDIA TensorRT给这一场景提供了解决方案。

NVIDIA技术助力线上大模型推理

为了满足线上服务的需求,并且尽可能地节约成本,微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来进行线上大模型的推理。

线上服务对于吞吐和延迟有很高的要求,微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来做线上推理服务,利用NVIDIA基于TensorRT开源的BERT实现,可以很方便地在FP16精度下实现满足需求的线上推理功能。这个方案在线上取得了很好的效果。

在此基础上,微信搜索希望进一步加快推理速度,节约计算资源,以便更好地服务用户,节约成本。低精度推理成为了很好的选择。NVIDIA GPU从图灵(Turing)架构开始就有了INT8 Tensor Core,其计算吞吐量最高可达FP16精度的2倍。同时低精度推理跟其他的优化方法也是正交的,可以同时使用其他技术比如剪枝、蒸馏等做进一步提升。微信搜索线上大量使用NVIDIA T4 GPU,非常适合使用INT8推理。而且TensorRT对INT8推理也有良好的支持。利用TensorRT的“校准”(Calibration)功能,能够方便地将Float精度模型转换为INT8低精度模型,实现低精度推理。通过低精度推理,模型的单次推理时间大大缩短。

通过“校准”来做模型转换已经在很多计算机视觉模型上被验证是十分有效的,并且其精度和推理性能都十分优秀。然而对于像BERT一类的模型, “校准” 无法使得精度和性能都完全令人满意。因此,腾讯搜索使用了NVIDIA开发的基于PyTorch/TensorFlow的量化工具进行基于知识蒸馏的量化感知训练(Quantization Aware Training)克服精度下降的问题。TensorRT对于导入量化感知训练好的模型进行INT8低精度推理有着很好的支持。导入这样的模型,不仅得到了最佳性能,而且精度没有损失,线上服务只需更换TensorRT构建好的引擎即可,极大地简化了部署的流程。

通过这样的方案,微信搜索中的一些关键任务,比如查询理解等自然语言理解任务,可以在精度没有损失的情况下,达到2-10倍的加速效果,平均单句推理时间达到了0.1ms。任务相应的计算资源节省了约70%。这个方案大大优化了微信搜索业务的性能,降低了部署成本。

使用NVIDIA T4 GPU以及TensorRT推理引擎进行INT8低精度推理,极大提升了微信搜索的速度,进一步提升了用户体验,节约了公司成本。

微信搜索的Hui Liu、Raccoon Liu和Dick Zhu表示:“我们已经实现了基于TensorRT和INT8 QAT的模型推理加速,以加速微信搜索的核心任务,包括Query理解和查询结果排序等。我们用GPU+TensorRT的解决方案突破了NLP模型复杂性的限制,BERT/Transformer可以完全集成到我们的解决方案中。此外,我们利用卓越的性能优化方法,节省了70%的计算资源。”

责任编辑:haq

随着腾讯微信的发展,微信搜索也成为其越来越重要的功能,这个功能可以用来搜索微信内部的账号、信息,以及搜索互联网上的内容。微信搜索月活跃用户数量达到五亿以上。搜索业务当中使用了大量的神经网络模型,包括自然语言理解、匹配排序等等,这些模型的训练和推理都大量依赖于NVIDIA GPU,尤其在推理方面,NVIDIA GPU及相应的解决方案都满足了业务所需的延迟和吞吐要求。

微信搜索业务需要更高效平台

微信搜索业务由多个子模块构成,包括查询理解、匹配、搜索排序等等。由于搜索的业务特点,这些任务对线上服务的延迟和吞吐都十分敏感。然而在最近几年,随着算力的提升以及算法的创新,很多大型复杂的神经网络模型开始应用在这些任务上,比如BERT/Transformer等模型。 这些大模型需要的计算资源和业务上的高要求对推理端的软硬件都是很大的挑战,必须针对具体的硬件做极致的优化。而且对于大模型的推理,很多技术被探索、应用在这些场景上以便实现性能加速、节约资源,比如模型压缩、剪枝、低精度计算等。这些技术可能会带来精度下降等负面影响,限制了这些技术的广泛应用。因此,如何在保证精度效果以及服务吞吐延迟需求的情况下,高效地对这些模型进行推理成为了业务上的巨大挑战。NVIDIA GPU以及NVIDIATensorRT给这一场景提供了解决方案。

NVIDIA技术助力线上大模型推理

为了满足线上服务的需求,并且尽可能地节约成本,微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来进行线上大模型的推理。

线上服务对于吞吐和延迟有很高的要求,微信搜索选择使用NVIDIA T4 GPU以及TensorRT推理引擎来做线上推理服务,利用NVIDIA基于TensorRT开源的BERT实现,可以很方便地在FP16精度下实现满足需求的线上推理功能。这个方案在线上取得了很好的效果。

在此基础上,微信搜索希望进一步加快推理速度,节约计算资源,以便更好地服务用户,节约成本。低精度推理成为了很好的选择。NVIDIA GPU从图灵(Turing)架构开始就有了INT8 Tensor Core,其计算吞吐量最高可达FP16精度的2倍。同时低精度推理跟其他的优化方法也是正交的,可以同时使用其他技术比如剪枝、蒸馏等做进一步提升。微信搜索线上大量使用NVIDIA T4 GPU,非常适合使用INT8推理。而且TensorRT对INT8推理也有良好的支持。利用TensorRT的“校准”(Calibration)功能,能够方便地将Float精度模型转换为INT8低精度模型,实现低精度推理。通过低精度推理,模型的单次推理时间大大缩短。

通过“校准”来做模型转换已经在很多计算机视觉模型上被验证是十分有效的,并且其精度和推理性能都十分优秀。然而对于像BERT一类的模型, “校准” 无法使得精度和性能都完全令人满意。因此,腾讯搜索使用了NVIDIA开发的基于PyTorch/TensorFlow的量化工具进行基于知识蒸馏的量化感知训练(Quantization Aware Training)克服精度下降的问题。TensorRT对于导入量化感知训练好的模型进行INT8低精度推理有着很好的支持。导入这样的模型,不仅得到了最佳性能,而且精度没有损失,线上服务只需更换TensorRT构建好的引擎即可,极大地简化了部署的流程。

通过这样的方案,微信搜索中的一些关键任务,比如查询理解等自然语言理解任务,可以在精度没有损失的情况下,达到2-10倍的加速效果,平均单句推理时间达到了0.1ms。任务相应的计算资源节省了约70%。这个方案大大优化了微信搜索业务的性能,降低了部署成本。 使用NVIDIA T4 GPU以及TensorRT推理引擎进行INT8低精度推理,极大提升了微信搜索的速度,进一步提升了用户体验,节约了公司成本。 微信搜索的Hui Liu、Raccoon Liu和Dick Zhu表示:"我们已经实现了基于TensorRT和INT8 QAT的模型推理加速,以加速微信搜索的核心任务,包括Query理解和查询结果排序等。我们用GPU+TensorRT的解决方案突破了NLP模型复杂性的限制,BERT/Transformer可以完全集成到我们的解决方案中。此外,我们利用卓越的性能优化方法,节省了70%的计算资源。"

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4765

    浏览量

    100549
  • NVIDIA
    +关注

    关注

    14

    文章

    4946

    浏览量

    102820
  • 模型
    +关注

    关注

    1

    文章

    3176

    浏览量

    48721

原文标题:NVIDIA TensorRT助力腾讯加速微信搜索

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用vLLM+OpenVINO加速大语言模型推理

    随着大语言模型的广泛应用,模型的计算需求大幅提升,带来推理时延高、资源消耗大等挑战。
    的头像 发表于 11-15 14:20 241次阅读
    使用vLLM+OpenVINO加速大语言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理综述

    模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型
    的头像 发表于 11-15 11:45 236次阅读
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>综述

    NVIDIA助力提供多样、灵活的模型选择

    在本案例中,Dify 以模型中立以及开源生态的优势,为广大 AI 创新者提供丰富的模型选择。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服务器
    的头像 发表于 09-09 09:19 436次阅读

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型
    的头像 发表于 08-23 15:48 392次阅读

    英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务,与同样刚推出的 Llama 3.1 系列开源
    的头像 发表于 07-25 09:48 673次阅读

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型
    的头像 发表于 07-24 11:38 779次阅读

    如何加速大语言模型推理

    随着人工智能技术的飞速发展,大语言模型(LLM)已成为自然语言处理领域的核心工具,广泛应用于智能客服、文本生成、机器翻译等多个场景。然而,大语言模型的高计算复杂度和资源消耗成为其在实际应用中面临
    的头像 发表于 07-04 17:32 468次阅读

    英伟达推出AI模型推理服务NVIDIA NIM

    英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程,为全球的2800万英伟达开发者提供前所未有的便利。
    的头像 发表于 06-04 09:15 650次阅读

    英特尔助力京东云用CPU加速AI推理,以大模型构建数智化供应链

    英特尔助力京东云用CPU加速AI推理,以大模型构建数智化供应链
    的头像 发表于 05-27 11:50 503次阅读
    英特尔<b class='flag-5'>助力</b>京东云用CPU加速AI<b class='flag-5'>推理</b>,以大<b class='flag-5'>模型</b>构建数智化供应链

    NVIDIA与Google DeepMind合作推动大语言模型创新

    支持 NVIDIA NIM 推理微服务的谷歌最新开源模型 PaliGemma 首次亮相。
    的头像 发表于 05-16 09:44 423次阅读

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的 NVID
    的头像 发表于 04-28 10:36 490次阅读

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。
    的头像 发表于 04-23 09:52 427次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 649次阅读

    不要错过!NVIDIA “大模型没那么泛!”主题活动

    2024 新年首发! NVIDIA模型日系列活动 将于 2024 年 1 月 正式启动,由 NVIDIA 和业界专家携手分享大模型应用开发的洞见和最佳实践,探讨前沿
    的头像 发表于 12-20 19:35 631次阅读
    不要错过!<b class='flag-5'>NVIDIA</b> “大<b class='flag-5'>模型</b>没那么泛!”主题活动

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    场景介绍 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件设备 AI 模型推理的功能,目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。 本文介绍
    发表于 12-14 11:41