0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorRT和Triton助力微信OCR降低耗时和成本

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-13 14:44 次阅读

简介

• 本案例中通过NVIDIA T4 GPUTensorRT和Triton, 帮助微信OCR降低整体耗时46%, 并将系统的失败率降低81%,同时降低了高达78%的服务器数量。

• 本案例主要应用到 NVIDIA GPU ,TensorRT和Triton。

客户简介

腾讯微信是一款跨平台的通讯工具。支持通过手机网络发送语音、图片、视频和文字等。截至2021年6月,微信在全球拥有超过12亿活跃用户,是国内活跃用户最多的社交软件。

微信识物是一款主打物品识别的 AI 产品,通过相机拍摄物品,更高效、更智能地获取信息。2020 年,微信识物拓展了更多识别场景,上线了微信版的图片搜索。打开微信扫一扫,左滑切换到“识物”功能,对准想要了解的物品正面,可以获取对应的物品信息,包括物品百科、相关资讯、相关商品

2021年1月, 微信发布的微信8.0,版本更新支持图片文字提取的功能。用户在聊天界面和朋友圈中长按图片就可以提取图片中文字,然后一键转发、复制或收藏。

挑战

微信识物包含检测、图像召回、信息提炼等环节,OCR主要包括识别和检测,这两种应用都有非常大的计算量,在用Pytorch进行模型的推理时,一方面时延特别大,导致用户体验受损;另一方面,显存占用很大,单张NVIDIA T4上部署的模型数比较少,导致推理请求的并发数上不去,请求失败的概率太高,只能通过增加机器的方式来提高并发能力,业务部署成本较高。再次,使用的模型经常变化,而业务需要更换后的模型能够快速地加速和上线部署。

方案

基于以上挑战,腾讯微信选择了采用NVIDIA 的TensorRT对模型进行推理加速,并利用NVIDIA Triton推理服务器在T4 GPU上进行在线部署,在提升用户体验的同时,大幅降低了服务成本。

1、 通过使用TensorRT对微信识物和OCR的模型进行加速,在都使用FP32的情况下,与Pytorch相对,时延降低50%左右。

2、 在OCR的识别和检测阶段,使用TensorRT结合NVIDIA T4 GPU 的FP16 Tensor Core,在保证精度的同时,识别的时延进一步降低了50%,检测降低了20%。

3、 在微信识物的分类和检测任务中,通过使用NVIDIA T4 GPU 的int8 Tensor Core,并结合QAT,在满足精度要求的前提下,进一步大幅提升了性能。

4、 通过使用FP16和int8 低精度模式,在大幅降低推理时延的同时,大大减少了显存的占用,在FP16模式下,单模型显存占用仅占FP32模式的40%–50%, 而在int8模式下,单模型显存占用仅占FP32模式的30%左右。在提高单张T4卡上部署的模型数量的同时,大幅提高了单GPU的推理请求并发能力。

5、 Triton的dynamic batch和多实例等特性,帮助微信将在满足时延要求的同时,提高了系统整体的并发能力,将系统失败降低了81%。

6、 TensorRT可以对模型进行快速的加速,Triton则可以对加速后的模型进行快速的部署,满足了业务对修改后的模型进行快速部署的需求,同时也大大减少了工程人员的工作量。

效果

通过使用NVIDIA的TensorRT对微信识物和OCR的模型进行加速,在降低单次推理时延50%以上的同时,节约了多达64%的显存。结合Triton的dynamic batch和多实例的功能,OCR的整体时延降低了46%,系统失败率降低了81%。大大提高了用户的体验,并且服务器的数量减少了多达78%,极大降低了服务的成本。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4862

    浏览量

    102747
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4685

    浏览量

    128637
  • 服务器
    +关注

    关注

    12

    文章

    8986

    浏览量

    85120
收藏 人收藏

    评论

    相关推荐

    Linux4.0.0版发布,功能再升级

    近日,备受瞩目的Linux4.0.0版本终于迎来了正式发布。此次版本更新不仅带来了多项实用功能,还实现了与Windows、macOS公测版本的功能一致和更新同步,为用户带来了更加便捷
    的头像 发表于 11-06 10:59 169次阅读

    降低成本城域网

    电子发烧友网站提供《降低成本城域网.pdf》资料免费下载
    发表于 10-12 11:46 0次下载
    <b class='flag-5'>降低成本</b>城域网

    使用MSP430™ MCU降低PLC模拟输入模块的成本

    电子发烧友网站提供《使用MSP430™ MCU降低PLC模拟输入模块的成本.pdf》资料免费下载
    发表于 09-07 09:42 0次下载
    使用MSP430™ MCU<b class='flag-5'>降低</b>PLC模拟输入模块的<b class='flag-5'>成本</b>

    iPhone16不支持?苹果最新回应

    来源:青春上海 编辑:感知芯视界 Link 有网传消息称“iPhone16可能不支持”,对此记者致电苹果官方热线,接线的苹果中国区技术顾问表示,第三方言论关于iOS系统或者苹果设备能否再使用
    的头像 发表于 09-05 09:00 549次阅读

    CC2340系统降低成本的方案剖析

    电子发烧友网站提供《CC2340系统降低成本的方案剖析.pdf》资料免费下载
    发表于 08-27 09:43 0次下载
    CC2340系统<b class='flag-5'>降低成本</b>的方案剖析

    能源管理系统如何降低运维成本

    智能运维管理系统、电能集抄系统、移动端app的应用,有效降低了人工成本和运维成本,优化了运行策略,实现了设备的使用寿命延长,降低了运维成本
    的头像 发表于 04-16 14:45 478次阅读
    能源管理系统如何<b class='flag-5'>降低</b>运维<b class='flag-5'>成本</b>?

    基于瑞萨RA6M5的电子墨水屏信息站设计方案

    手机是我们日常生活中使用越来越多的通信工具之一,手机在给我们带来便利的同时,也带来很多烦恼。
    的头像 发表于 03-28 13:33 1541次阅读
    基于瑞萨RA6M5的电子墨水屏<b class='flag-5'>微</b><b class='flag-5'>信</b>信息站设计方案

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 536次阅读

    如何判断触摸屏用有机硅OCR/LOCA性能的优劣

    判断OCR/LOCA性能的优劣
    的头像 发表于 02-29 10:48 541次阅读

    在AMD GPU上如何安装和配置triton

    最近在整理python-based的benchmark代码,反过来在NV的GPU上又把Triton装了一遍,发现Triton的github repo已经给出了对应的llvm的commit id以及对应的编译细节,然后跟着走了一遍,也顺利的安装成功,只需要按照如下方式即可完
    的头像 发表于 02-22 17:04 2211次阅读
    在AMD GPU上如何安装和配置<b class='flag-5'>triton</b>?

    【BBuf的CUDA笔记】OpenAI Triton入门笔记一

    这里来看官方的介绍:https://openai.com/research/triton ,从官方的介绍中我们可以看到OpenAI Triton的产生动机以及它的目标是什么,还可以看到一些经典算法的实现例子展示。
    的头像 发表于 01-23 10:00 2444次阅读
    【BBuf的CUDA笔记】OpenAI <b class='flag-5'>Triton</b>入门笔记一

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torch TensorRT就是这两者的结合。
    的头像 发表于 01-09 16:41 1477次阅读
    Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch模型推理性能的工具

    什么是Triton-shared?Triton-shared的安装和使用

    经过前面几章关于triton在nv gpu上调优的讲解,我们这章开始来看看triton的一个third_party库,该库是为了让triton去支持更多其他的backend。该项目的地址如下所示
    的头像 发表于 12-19 09:47 1080次阅读
    什么是<b class='flag-5'>Triton</b>-shared?<b class='flag-5'>Triton</b>-shared的安装和使用

    Triton编译器的原理和性能

    Triton是一种用于编写高效自定义深度学习原语的语言和编译器。Triton的目的是提供一个开源环境,以比CUDA更高的生产力编写快速代码,但也比其他现有DSL具有更大的灵活性。Triton已被采用
    的头像 发表于 12-16 11:22 2689次阅读
    <b class='flag-5'>Triton</b>编译器的原理和性能

    电路板pcb打样降低成本的方法

    电路板pcb打样降低成本的方法
    的头像 发表于 12-13 17:25 732次阅读