0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT助力模型性能提升

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-10-09 14:57 次阅读

夸克浏览器是阿里旗下的一个搭载极速AI引擎的高速智能浏览器。夸客以极速智能搜索为定位,致力于为用户提供交互更智能高效、内容更专业权威的新一代搜索引擎,同时也在产品极致体验上不断实现突破。

夸克目前不仅提供极致的搜索体验,也在探索以深度学习为基础的AI工具,通过高效的算法效果和全流程的性能优化,提供更好的用户体验。深度学习模型在实际应用的过程中,效果远好于传统模型,但由于算法复杂度过高,预测性能成为制约模型最终能否上线的核心问题。NVIDIA TensorRT通过计算图的优化、高效Kernel的实现及更高效硬件的利用加速模型预测耗时,使预测速度提升了1~3倍。

智能相机功能对ORC实时性提出新要求

夸克浏览器为用户提供智能相机功能,打开夸克APP后,通过相机入口(如下左图红框所示)进入智能相机功能,可以看到智能相机提供的具体功能(如下右图所示),包括万能扫描、学习辅导、万物识别等功能,这些功能对实时性要求极高,不少功能的底层核心技术依赖OCR。作为核心一环,OCR需要承接巨大流量,其效果及性能影响整个上层业务的用户体验。

OCR全流程包含检测、识别等多个模型以及复杂的前后处理,整体耗时10s级别,耗时过长严重影响用户体验,无法达到上线要求。主要影响性能的因素有以下三点:单个模型占用显存过大导致全流程无法部署在同一个GPU上,需要在多个GPU上进行数据传输,多GPU部署导致GPU利用率不高;模型本身性能慢,涉及复杂的检测和识别模型;全流程中模型前后处理复杂。

NVIDIA TensorRT助力模型性能提升

对比目前性能优化方案,夸克选择了采用NVIDIA TensorRT作为模型优化的底层框架对模型进行优化。TensorRT提供完整端到端模型性能优化工具,支持TF和ONNX等相关框架模型,使用后对模型性能带来巨大提升。

1、TensorRT对模型结构进行优化,使用高效Kernel实现,并且支持FP16和INT8量化。部分模型通过使用TensorRT,模型性能达到2-3倍的提升,并且显存降到原来的30%~50%。

2、有模型在使用FP16精度后,模型效果下降,夸克团队在NVIDIA工作人员的指导下,通过对模型设置混合精度,模型的性能较FP16略微下降,但整体效果能够达到要求。

3、对于部分转TensorRT失败的模型,对模型进行分析,单独抽取模型耗时的部分进行模型优化。

4、在使用TensorRT的过程中,通过Nsight Systems发现TensorRT OP在某些场景性能表现不尽人意,在NVIDIA工作人员指导下,通过调整OP的使用方式解决该问题。

TensorRT助力OCR全流程性能优化

通过使用NVIDIA TensorRT,夸克浏览器极大地提升了模型性能和降低模型本身显存占用,提高了GPU的使用率。在对整体流程和模型进行优化后,全部模型能够部署在单个GPU上,并且整体耗时在400ms内。

夸克技术人员表示:TensorRT文档齐全,功能使用方便,用户能够以低门槛使用其带来的优化,无需手动编写复杂模型转换工具,大大地减少了用户投入成本。对比其他模型优化框架,TensorRT具有更好的通用性、易用性和性能。

通过这次对OCR全流程的性能优化,夸克浏览器也积累了一套适合内部使用的模型性能优化方案,在遇到其他模型性能问题时也有的放矢。目前夸克已经把TensorRT相关优化工具集成到其浏览器的内部平台上,同时应用到其他业务的模型中,并取得良好的效果。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4994

    浏览量

    103196
  • AI
    AI
    +关注

    关注

    87

    文章

    31000

    浏览量

    269335
  • 浏览器
    +关注

    关注

    1

    文章

    1028

    浏览量

    35390

原文标题:NVIDIA TensorRT 加速夸克浏览器AI应用,对模型性能提升起到关键作用

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 162次阅读
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 185次阅读

    NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

    感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布!
    的头像 发表于 11-28 10:43 291次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

    使用NVIDIA TensorRT提升Llama 3.2性能

    Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容,包含视觉语言模型(VLM)、小语言模型(SLM)和支持视觉的更
    的头像 发表于 11-20 09:59 244次阅读

    TensorRT-LLM低精度推理优化

    本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA TensorRT
    的头像 发表于 11-19 14:29 324次阅读
    <b class='flag-5'>TensorRT</b>-LLM低精度推理优化

    NVIDIA NIM助力企业高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM,将允许用户通过 API 调用来大规模地部署大语言模型
    的头像 发表于 10-10 09:49 402次阅读

    NVIDIA CorrDiff生成式AI模型能够精准预测台风

    NVIDIA GPU 上运行的一个扩散模型向天气预报工作者展示了加速计算如何实现新的用途并提升能效。
    的头像 发表于 09-13 17:13 713次阅读

    NVIDIA助力提供多样、灵活的模型选择

    在本案例中,Dify 以模型中立以及开源生态的优势,为广大 AI 创新者提供丰富的模型选择。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服务器产品,为
    的头像 发表于 09-09 09:19 483次阅读

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励
    的头像 发表于 09-06 14:59 331次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>帮助开发者生成合成训练数据

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型
    的头像 发表于 08-23 15:48 463次阅读

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型TensorRT-LLM
    的头像 发表于 04-28 10:36 584次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 748次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在NVIDIA V1
    的头像 发表于 01-17 09:30 706次阅读

    DOH新工艺技术助力提升功率器件性能及使用寿命

    DOH新工艺技术助力提升功率器件性能及使用寿命
    的头像 发表于 01-11 10:00 636次阅读
    DOH新工艺技术<b class='flag-5'>助力</b><b class='flag-5'>提升</b>功率器件<b class='flag-5'>性能</b>及使用寿命

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc
    的头像 发表于 01-09 16:41 1773次阅读
    Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch<b class='flag-5'>模型</b>推理<b class='flag-5'>性能</b>的工具