0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT插件的全自动生成工具

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-07-18 10:13 次阅读

NVIDIA TensorRT 是性能最优、应用最广的 GPU 推理框架,但用户常常因为不支持的算子而面临手写插件的痛点。为此,腾讯 TEG 与 NVIDIA 联合开发了一款能自动生成插件的工具:TensorRT Plugin Autogen Tool,简称 TPAT。它能支持几乎所有的 ONNX 算子,在节省人力成本的同时,性能对比手写插件也毫不逊色。

腾讯 TEG(技术工程团队)为腾讯各个团队提供技术与工程服务,日常任务是为各种产品提供工程设计与实现,以满足其他团队的业务需要。

随着 AI 应用的普及,腾讯 TEG 在深度学习模型的推理上也开始了技术积累。腾讯 TEG 选择了TensorRT作为 NVIDIA GPU 上推理应用的基础软件,开发了大量基于 TensorRT 的 AI 模型,并与 NVIDIA 展开了深入合作。

TensorRT 是一个由 NVIDIA 开发的用于推理的高性能 SDK,包含深度学习推理优化器和运行时环境,可以为深度学习推理应用提供低延迟和高吞吐量,这也是 TensorRT 相比其他框架最大的优势。

不过,TensorRT 也存在一定局限性,当现有模型的算子不能被 TensorRT 直接支持时,工程师不得不手写插件,比较耗时耗力。

腾讯 TEG 表示,手写插件往往是 TensorRT 模型开发中最耗时的一部分,其难点在于:

手写插件需要熟悉 TensorRT 插件的编程接口,需要学习 GPU 和 CUDA 相关知识。

新入门的工程师通常需要 1~2 周时间来编写一个算子实现,模型中如果包含多个不支持算子,就需要更多时间来逐个编写和调试。

如果有一种自动生成插件的工具,将极大地提高 TensorRT 模型开发的效率,于是腾讯 TEG 与 NVIDIA 开展了这方面的合作,历时数月,共同开发了TPAT(TensorRT Plugin Autogen Tool)。

TPAT 本质上是对 TensorRT 的功能扩展。它要解决的关键问题在于如下方面:

为了生成通用的插件,需要开发出 TensorRT 插件的代码模板。与此同时,需要提供部分插件的手工参考实现,用于比对计算结果与性能。这一部分由 NVIDIA 负责。

对于给定的具体算子,其 GPU 上的 CUDA kernel 需要一种自动生成机制。经腾讯 TEG 与 NVIDIA 协商,选择 ONNX 作为候选算子集合,在编写中间代码之后由 TVM 生成 CUDA kernel。这一部分由腾讯 TEG 负责。

在完成上述开发之后,腾讯 TEG 与 NVIDIA 进行联调,并后续同步进行版本迭代。

历经腾讯 TEG 与 NVIDIA 工程师的共同努力,TPAT 已正式发布 1.0 版本。它基于 TVM 和 ONNX,实现了 TensorRT 插件的全自动生成,使得 TensorRT 的部署和上线能基本流程化,不再需要人工参与。

另外,TPAT 全自动生成一个算子插件耗时仅需要 30-60 分钟的时间(该时间用于搜索算子的高性能 CUDA kernel),TensorRT 会因此成为一个真正端到端的推理框架。

0ba14cec-0431-11ed-ba43-dac502259ad0.png

TPAT 亮点:

覆盖度:几乎支持 ONNX 所有的算子

全自动:端到端全自动生成用户指定的 TensorRT Plugin

高性能:大部分算子的性能与手写插件相比并不逊色

值得一提的是,最新发布的 TPAT 也支持了动态 batch,从而成为真正具有业界实用性的工具。

TPAT 已经用在了腾讯游戏中心的多个游戏 AI 模型上,体现了优秀的好用性与性能。此外,很多其他腾讯团队也对 TPAT 感兴趣,在评估与尝试部署 TPAT 生成的 TensorRT 模型。

“对内部业务模型里的部分算子进行了测试,TPAT 的性能几乎全面达到甚至超越 CUDA 工程师手写的插件,并且端到端的设计能够大幅减少人力投入。”来自腾讯 TEG 的工程师邱骞表示。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4978

    浏览量

    102988
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4729

    浏览量

    128890

原文标题:腾讯 TEG 与 NVIDIA 团队共同开发 TPAT:TensorRT 插件的全自动生成工具

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 116次阅读

    NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

    感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布!
    的头像 发表于 11-28 10:43 256次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

    NVIDIA推出全新生成式AI模型Fugatto

    NVIDIA 开发了一个全新的生成式 AI 模型。利用输入的文本和音频,该模型可以创作出包含任意的音乐、人声和声音组合的作品。
    的头像 发表于 11-27 11:29 333次阅读

    使用NVIDIA TensorRT提升Llama 3.2性能

    Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容,包含视觉语言模型(VLM)、小语言模型(SLM)和支持视觉的更新版 Llama Guard 模型。与 NVIDIA 加速
    的头像 发表于 11-20 09:59 209次阅读

    NVIDIA助力Amdocs打造生成式AI智能体

    Amdocs 是一家为通信和媒体提供商提供软件与服务的领先供应商。该公司构建的 amAIz 特定领域生成式 AI 平台帮助电信公司深入改变了客户体验,实现了流程自动化,并优化了决策。Amdocs
    的头像 发表于 11-19 14:48 327次阅读

    TensorRT-LLM低精度推理优化

    本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA TensorRT
    的头像 发表于 11-19 14:29 269次阅读
    <b class='flag-5'>TensorRT</b>-LLM低精度推理优化

    生成式AI工具作用

    生成式AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此,petacloud.ai小编为您整理生成式AI
    的头像 发表于 10-28 11:19 225次阅读

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式 AI
    的头像 发表于 09-06 14:59 301次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型帮助开发者<b class='flag-5'>生成</b>合成训练数据

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高了大模型产业应用效率,更大规模地释放大模型的应用价值。”
    的头像 发表于 08-23 15:48 432次阅读

    NVIDIA宣布全面推出 NVIDIA ACE 生成式 AI 微服务

    采用 NVIDIA 宣布全面推出 NVIDIA ACE 生成式 AI 微服务,以加速新一代数字人的发展,并将在平台上推出全新的生成式 AI 突破。客户服务、游戏和医疗健康领域的公司率先
    的头像 发表于 06-04 10:18 656次阅读

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的
    的头像 发表于 04-28 10:36 549次阅读

    全自动激光切管机:高效、精确的切割利器

    编辑:镭拓激光在当今的制造业中,全自动激光切管机已成为切割领域的重要工具。作为一种先进的切割设备,全自动激光切管机以其高效、精确的特点,得到了广大用户的青睐。全自动激光切管机的工作原理
    的头像 发表于 01-19 11:48 825次阅读
    <b class='flag-5'>全自动</b>激光切管机:高效、精确的切割利器

    NVIDIA生成式AI开启药物研发与设计的新纪元

    NVIDIA BioNeMo 现已提供十余个生成式 AI 模型以及云服务,正在推动计算机辅助药物发现生态系统的发展。
    的头像 发表于 01-10 16:00 528次阅读
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>生成</b>式AI开启药物研发与设计的新纪元

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc
    的头像 发表于 01-09 16:41 1716次阅读
    Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch模型推理性能的<b class='flag-5'>工具</b>

    NVIDIA展示游戏、创作、生成式AI和机器人领域的创新成果

    NVIDIA CES 2024 特别演讲亮点 - 全新 GeForce RTX 40 SUPER GPU,RTX AI 笔记本电脑,为数百万用户带来生成式 AI 工具
    的头像 发表于 01-09 09:22 497次阅读