0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT 8.2将推理速度提高6倍

星星科技指导员 来源:NVIDIA 作者:About Jay Rodge 2022-03-31 17:10 次阅读

NVIDIA 发布了 TensorRT 8.2 ,对十亿参数 NLU 模型进行了优化。其中包括 T5 和 GPT-2 ,用于翻译和文本生成,使实时运行 NLU 应用程序成为可能。

TensorRT 是一款高性能的深度学习推理优化器和运行时,为人工智能应用程序提供低延迟、高吞吐量推理。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务和能源等多个行业。

PyTorch 和 TensorFlow 是拥有数百万用户的最流行的深度学习框架。新的 TensorRT 框架集成现在在 PyTorch 和 TensorFlow 中提供了一个简单的 API ,并提供了强大的 FP16 和 INT8 优化,从而将推理速度提高了 6 倍。

亮点包括

TensorRT 8.2:T5 和 GPT-2 的优化运行实时翻译和摘要,与 CPU 相比,性能提高了 21 倍。

TensorRT 8.2 :适用于使用 Windows 的开发人员的简单 Python API 。

Torch TensorRT:PyTorch 的集成与 GPU 上的框架内推理相比,仅需一行代码即可提供高达 6 倍的性能。

TensorFlow TensorRT:TensorFlow 与 TensorRT 的集成提供了比使用一行代码在 GPU 上进行框架内推理快 6 倍的性能。

资源

Torch- TensorRT 在 NGC catalog 的 PyTorch 容器中提供。

TensorFlow- TensorRT 目前可从 NGC catalog 的 TensorFlow 容器中获得。

TensorRT 免费提供给 NVIDIA 开发程序 的成员。

在 TensorRT 产品页面了解更多信息

关于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的产品营销经理,负责深入学习和推理产品,推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位,主攻计算机视觉和自然语言处理。在 NVIDIA 之前,杰伊是宝马集团的人工智能研究实习生,为宝马最大的制造厂使用计算机视觉解决问题。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4985

    浏览量

    103035
  • 互联网
    +关注

    关注

    54

    文章

    11154

    浏览量

    103293
  • 深度学习
    +关注

    关注

    73

    文章

    5503

    浏览量

    121154
收藏 人收藏

    评论

    相关推荐

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 102次阅读
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 152次阅读

    NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

    感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布!
    的头像 发表于 11-28 10:43 270次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

    TensorRT-LLM低精度推理优化

    本文分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具
    的头像 发表于 11-19 14:29 297次阅读
    <b class='flag-5'>TensorRT</b>-LLM低精度<b class='flag-5'>推理</b>优化

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,
    的头像 发表于 08-23 15:48 450次阅读

    英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务,与同样刚推出的 Llama 3.1 系列开源模型一起,为全球企业的生成式 AI
    的头像 发表于 07-25 09:48 705次阅读

    MediaTek与NVIDIA TAO加速物联网边缘AI应用发展

    在即将到来的COMPUTEX 2024科技盛会上,全球知名的芯片制造商MediaTek宣布了一项重要合作——NVIDIA的TAO(TensorRT Accelerated Optimizer)与其NeuroPilot SDK(
    的头像 发表于 06-12 14:49 474次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    大型语言模型(LLM)和专家混合(MoE)模型的推理过程。 第二代Transformer引擎采用8位浮点(FP8)和新的精度等技术,大型语言模型如GPT-MoE-1.8T的训练速度提高
    发表于 05-13 17:16

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的
    的头像 发表于 04-28 10:36 563次阅读

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。
    的头像 发表于 04-23 09:52 461次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)
    的头像 发表于 04-20 09:39 725次阅读

    NVIDIA cuOpt算法路径优化求解速度提高100

    NVIDIA cuOpt 是一个用于解决复杂路径问题的加速优化引擎。它能高效解决不同方面的问题,如休息时间、等待时间、多个车辆成本和时间矩阵、多个目标、订单-车辆匹配、车辆起始和结束位置、车辆起始和结束时间等。
    的头像 发表于 04-19 10:09 441次阅读
    <b class='flag-5'>NVIDIA</b> cuOpt算法<b class='flag-5'>将</b>路径优化求解<b class='flag-5'>速度</b><b class='flag-5'>提高</b>100<b class='flag-5'>倍</b>

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 584次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在NVIDIA V1
    的头像 发表于 01-17 09:30 692次阅读

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc
    的头像 发表于 01-09 16:41 1735次阅读
    Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch模型<b class='flag-5'>推理</b>性能的工具