NVIDIA TensorRT 8.2将推理速度提高6倍-电子发烧友网

NVIDIA 发布了 TensorRT 8.2 ，对十亿参数 NLU 模型进行了优化。其中包括 T5 和 GPT-2 ，用于翻译和文本生成，使实时运行 NLU 应用程序成为可能。

TensorRT 是一款高性能的深度学习推理优化器和运行时，为人工智能应用程序提供低延迟、高吞吐量推理。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务和能源等多个行业。

PyTorch 和 TensorFlow 是拥有数百万用户的最流行的深度学习框架。新的 TensorRT 框架集成现在在 PyTorch 和 TensorFlow 中提供了一个简单的 API ，并提供了强大的 FP16 和 INT8 优化，从而将推理速度提高了 6 倍。

亮点包括

TensorRT 8.2:T5 和 GPT-2 的优化运行实时翻译和摘要，与 CPU 相比，性能提高了 21 倍。

TensorRT 8.2 ：适用于使用 Windows 的开发人员的简单 Python API 。

Torch TensorRT:PyTorch 的集成与 GPU 上的框架内推理相比，仅需一行代码即可提供高达 6 倍的性能。

TensorFlow TensorRT:TensorFlow 与 TensorRT 的集成提供了比使用一行代码在 GPU 上进行框架内推理快 6 倍的性能。

资源

Torch- TensorRT 在 NGC catalog 的 PyTorch 容器中提供。

TensorFlow- TensorRT 目前可从 NGC catalog 的 TensorFlow 容器中获得。

TensorRT 免费提供给 NVIDIA 开发程序的成员。

在 TensorRT 产品页面了解更多信息。

关于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的产品营销经理，负责深入学习和推理产品，推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位，主攻计算机视觉和自然语言处理。在 NVIDIA 之前，杰伊是宝马集团的人工智能研究实习生，为宝马最大的制造厂使用计算机视觉解决问题。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4985

浏览量
103035
互联网

互联网

+关注

关注
54

文章
11154

浏览量
103293
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121154

在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术，该技术现在可与 NVIDIA TensorRT-LLM 一起使用。

发表于 12-25 17:31 •102次阅读

在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

解锁NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术，包括自定义 Attention Kernel、Inflight

发表于 12-17 17:47 •152次阅读

NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布！

发表于 11-28 10:43 •270次阅读

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

TensorRT-LLM低精度推理优化

本文将分享 TensorRT-LLM 中低精度量化内容，并从精度和速度角度对比 FP8 与 INT8。首先介绍性能，包括速度和精度。其次，介绍量化工具

发表于 11-19 14:29 •297次阅读

<b class='flag-5'>TensorRT</b>-LLM低精度<b class='flag-5'>推理</b>优化

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社区是中国最具影响力的模型开源社区，致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM，大大提高了大语言模型的推理性能，方便了模型应用部署，

发表于 08-23 15:48 •450次阅读

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务，与同样刚推出的 Llama 3.1 系列开源模型一起，为全球企业的生成式 AI

发表于 07-25 09:48 •705次阅读

MediaTek与NVIDIA TAO加速物联网边缘AI应用发展

在即将到来的COMPUTEX 2024科技盛会上，全球知名的芯片制造商MediaTek宣布了一项重要合作——将NVIDIA的TAO（TensorRT Accelerated Optimizer）与其NeuroPilot SDK（

发表于 06-12 14:49 •474次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

大型语言模型（LLM）和专家混合（MoE）模型的推理过程。第二代Transformer引擎采用8位浮点（FP8）和新的精度等技术，将大型语言模型如GPT-MoE-1.8T的训练速度提高

发表于 05-13 17:16

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •563次阅读

NVIDIA全面加快Meta Llama 3的推理速度

Meta 最新开源大语言模型采用 NVIDIA 技术构建，其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。

发表于 04-23 09:52 •461次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）

发表于 04-20 09:39 •725次阅读

NVIDIA cuOpt算法将路径优化求解速度提高100倍

NVIDIA cuOpt 是一个用于解决复杂路径问题的加速优化引擎。它能高效解决不同方面的问题，如休息时间、等待时间、多个车辆成本和时间矩阵、多个目标、订单-车辆匹配、车辆起始和结束位置、车辆起始和结束时间等。

发表于 04-19 10:09 •441次阅读

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •584次阅读

利用NVIDIA产品技术组合提升用户体验

本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型，并借助NVIDIA Triton推理服务器在NVIDIA V1

发表于 01-17 09:30 •692次阅读

Torch TensorRT是一个优化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我们大家聚在一起的原因，它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc

发表于 01-09 16:41 •1735次阅读

搜索历史

NVIDIA TensorRT 8.2将推理速度提高6倍

评论

在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

解锁NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

TensorRT-LLM低精度推理优化

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

MediaTek与NVIDIA TAO加速物联网边缘AI应用发展

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA全面加快Meta Llama 3的推理速度

利用NVIDIA组件提升GPU推理的吞吐

NVIDIA cuOpt算法将路径优化求解速度提高100倍

使用NVIDIA Triton推理服务器来加速AI预测

利用NVIDIA产品技术组合提升用户体验

Torch TensorRT是一个优化PyTorch模型推理性能的工具