Torch-TensorRT软件更新 HF BERT性能提升40%-电子发烧友网

Torch-TensorRT软件更新 HF BERT性能提升40%

我们十分高兴地宣布，Torch-TensorRT 1.1.0 版本正式发布！

软件版本

PyTorch 1.11

CUDA 11.3（在 x86_64 上，默认设置下，兼容的 PyTorch Build 支持较新版本的 CUDA 11）

cuDNN 8.2.4.15

TensorRT 8.2.4.2

由于最近 JetPack 的升级和其发布流程的变化，Torch-TRTv1.1.0 版本不支持Jetson（Jetpack 5.0DP 或其他）。将在中期版本（Torch-TensorRT1.1.x）同时支持 Jetpack 5.0DP 和 TensorRT 8.4。

重要变更

HF BERT性能

算子和性能的进一步优化使 HF BERT 的性能比 V1.1 版本提升了 40%

更多的算子

18 个新的 aten 算子转换器提高了 TensorRT 的模型覆盖范围和性能

查看全部 250+ 个算子

Triton 后端支持

21.12 版本以上的 Triton 现已支持 Torch-TensorRT

将在不久后提供工作流程教程

调试工具

上下文管理器现在允许使用更简洁清晰的调试工作流程

不支持的算子已降级为警告，建议使用上下文管理器进行调查

API 变更

max_batch_size 和 strict_types 由于在 TRT 中不被遵守已被删除

所有与 Torch-TensorRT 相关的 Bug 都应被归入新的 “MachineLearning – TorchTRT” nvbugs 模块。

原文标题：Torch-TensorRT 1.1.0 版本正式发布

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

软件

软件

+关注

关注
69

文章
4968

浏览量
87696
pytorch

pytorch

+关注

关注
2

文章
808

浏览量
13249

原文标题：Torch-TensorRT 1.1.0 版本正式发布

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

解锁NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术，包括自定义 Attention Kernel、Inflight

发表于 12-17 17:47 •194次阅读

使用NVIDIA TensorRT提升Llama 3.2性能

Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容，包含视觉语言模型（VLM)、小语言模型（SLM）和支持视觉的更新版 Llama Guard 模型。与 NVIDIA 加速

发表于 11-20 09:59 •255次阅读

TensorRT-LLM低精度推理优化

本文将分享 TensorRT-LLM 中低精度量化内容，并从精度和速度角度对比 FP8 与 INT8。首先介绍性能，包括速度和精度。其次，介绍量化工具 NVIDIA TensorRT Model

发表于 11-19 14:29 •339次阅读

<b class='flag-5'>TensorRT</b>-LLM低精度推理优化

在设备上利用AI Edge Torch生成式API部署自定义大语言模型

我们很高兴地发布 AI Edge Torch 生成式 API，它能将开发者用 PyTorch 编写的高性能大语言模型 (LLM) 部署至 TensorFlow Lite (TFLite) 运行时

发表于 11-14 10:23 •472次阅读

在设备上利用AI Edge <b class='flag-5'>Torch</b>生成式API部署自定义大语言模型

Google AI Edge Torch的特性详解

我们很高兴地发布 Google AI Edge Torch，可将 PyTorch 编写的模型直接转换成 TFLite 格式 (.tflite)，且有着优异的模型覆盖率和 CPU 性能。TFLite

发表于 11-06 10:48 •405次阅读

Google AI Edge <b class='flag-5'>Torch</b>的特性详解

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社区是中国最具影响力的模型开源社区，致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM，大大提高了大语言模型的推理性能，方便了模型应用部署，提高了大模型产业应用效率，更大规模地释放大模型的应用价值。”

发表于 08-23 15:48 •466次阅读

M8020A J-BERT 高性能比特误码率测试仪

M8020A 比特误码率测试仪 J-BERT M8020A 高性能 BERT 产品综述 Keysight J-BERT M8020A 高性能

发表于 08-21 17:13 •223次阅读

韩国服务器的性能如何提升

韩国服务器的性能可以通过硬件升级、网络优化、缓存优化和软件优化来提升。具体方法如下，rak小编为您整理发布韩国服务器的性能如何提升。

发表于 08-15 11:33 •262次阅读

Allegro X 23.11 版本更新 I PCB 设计：梯形布线的分析性能提升

的新功能及用法，助力您提升设计质量和设计效率。点击文末阅读原文，收藏版本更新亮点详解汇总页面，持续关注版本更新！AllegroXPCBDesigner系统级PCB设计

发表于 08-10 08:12 •909次阅读

Allegro X 23.11 版本<b class='flag-5'>更新</b> I PCB 设计：梯形布线的分析<b class='flag-5'>性能</b><b class='flag-5'>提升</b>

AWG和BERT常见问题解答

随着信号的速率越来越高，调制格式越来越复杂，对测试仪器的性能要求也越来越高。是德科技也一直在推出业界领先的高带宽、高采样率的AWG和高性能的BERT。

发表于 08-06 17:27 •705次阅读

艾体宝方案 | 管理开源软件包更新，提升开源安全性

文章介绍了Mend.io如何通过其Smart Merge Control功能增强开源软件的安全性。现代应用程序高度依赖开源软件，但这也增加了潜在的安全漏洞。Mend SCA的增强功能允许开发者

发表于 05-31 17:03 •330次阅读

如何修改Kernel Affinity提升openplc性能？

如何修改Kernel Affinity提升openplc性能

发表于 05-22 06:36

软件算法赋能4D雷达性能提升

软件定义雷达是一种可通过修改或更新软件来配置和控制雷达工作方式的雷达系统。其中，软件算法不仅作用于处理环节，更直接作用于MIMO（多输入多输出）环节，虚拟出更多信号通道。

发表于 04-18 14:15 •702次阅读

<b class='flag-5'>软件</b>算法赋能4D雷达<b class='flag-5'>性能</b><b class='flag-5'>提升</b>

TC3x7如何更改DMU_HF_CONFIRM0以更新所需的BMHD？

有人能分享更改 DMU_HF_CONFIRM0 以更新目标 TC3x7 所需的 BMHD 的步骤吗

发表于 01-24 08:19

Torch TensorRT是一个优化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我们大家聚在一起的原因，它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高

发表于 01-09 16:41 •1795次阅读

搜索历史