NVIDIA TensorRT 8 BERT在1.2毫秒内进行推断-电子发烧友网

NVIDIA TensorRT 8 BERT在1.2毫秒内进行推断

NVIDIA 发布的TensorRT 8.0 ，通过新的优化将 BERT 的大推理延迟降低到 1.2 毫秒。该版本还提供了 2 倍的精度为 INT8 精度与量化意识的训练，并通过支持稀疏性，这是引进安培 GPU 的显着更高的性能。

TensorRT 是一个用于高性能深度学习推理的 SDK ，包括推理优化器和运行时，提供低延迟和高吞吐量。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务、能源等行业，下载量近 250 万次。

有几种新的基于 transformer 模型被用于会话人工智能。 TensorRT 中的新的广义优化可以加速所有这些模型，将推理时间减少到 TensorRT 7 的一半。

此版本的亮点包括：

BERT 在 1.2 毫秒内进行推断，并进行了新的 transformer 优化

使用量化感知训练，以 INT8 精度实现与 FP32 相当的准确性

引入稀疏性支持对安培 GPU 的快速推理

关于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的产品营销经理，负责深入学习和推理产品，推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位，主攻计算机视觉和自然语言处理。在 NVIDIA 之前，杰伊是宝马集团的人工智能研究实习生，为宝马最大的制造厂使用计算机视觉解决问题。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5075

浏览量
103601
gpu

gpu

+关注

关注
28

文章
4768

浏览量
129281

在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术，该技术现在可与 NVIDIA TensorRT-LLM 一起使用。

发表于 12-25 17:31 •241次阅读

<b class='flag-5'>在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

解锁NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术，包括自定义 Attention Kernel、Inflight

发表于 12-17 17:47 •263次阅读

NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布！

发表于 11-28 10:43 •332次阅读

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

java小知识-纳秒

()对比 System.currentTimeMillis()我们经常使用，可以参考对比一下看方法意思，一个是纳秒，一个是毫秒，二者有关系吗? 先看看单位换算：一秒=1000毫秒 1

发表于 11-26 11:11 •208次阅读

TensorRT-LLM低精度推理优化

本文将分享 TensorRT-LLM 中低精度量化内容，并从精度和速度角度对比 FP8 与 INT8。首先介绍性能，包括速度和精度。其次，介绍量化工具 NVIDIA

发表于 11-19 14:29 •416次阅读

<b class='flag-5'>TensorRT</b>-LLM低精度推理优化

AIC3254可以把mic采集到的音频相位调整180度再延时1毫秒输出给扬声器？

把mic采集到的音频相位调整180度再延时1毫秒输出给扬声器，用AIC3254可以实现吗？

发表于 10-11 08:14

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社区是中国最具影响力的模型开源社区，致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM，大大提高了大语言模型的推理性能，方便了模型应用部署，提高了大模型产业应用效率，更大规模地释放大模型的应用价值。”

发表于 08-23 15:48 •496次阅读

请问ESP8266在射频校准期间会发射吗？

当ESP8266启动时，它会运行射频校准，该校准会在几百毫秒内产生高电流峰值。在这些电流尖峰期间，设备是否从其天线辐射任何东西？

发表于 07-19 06:37

如何设置rts frame的duration?

我有一个系统一个ap和数个sta. STA每隔8毫秒发个udp包。可以通过wireshark抓包发现，每个sta都会先发一个rts包，其中duration为156毫秒。这样其他sta和ap在

发表于 06-24 06:48

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •624次阅读

利用NVIDIA Holoscan 1.0开发生产就绪型AI传感器处理应用

边缘 AI 开发者正在构建用于安全关键型和受监管用例的 AI 应用和产品。借助 NVIDIA Holoscan 1.0，这些应用可在几毫秒内整合实时洞察和加工处理。

发表于 04-25 09:58 •502次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •811次阅读

NVIDIA生成式AI研究实现在1秒内生成3D形状

NVIDIA 研究人员使 LATTE3D （一款最新文本转 3D 生成式 AI 模型）实现双倍加速。

发表于 03-27 10:28 •544次阅读

关于STM32C8T6 DMA数据读取的疑问求解决

1.在使用STM32F103C8T6的时候，使用的是串口通讯，波特率9600，在读取数据的时候使用的是DMA数据读取加串口空闲中断的方式，使用MAX485接口的芯片，每隔200毫秒发送一次数据，

发表于 03-27 07:50

STM32H750VBT6无法使用flymcu.exe或flashloader通过串口1烧写程序，怎么解决？

在串口COM55连接成功@115200bps，耗时922毫秒芯片内BootLoader版本号：3.1 芯片PID：00000450 芯片已设置读保护芯片有读保护，请先擦除器件以清除读保护开始

发表于 03-15 06:07

搜索历史

NVIDIA TensorRT 8 BERT在1.2毫秒内进行推断

评论

在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

解锁NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

java小知识-纳秒

TensorRT-LLM低精度推理优化

AIC3254可以把mic采集到的音频相位调整180度再延时1毫秒输出给扬声器？

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

请问ESP8266在射频校准期间会发射吗？

如何设置rts frame的duration?

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

利用NVIDIA Holoscan 1.0开发生产就绪型AI传感器处理应用

利用NVIDIA组件提升GPU推理的吞吐

NVIDIA生成式AI研究实现在1秒内生成3D形状

关于STM32C8T6 DMA数据读取的疑问求解决

STM32H750VBT6无法使用flymcu.exe或flashloader通过串口1烧写程序，怎么解决？