NVIDIA 发布的TensorRT 8.0 ,通过新的优化将 BERT 的大推理延迟降低到 1.2 毫秒。该版本还提供了 2 倍的精度为 INT8 精度与量化意识的训练,并通过支持稀疏性,这是引进安培 GPU 的显着更高的性能。
TensorRT 是一个用于高性能深度学习推理的 SDK ,包括推理优化器和运行时,提供低延迟和高吞吐量。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务、能源等行业,下载量近 250 万次。
有几种新的基于 transformer 模型被用于会话人工智能。 TensorRT 中的新的广义优化可以加速所有这些模型,将推理时间减少到 TensorRT 7 的一半。
此版本的亮点包括:
BERT 在 1.2 毫秒内进行推断,并进行了新的 transformer 优化
使用量化感知训练,以 INT8 精度实现与 FP32 相当的准确性
引入稀疏性支持对安培 GPU 的快速推理
关于作者
About Jay Rodge
Jay Rodge 是 NVIDIA 的产品营销经理,负责深入学习和推理产品,推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位,主攻计算机视觉和自然语言处理。在 NVIDIA 之前,杰伊是宝马集团的人工智能研究实习生,为宝马最大的制造厂使用计算机视觉解决问题。
审核编辑:郭婷
-
NVIDIA
+关注
关注
14文章
5075浏览量
103601 -
gpu
+关注
关注
28文章
4768浏览量
129281
发布评论请先 登录
相关推荐
评论