0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒内进行推断

星星科技指导员 来源:NVIDIA 作者:About Jay Rodge 2022-03-31 17:05 次阅读

NVIDIA 发布的TensorRT 8.0 ,通过新的优化将 BERT 的大推理延迟降低到 1.2 毫秒。该版本还提供了 2 倍的精度为 INT8 精度与量化意识的训练,并通过支持稀疏性,这是引进安培 GPU 的显着更高的性能。

TensorRT 是一个用于高性能深度学习推理的 SDK ,包括推理优化器和运行时,提供低延迟和高吞吐量。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务、能源等行业,下载量近 250 万次。

有几种新的基于 transformer 模型被用于会话人工智能。 TensorRT 中的新的广义优化可以加速所有这些模型,将推理时间减少到 TensorRT 7 的一半。

此版本的亮点包括:

BERT 在 1.2 毫秒内进行推断,并进行了新的 transformer 优化

使用量化感知训练,以 INT8 精度实现与 FP32 相当的准确性

引入稀疏性支持对安培 GPU 的快速推理

关于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的产品营销经理,负责深入学习和推理产品,推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位,主攻计算机视觉和自然语言处理。在 NVIDIA 之前,杰伊是宝马集团的人工智能研究实习生,为宝马最大的制造厂使用计算机视觉解决问题。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5075

    浏览量

    103601
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4768

    浏览量

    129281
收藏 人收藏

    评论

    相关推荐

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 241次阅读
    <b class='flag-5'>在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 263次阅读

    NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

    感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布!
    的头像 发表于 11-28 10:43 332次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

    java小知识-纳

    ()对比 System.currentTimeMillis()我们经常使用,可以参考对比一下 看方法意思,一个是纳,一个是毫秒,二者有关系吗? 先看看单位换算:一=1000毫秒 1
    的头像 发表于 11-26 11:11 208次阅读

    TensorRT-LLM低精度推理优化

    本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA
    的头像 发表于 11-19 14:29 416次阅读
    <b class='flag-5'>TensorRT</b>-LLM低精度推理优化

    AIC3254可以把mic采集到的音频相位调整180度再延时1毫秒输出给扬声器?

    把mic采集到的音频相位调整180度再延时1毫秒输出给扬声器,用AIC3254可以实现吗?
    发表于 10-11 08:14

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高了大模型产业应用效率,更大规模地释放大模型的应用价值。”
    的头像 发表于 08-23 15:48 496次阅读

    请问ESP8266射频校准期间会发射吗?

    当ESP8266启动时,它会运行射频校准,该校准会在几百毫秒内产生高电流峰值。 在这些电流尖峰期间,设备是否从其天线辐射任何东西?
    发表于 07-19 06:37

    如何设置rts frame的duration?

    我有一个系统一个ap和数个sta. STA每隔8毫秒发个udp包。可以通过wireshark抓包发现,每个sta都会先发一个rts包,其中duration为156毫秒。这样其他sta和ap
    发表于 06-24 06:48

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的
    的头像 发表于 04-28 10:36 624次阅读

    利用NVIDIA Holoscan 1.0开发生产就绪型AI传感器处理应用

    边缘 AI 开发者正在构建用于安全关键型和受监管用例的 AI 应用和产品。借助 NVIDIA Holoscan 1.0,这些应用可在几毫秒内整合实时洞察和加工处理。
    的头像 发表于 04-25 09:58 502次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 811次阅读

    NVIDIA生成式AI研究实现在1秒内生成3D形状

    NVIDIA 研究人员使 LATTE3D (一款最新文本转 3D 生成式 AI 模型)实现双倍加速。
    的头像 发表于 03-27 10:28 544次阅读
    <b class='flag-5'>NVIDIA</b>生成式AI研究实现在1<b class='flag-5'>秒内</b>生成3D形状

    关于STM32C8T6 DMA数据读取的疑问求解决

    1.使用STM32F103C8T6的时候,使用的是串口通讯,波特率9600,在读取数据的时候使用的是DMA数据读取加串口空闲中断的方式,使用MAX485接口的芯片,每隔200毫秒发送一次数据,
    发表于 03-27 07:50

    STM32H750VBT6无法使用flymcu.exe或flashloader通过串口1烧写程序,怎么解决?

    串口COM55连接成功@115200bps,耗时922毫秒 芯片BootLoader版本号:3.1 芯片PID:00000450 芯片已设置读保护 芯片有读保护,请先擦除器件以清除读保护 开始
    发表于 03-15 06:07