通过稀疏支持和Transformer优化增强AI推理-电子发烧友网

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一个高性能推理平台，对于利用 NVIDIA Tensor Core GPU 的强大功能至关重要。TensorRT 8 是一个软件开发套件，其增强功能旨在提高性能和准确性，以应对在边缘和嵌入式设备中发生的越来越多的 AI 推理。它允许对 TensorFlow 和 PyTorch 神经网络进行广泛的计算推理。

与纯 CPU 平台相比，TensorRT 可提供高达 40 倍的吞吐量，同时最大限度地减少延迟。它允许您从任何框架开始，并在生产中快速优化、验证和部署经过训练的神经网络。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性，可以修剪对网络整体计算没有贡献的弱连接。此外，TensorRT 8 支持变压器优化和 BERT-Large。Transformer 优化提高了性能，而量化感知训练提高了准确性。

NVIDIA 的 TensorRT 8 有哪些新功能？

推理的目的是从训练阶段尽可能多地保留准确性。训练后的模型可以在硬件设备上运行，以获得客户最低的响应时间和最大的吞吐量。但是，尽可能精确的必要性有时可能会与边缘可用的内存量和吞吐量发生冲突。训练有素、高度准确的模型可能运行速度太慢。

因此，TensorRT 版本 8 结合了深度学习推理应用或经过训练的神经网络模型的最新进展，以了解数据如何影响响应。它使用两个主要功能将语言查询推理时间减少一半：

NVIDIA 安培架构的稀疏性

深度神经网络擅长各种任务，例如计算机视觉、语音识别和自然语言处理。随着处理这些神经网络所需的计算能力增加，有效的建模和计算变得越来越重要。

Sparse 是一种适用于具有 NVIDIA Ampere 架构的 GPU 的新性能方法，可通过减少计算过程来提高开发人员的效率。深度学习模型的其他方面不如其他方面重要，有些甚至可以为零。因此，神经网络不需要对特定的权重或参数进行计算。因此，NVIDIA 可以通过使用稀疏性将模型的权重减少近一半来提高性能、吞吐量和延迟。

通过变压器优化减少推理计算

在 TensorRT 8 中，性能增强是通过变压器优化实现的。量化开发人员可以利用经过训练的模型通过 8 位计算（INT8）执行推理。这大大减少了 Tensor 核心中的推理计算和存储。INT8 越来越多地用于优化机器学习框架，例如 TensorFlow 和 NVIDIA 的 TensorRT，以减少内存和计算需求。因此，NVIDIA 可以在保持准确性的同时在 Tensor RT 8 上提供非常高的性能。

例如，量化感知训练（QAT）有可能使准确率翻倍。因此，与旧版本 TensorRT 7 相比，TensorRT 8 可以将许多模型的性能提高一倍。

TensorRT 部署在众多行业中

TensorRT 更好的性能和准确性使其成为医疗保健、汽车、互联网/电信服务、金融服务和零售等行业的热门选择。例如，Tensor RT 用于为 GE Healthcare 的心血管超声系统供电。这家数字诊断解决方案提供商使用该技术在其 Vivid E95 扫描仪上加速自动心脏视图检测。通过使用改进的视图检测算法，心脏病专家可以在早期阶段做出更准确的诊断和检测疾病。此外，TensorRT 还被 Verizon、福特、美国邮政服务、美国运通等知名公司使用。

随着 Tensor RT 8 的发布，NVIDIA 还公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的双向编码器表示（BERT）是一种基于 Transformer 的机器学习技术，用于预训练自然语言处理。BERT-Large 模型的分析时间仅为 1.2 毫秒，可以实时响应自然语言查询。这意味着公司可以将其模型的大小增加一倍或三倍，以获得更高的准确性。

许多推理服务在幕后使用诸如 BERT-Large 之类的语言模型。另一方面，基于语言的应用程序通常无法识别细微差别或情感，从而导致整体体验不佳。现在，公司可以使用 TensorRT 8 在几毫秒内部署整个工作流程。这些突破可以为新一代对话式 AI 应用程序铺平道路，为用户提供更智能和低延迟的体验。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

变压器

变压器

+关注

关注
159

文章
7503

浏览量
135752
cpu

cpu

+关注

关注
68

文章
10882

浏览量
212226
NVIDIA

NVIDIA

+关注

关注
14

文章
5025

浏览量
103266

港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制

本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——SparX，一种强化 Vision Mamba 和 Transformer 的稀疏跳跃连接机制，性能强大

发表于 01-03 09:28 •91次阅读

港大提出SparX:强化Vision Mamba和<b class='flag-5'>Transformer</b>的<b class='flag-5'>稀疏</b>跳跃连接机制

Transformer模型的具体应用

如果想在 AI 领域引领一轮新浪潮，就需要使用到 Transformer。

发表于 11-20 09:28 •504次阅读

<b class='flag-5'>Transformer</b>模型的具体应用

AI推理CPU当道，Arm驱动高效引擎

本应发挥关键作用，但其重要性却常常被忽视。 “对于那些希望将大语言模型（LLM）集成到产品和服务中的企业和开发者来说，CPU 通常是首选”。Arm 中国区业务全球副总裁邹挺在接受采访时表示。为了适应AI推理的应用落地，CPU有针对性的

发表于 11-13 14:34 •2504次阅读

<b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU当道，Arm驱动高效引擎

FPGA和ASIC在大模型推理加速中的应用

随着现在AI的快速发展，使用FPGA和ASIC进行推理加速的研究也越来越多，从目前的市场来说，有些公司已经有了专门做推理的ASIC，像Groq的LPU，专门针对大语言模型的推理做了

发表于 10-29 14:12 •540次阅读

FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的应用

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise，为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的

发表于 10-27 10:03 •237次阅读

NVIDIA助力丽蟾科技打造<b class='flag-5'>AI</b>训练与<b class='flag-5'>推理</b>加速解决方案

使用OpenVINO C++在哪吒开发板上推理Transformer模型

OpenVINO 是一个开源工具套件，用于对深度学习模型进行优化并在云端、边缘进行部署。它能在诸如生成式人工智能、视频、音频以及语言等各类应用场景中加快深度学习推理的速度，且支持来自 PyTorch

发表于 10-12 09:55 •367次阅读

使用OpenVINO C++在哪吒开发板上<b class='flag-5'>推理</b><b class='flag-5'>Transformer</b>模型

AMD助力HyperAccel开发全新AI推理服务器

HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业，致力于开发 AI 推理专用型半导体器件和硬件，最大限度提升推理工作负载的存储器带宽使用，并通过将此解决方案应用于

发表于 09-18 09:37 •381次阅读

AMD助力HyperAccel开发全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服务器

摩尔线程携手东华软件完成AI大模型推理测试与适配

近日，摩尔线程与东华软件云筑AI创新中心宣布，双方已完成大模型推理测试与适配。依托摩尔线程的全功能GPU国产算力，东华软件打造安全可信的基于私有化大模型的“智多型（A.I.Cogniflex）”AI

发表于 07-31 10:51 •761次阅读

如何基于OrangePi AIpro开发AI推理应用

。通过昇腾CANN软件栈的AI编程接口，可满足大多数AI算法原型验证、推理应用开发的需求。AscendCL（AscendComputingLanguage，昇腾计算

发表于 06-04 14:23 •554次阅读

如何基于OrangePi AIpro开发<b class='flag-5'>AI</b><b class='flag-5'>推理</b>应用

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

技术的整合支持多达 576 个图形处理器，提供 3.6 千万亿次网络内计算，在网络结构中直接减少和组合张量，优化计算任务并增强图形处理器集群的可扩展性。 GB200 训练性能提升至 4 倍，

发表于 05-13 17:16

【大语言模型：原理与工程实践】揭开大语言模型的面纱

，大语言模型还具备出色的关联和关系理解能力，能够捕捉数据间的隐含关系和语义联系，进行高级关联推理。它还支持多步推理，能在推理过程中进行多个步骤的演绎和分析。最后，

发表于 05-04 23:55

开发者手机 AI - 目标识别 demo

应用的demo。应用程序通过相机进行预览，对预览画面中的物体进行目标识别，目前该应用程序支持识别100种物体。系统架构下图为demo应用以及Openharmony AI子系统的架构图。目标

发表于 04-11 16:14

自然语言处理应用LLM推理优化综述

当前，业界在将传统优化技术引入 LLM 推理的同时，同时也在探索从大模型自回归解码特点出发，通过调整推理过程和引入新的模型结构来进一步提升推理

发表于 04-10 11:48 •624次阅读

ONNX Runtime支持龙架构，AI推理生态再添新翼

近日，备受瞩目的AI推理框架开源社区ONNX Runtime宣布推出支持龙架构的新版本1.17.0，这一里程碑式的更新意味着龙芯平台上的AI推理

发表于 03-27 10:58 •747次阅读

AI推理框架软件ONNX Runtime正式支持龙架构

近日，知名AI推理框架开源社区ONNX Runtime正式发布支持龙架构的版本1.17.0。

发表于 03-12 12:23 •597次阅读

搜索历史

通过稀疏支持和Transformer优化增强AI推理

评论

港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制

Transformer模型的具体应用

AI推理CPU当道，Arm驱动高效引擎

FPGA和ASIC在大模型推理加速中的应用

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

使用OpenVINO C++在哪吒开发板上推理Transformer模型

AMD助力HyperAccel开发全新AI推理服务器

摩尔线程携手东华软件完成AI大模型推理测试与适配

如何基于OrangePi AIpro开发AI推理应用

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

【大语言模型：原理与工程实践】揭开大语言模型的面纱

开发者手机 AI - 目标识别 demo

自然语言处理应用LLM推理优化综述

ONNX Runtime支持龙架构，AI推理生态再添新翼

AI推理框架软件ONNX Runtime正式支持龙架构