使用NVIDIA QAT工具包实现TensorRT量化网络的设计-电子发烧友网

出身背景

加速深层神经网络（ DNN ）推理是实现实时应用（如图像分类、图像分割、自然语言处理等）延迟关键部署的重要步骤。

改进 DNN 推理延迟的需要引发了人们对以较低精度运行这些模型的兴趣，如 FP16 和 INT8 。在 INT8 精度下运行 DNN 可以提供比其浮点对应项更快的推理速度和更低的内存占用。 NVIDIA TensorRT 支持训练后量化（ PTQ ）和 QAT 技术，将浮点 DNN 模型转换为 INT8 精度。

在这篇文章中，我们讨论了这些技术，介绍了用于 TensorFlow 的 NVIDIA QAT 工具包，并演示了一个端到端工作流，以设计最适合 TensorRT 部署的量化网络。

量化感知训练

QAT 背后的主要思想是通过最小化训练期间的量化误差来模拟低精度行为。为此，可以通过在所需层周围添加量化和去量化（ QDQ ）节点来修改 DNN 图。这使得量化网络能够将由于模型量化和超参数的微调而导致的 PTQ 精度损失降至最低。

另一方面， PTQ 在模型已经训练之后，使用校准数据集执行模型量化。由于量化没有反映在训练过程中，这可能导致精度下降。图 1 显示了这两个过程。

图 1 通过 PTQ 和 QAT 的量化工作流

用于 TensorFlow 的 NVIDIA QAT 工具包

该工具包的目标是使您能够以最适合于 TensorRT 部署的方式轻松量化网络。

目前， TensorFlow 在其开源软件模型优化工具包中提供非对称量化。他们的量化方法包括在所需层的输出和权重（如果适用）处插入 QDQ 节点，并提供完整模型或部分层类类型的量化。这是为 TFLite 部署而优化的，而不是 TensorRT 部署。

需要此工具包来获得一个量化模型，该模型非常适合 TensorRT 部署。 TensorRT optimizer 传播 Q 和 DQ 节点，并通过网络上的浮点操作将它们融合在一起，以最大化 INT8 中可以处理的图形比例。这将导致 NVIDIA GPU 上的最佳模型加速。我们的量化方法包括在所需层的输入和权重（如果适用）处插入 QDQ 节点。

我们还执行对称量化（ TensorRT 使用），并通过层名称和基于模式的层量化的部分量化提供扩展量化支持。

表 1 总结了 TFMOT 和用于 TensorFlow 的 NVIDIA QAT 工具包之间的差异。

图2显示了一个简单模型的前/后示例，用 Netron 可视化。QDQ节点放置在所需层的输入和权重（如适用）中，即卷积（Conv）和完全连接（MatMul）。

图 2 量化前后的模型示例（分别为基线和 QAT 模型）

TensorRT 中部署 QAT 模型的工作流

图 3 显示了在 TensorRT 中部署 QAT 模型的完整工作流，该模型是通过 QAT 工具包获得的。

图 3 TensorRT 使用 QAT 工具包获得的 QAT 模型的部署工作流

假设预训练的 TensorFlow 2 模型为 SavedModel 格式，也称为基线模型。

使用quantize_model功能对该模型进行量化，该功能使用 QDQ 节点克隆并包装每个所需的层。

微调获得的量化模型，在训练期间模拟量化，并将其保存为SavedModel格式。

将其转换为 ONNX 。

然后， TensorRT 使用 ONNX 图来执行层融合和其他图优化，如专用 QDQ 优化，并生成一个用于更快推理的引擎。

ResNet-50v1 示例

在本例中，我们将向您展示如何使用 TensorFlow 2 工具包量化和微调 QAT 模型，以及如何在 TensorRT 中部署该量化模型。有关更多信息，请参阅完整的 example_resnet50v1.ipynb Jupyter 笔记本。

要求

要跟进，您需要以下资源：

Python 3.8

TensorFlow 2.8

NVIDIA TF-QAT 工具包

TensorRT 8.4

准备数据

对于本例，使用 ImageNet 2012 数据集进行图像分类（任务 1 ），由于访问协议的条款，需要手动下载。 QAT 模型微调需要此数据集，它还用于评估基线和 QAT 模型。

登录或注册链接网站，下载列车/验证数据。您应该至少有 155 GB 的可用空间。

工作流支持 TFRecord 格式，因此请使用以下说明（从 TensorFlow 说明）转换下载的。将 ImageNet 文件转换为所需格式：

set IMAGENET_HOME=/path/to/imagenet/tar/files in data/imagenet_data_setup.sh 。

将 imagenet_to_gcs.py 下载到$IMAGENET_HOME。

Run 。/data/imagenet_data_setup.sh.

您现在应该可以在$IMAGENET_HOME中看到兼容的数据集。

量化和微调模型

from tensorflow_quantization import quantize_model
from tensorflow_quantization.custom_qdq_cases import ResNetV1QDQCase # Create baseline model
model = tf.keras.applications.ResNet50(weights="imagenet", classifier_activation="softmax") # Quantize model
q_model = quantize_model(model, custom_qdq_cases=[ResNetV1QDQCase()]) # Fine-tune
q_model.compile( optimizer="sgd", loss=tf.keras.losses.SparseCategoricalCrossentropy(), metrics=["accuracy"]
)
q_model.fit( train_batches, validation_data=val_batches, batch_size=64, steps_per_epoch=500, epochs=2
) # Save as TF 2 SavedModel
q_model.save(“saved_model_qat”)

将 SavedModel 转换为 ONNX

$ python -m tf2onnx.convert --saved-model= --output= --opset 13

部署 TensorRT 发动机

将 ONNX 模型转换为 TensorRT 引擎（还可以获得延迟测量）：

$ trtexec --onnx= --int8 --saveEngine= -v

获取验证数据集的准确性结果：

$ python infer_engine.py --engine= --data_dir= -b=

后果

在本节中，我们报告了 ResNet 和 EfficientNet 系列中各种型号的准确性和延迟性能数字：

ResNet-50v1

ResNet-50v2

ResNet-101v1

ResNet-101v2

效率网 -B0

效率网 -B3

所有结果都是在 NVIDIA A100 GPU 上获得的，批次大小为 1 ，使用 TensorRT 8.4 （ EA 用于 ResNet ， GA 用于 EfficientNet ）。

图 4 显示了基线 FP32 模型与其量化等效模型（ PTQ 和 QAT ）之间的精度比较。正如您所见，基线模型和 QAT 模型之间的准确性几乎没有损失。有时，由于模型的进一步整体微调，精度甚至更高。由于 QAT 中模型参数的微调， QAT 的精度总体上高于 PTQ 。

图 4 FP32 （基线）、带 PTQ 的 INT8 和带 QAT 的 INT8 中 ResNet 和 EfficientNet 数据集的准确性

ResNet 作为一种网络结构，一般量化稳定，因此 PTQ 和 QAT 之间的差距很小。然而， EfficientNet 从 QAT 中获益匪浅，与 PTQ 相比，基线模型的准确度损失有所减少。

有关不同模型如何从 QAT 中受益的更多信息，请参见深度学习推理的整数量化：原理与实证评价（量化白皮书）中的表 7 。

图 5 显示了 PTQ 和 QAT 具有相似的时间，与各自的基线模型相比，它们引入了高达 19 倍的加速。

图 5 ResNet 和 EfficientNet 系列中各种模型的延迟性能评估

PTQ 有时可能比 QAT 略快，因为它试图量化模型中的所有层，这通常会导致更快的推断，而 QAT 仅量化用 QDQ 节点包裹的层。

有关 TensorRT 如何使用 QDQ 节点的更多信息，请参阅 TensorRT 文档中的使用 INT8 和走向 INT8 推理：使用 TensorRT 部署量化感知训练网络的端到端工作流 GTC 会话。

有关各种受支持型号的性能数字的更多信息，请参阅 model zoo 。

结论

在本文中，我们介绍了 TensorFlow 2 的 NVIDIA QAT 工具包。我们讨论了在 TensorRT 推理加速环境中使用该工具包的优势。然后，我们演示了如何将该工具包与 ResNet50 结合使用，并对 ResNet 和 EfficientNet 数据集执行准确性和延迟评估。

实验结果表明，与 FP32 模型相比，用 QAT 训练的 INT8 模型的精度相差约 1% ，实现了 19 倍的延迟加速。

关于作者

Gwena Cunha Sergio 在 NVIDIA 担任深度学习软件工程师。在此之前，她是韩国京浦国立大学的一名博士生，致力于研究基于深度学习的方法，用于嘈杂的自然语言处理任务和从多模态数据生成序列。

Sagar Shelke 是 NVIDIA 的深度学习软件工程师，专注于自主驾驶应用程序。他的兴趣包括用于部署和机器学习系统的神经网络优化。萨加尔拥有圣地亚哥州立大学电气和计算机工程硕士学位。

Dheeraj Peri 在 NVIDIA 担任深度学习软件工程师。在此之前，他是纽约罗切斯特理工学院的研究生，致力于基于深度学习的内容检索和手写识别方法。 Dheeraj 的研究兴趣包括信息检索、图像生成和对抗性机器学习。他获得了印度皮拉尼 Birla 理工学院的学士学位。

Josh Park 是 NVIDIA 的汽车解决方案架构师经理。到目前为止，他一直在研究使用 DL 框架的深度学习解决方案，例如在 multi-GPUs /多节点服务器和嵌入式系统上的 TensorFlow 。此外，他一直在评估和改进各种 GPUs + x86 _ 64 / aarch64 的训练和推理性能。他在韩国大学获得理学学士和硕士学位，并在德克萨斯农工大学获得计算机科学博士学位

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4785

浏览量
101276
NVIDIA

NVIDIA

+关注

关注
14

文章
5087

浏览量
103915

Labview声音和振动工具包示例文件Sound Level

Labview 声音和振动工具包示例文件，声压测试，有模拟和DAQ两个文件。

发表于 01-05 09:15 •0次下载

在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术，该技术现在可与 NVIDIA TensorRT-LLM 一起使用。

发表于 12-25 17:31 •290次阅读

在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

解锁NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术，包括自定义 Attention Kernel、Inflight

发表于 12-17 17:47 •324次阅读

NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布！

发表于 11-28 10:43 •355次阅读

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

基于EasyGo Vs工具包和Nl veristand软件进行的永磁同步电机实时仿真

EasyGo Vs Addon是一款领先的FPGA仿真工具包软件，它强大地连接了VeriStand软件与Matlab/Simulink，为实时测试和验证领域带来了前所未有的便利和效率，特别适用于汽车

发表于 11-27 11:28 •450次阅读

基于EasyGo Vs<b class='flag-5'>工具包</b>和Nl veristand软件进行的永磁同步电机实时仿真

TensorRT-LLM低精度推理优化

本文将分享 TensorRT-LLM 中低精度量化内容，并从精度和速度角度对比 FP8 与 INT8。首先介绍性能，包括速度和精度。其次，介绍量化工具 NVIDIA

发表于 11-19 14:29 •527次阅读

<b class='flag-5'>TensorRT</b>-LLM低精度推理优化

FPGA仿真工具包软件EasyGo Vs Addon介绍

EasyGo Vs Addon是一款领先的FPGA仿真工具包软件，它强大地连接了VeriStand软件与Matlab/Simulink，为实时测试和验证领域带来了前所未有的便利和效率，特别适用于汽车、航空航天和能源电力等实时测试和验证至关重要的行业。

发表于 10-24 15:55 •544次阅读

FPGA仿真<b class='flag-5'>工具包</b>软件EasyGo Vs Addon介绍

采用德州仪器 (TI) 工具包进行模拟前端设计应用说明

电子发烧友网站提供《采用德州仪器 (TI) 工具包进行模拟前端设计应用说明.pdf》资料免费下载

发表于 09-09 11:21 •0次下载

采用德州仪器 (TI) <b class='flag-5'>工具包</b>进行模拟前端设计应用说明

英国公司实现英伟达CUDA软件在AMD GPU上的无缝运行

7月18日最新资讯，英国创新科技企业Spectral Compute震撼发布了其革命性GPGPU编程工具包——“SCALE”，该工具包实现了英伟达CUDA软件在AMD GPU上的无缝迁移与运行，标志着在GPU计算领域，

发表于 07-18 14:40 •743次阅读

使用freeRTOS开发工具包时，在哪里可以找到freeRTOS的版本？

作为主题，当我使用 freeRTOS 开发工具包时，在哪里可以找到 freeRTOS 的版本？

发表于 07-09 07:17

MediaTek与NVIDIA TAO加速物联网边缘AI应用发展

在即将到来的COMPUTEX 2024科技盛会上，全球知名的芯片制造商MediaTek宣布了一项重要合作——将NVIDIA的TAO（TensorRT Accelerated Optimizer）与其NeuroPilot SDK（软件开发

发表于 06-12 14:49 •522次阅读

存内计算技术工具链——量化篇

本篇文章将重点讲述存内计算技术工具链之“量化”，我们将从面向存内计算芯片的深度学习编译工具链、神经网络中的量化（包括训练后

发表于 05-16 12:35 •1421次阅读

Edge Impulse发布新工具，助 NVIDIA 模型大规模部署

借助 Edge Impulse 和 NVIDIA TAO 工具包的协同效应，工程师得以快速构建并部署至边缘优化硬件（如上述型号）的计算机视觉模型。该平台还支持用户运用经由 GPU 优化的 NVIDIA TAO 模型（如 YOLO

发表于 03-25 16:00 •833次阅读

QE for Motor V1.3.0：汽车开发辅助工具解决方案工具包

电子发烧友网站提供《QE for Motor V1.3.0：汽车开发辅助工具解决方案工具包.pdf》资料免费下载

发表于 02-19 10:44 •0次下载

搜索历史

使用NVIDIA QAT工具包实现TensorRT量化网络的设计

评论