文章转载于微信公众号:GiantPan daCV
作者: Pui_Yeung

前言

量化感知训练（Quantization Aware Training ）是在模型中插入伪量化模块（fake/_quant module）模拟量化模型在推理过程中进行的舍入（rounding）和钳位（clamping）操作，从而在训练过程中提高模型对量化效应的适应能力，获得更高的量化模型精度。在这个过程中，所有计算（包括模型正反向传播计算和伪量化节点计算）都是以浮点计算实现的，在训练完成后才量化为真正的int8模型。

Pytorch官方从1.3版本开始提供量化感知训练API，只需修改少量代码即可实现量化感知训练。目前torch.quantization仍处于beta阶段，不保证API前向、后向兼容性。以下介绍基于Pytorch 1.7，其他版本可能会有差异。

Pytorch量化感知训练流程

首先给出提供一个可运行demo，直观了解量化感知训练的6个步骤，再进行详细的介绍

importtorchfromtorch.quantizationimportprepare_qat,get_default_qat_qconfig,convertfromtorchvision.modelsimportquantization# Step1：修改模型#这里直接使用官方修改好的MobileNetV2，下文会对修改点进行介绍model=quantization.mobilenet_v2()print("originalmodel:")print(model)# Step2：折叠算子#fuse_model()在training或evaluate模式下算子折叠结果不同，#对于QAT，需确保在training状态下进行算子折叠assertmodel.trainingmodel.fuse_model()print("fusedmodel:")print(model)#Step3:指定量化方案#通过给模型实例增加一个名为"qconfig"的成员变量实现量化方案的指定#backend目前支持fbgemm和qnnpackBACKEND="fbgemm"model.qconfig=get_default_qat_qconfig(BACKEND)# Step4：插入伪量化模块prepare_qat(model,inplace=True)print("modelwithobservers:")print(model)#正常的模型训练，无需修改代码# Step5：实施量化model.eval()#执行convert函数前，需确保模型在evaluate模式model_int8=convert(model)print("quantizedmodel:")print(model_int8)# Step6：int8模型推理#指定与qconfig相同的backend，在推理时使用正确的算子torch.backends.quantized.engine=BACKEND#目前Pytorch的int8算子只支持CPU推理,需确保输入和模型都在CPU侧#输入输出仍为浮点数fp32_input=torch.randn(1,3,224,224)y=model_int8(fp32_input)print("output:")print(y)

Step1：修改模型

Pytorch下需要适当修改模型才能进行量化感知训练，以下以常用的MobileNetV2为例。官方已修改好的MobileNetV2的代码，详见这里（https://github.com/pytorch/vi...）

修改主要包括3点，以下摘取相应的代码进行介绍：

（1）在模型输入前加入QuantStub()，在模型输出后加入DeQuantStub()。目的是将输入从fp32量化为int8，将输出从int8反量化为fp32。模型的/_/_init/_/_()和forward()修改为：

classQuantizableMobileNetV2(MobileNetV2):def__init__(self,*args,**kwargs):"""MobileNetV2mainclassArgs:InheritsargsfromfloatingpointMobileNetV2"""super(QuantizableMobileNetV2,self).__init__(*args,**kwargs)self.quant=QuantStub()self.dequant=DeQuantStub()defforward(self,x):x=self.quant(x)x=self._forward_impl(x)x=self.dequant(x)returnx

（2）对加法等操作加入伪量化节点。因为int8数值进行加法运算容易超出数值范围，所以不是直接进行计算，而是进行反量化->计算->量化的操作。以InvertedResidual的修改为例：

classQuantizableInvertedResidual(InvertedResidual):def__init__(self,*args,**kwargs):super(QuantizableInvertedResidual,self).__init__(*args,**kwargs)#加法的伪量化节点需要记录所经过该节点的数值的范围，因此需要实例化一个对象self.skip_add=nn.quantized.FloatFunctional()defforward(self,x):ifself.use_res_connect:#普通版本MobileNetV2的加法#returnx+self.conv(x)#量化版本MobileNetV2的加法returnself.skip_add.add(x,self.conv(x))else:returnself.conv(x)

（3）将ReLU6替换为ReLU。MobileNet V2使用ReLU6的原因是对ReLU的输出范围进行截断以缓解量化为fp16模型时的精度下降。因为int8量化本身就能确定截断阈值，所以将ReLU6替换为ReLU以去掉截断阈值固定为6的限制。官方的修改代码在建立网络后通过/_replace/_relu()将MobileNetV2中的ReLU6替换为ReLU：

model=QuantizableMobileNetV2(block=QuantizableInvertedResidual,**kwargs)_replace_relu(model)

Step2：算子折叠

算子折叠是将模型的多个层合并成一个层，一般用来减少计算量和加速推理。对于量化感知训练而言，算子折叠作用是将模型变“薄”，减少中间计算过程的误差积累。

以下比较有无算子折叠的结果（上：无算子折叠，下：有算子折叠，打印执行prepare/_qat()后的模型）

如果不进行算子折叠，每个Conv-BN-ReLU单元一共会插入4个FakeQuantize模块。而进行算子折叠后，原来Conv2d()被ConvBnReLU2d()代替（3层合并到了第1层），BatchNorm2d()和ReLU()被Inentity()代替（仅作为占位），最终只插入了2个FakeQuantize模块。

FakeQuantize模块的减少意味着推理过程中进行的量化-反量化的次数减少，有利于减少量化带来的性能损失。

算子折叠由实现torch.quantization.fuse/_modules()。目前存在的比较遗憾的2点：

算子折叠不能自动完成，只能由程序员手工指定要折叠的子模型。以torchvision.models.quantization.mobilenet/_v2()中实现的算子折叠函数为例：

deffuse_model(self):#遍历模型内的每个子模型，判断类型并进行相应的算子折叠forminself.modules():iftype(m)==ConvBNReLU:fuse_modules(m,['0','1','2'],inplace=True)iftype(m)==QuantizableInvertedResidual:#调用子模块实现的fuse_model()，间接调用fuse_modules()m.fuse_model()

能折叠的算子组合有限。目前支持的算子组合为：ConV + BN、ConV + BN + ReLU、Conv + ReLU、Linear + ReLU、BN + ReLU。如果尝试折叠ConvTranspose2d、ReLU6等不支持的算子则会报错。

Step3：指定量化方案

目前支持fbgemm和qnnpack两种backend方案。官方推荐x86平台使用fbgemm方案，ARM平台使用qnnpack方案。量化方案通过如下方法指定

model.qconfig=get_default_qat_qconfig(backen)#或model.qconfig=get_default_qat_qconfig(backen)

即通过给model增加一个名为qconfig为成员变量并赋值。

量化方案可通过设置qconfig自定义，本文暂不讨论。

Step4：插入伪量化模块

通过执行prepare/_qat()，实现按qconfig的配置方案给每个层增加FakeQuantize()模块每个FakeQuantize()模块内包含相应的Observer()模块，在模型执行forward()时自动记录数值，供实施量化时使用。

Step5：实施量化

完成训练后，通过执行convert()转换为真正的int8量化模型。完成转换后，FakeQuantize()模块被去掉，原来的ConvBNReLU2d()算子被替换为QuantizedConvReLU2d()算子。

Step6：int8模型推理

int8模型的调用方法与普通的fp32模型的调用无异。需要注意的是，目前量化算子仅支持CPU计算，故须确保输入和模型都在CPU侧。

若模型推理中出现报错，一般是前面的步骤存在设置不当，参考常见问题第1点。

常见问题

(1) RuntimeError: Could not run XX with arguments from the YY backend. XX is only available for these backends ZZ

虽然fp32模型和int8模型都能在CPU上推理，但fp32算子仅接受tensor作为输入，int8算子仅接受quantedtensor作为输入，输入和算子的类型不一致导致上述错误。

一般排查方向为：是否完成了模型修改，将加法等操作替换为量化版本；是否正确添加了QuantStub()和DeQuantStub()；是否在执行convert()前是否执行了model.eval()（在traning模型下，dropout无int8实现但没有被去掉，然而在执行推理时会报错）。

(2) 是否支持GPU训练，是否支持DistributedDataParallel训练？

支持。官方有一个完整的量化感知训练的实现，使用了GPU和DistributedDataParallel，可惜在文档和教程中未提及，参考这里（https://github.com/pytorch/vi.../_quantization.py）。

(3) 是否支持混合精度模型（例如一部分fp32推理，一部分int8推理）？

官方没有明确说明，但经实践是可以的。

模型是否进行量化取决于是否带qconfig。因此可以将模型定义修改为

classMixModel(nn.Module):def__init__(self):super(MixModel,self).__init__()self.fp32_part=Fp32Model()self.int8_part=Int8Model()defforward(self,x):x=self.int8_part(x)x=self.fp32(x)returnxmix_model=MixModel()mix_model.int8_part.qconfig=get_default_qat_qconfig(BACKEND)prepare_qat(mix_model,inplace=True)

由此可实现所需的功能。注意将QuantStub()、Dequant()模块移到Int8Model()中。

（4）精度保持效果如何，如何提升精度？

笔者进行的实验不多，在做过的简单的OCR任务中，可以做到文字检测和识别模型的指标下降均不超过1个点（量化的int8模型对比正常训练的fp32模型）。官方教程中提供了分类例子的效果和提升精度的技巧，可供参考。

总结

Pytorch官方提供的量化感知训练API，上手较为简单，易于集成到现有训练代码中。但目前手动修改模型和算子折叠增加了一定的工作量，期待在未来版本的改进。

- END -

推荐阅读

PyTorch OCR模型的安卓端部署
深度学习量化技术科普
简单粗暴的多对象目标跟踪神器 – DeepSort

更多嵌入式 AI技术干货请关注嵌入式AI专栏。

审核编辑：符乾江

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

深度学习

深度学习

+关注

关注
73

文章
5500

浏览量
121118
pytorch

pytorch

+关注

关注
2

文章
808

浏览量
13202

守护公路安全! 中海达推出轻量化监测简易感知方案

简易感知方案来保障公路安全。顺应市场需求，中海达推出中小桥和公路边坡轻量化监测简易感知解决方案。轻量化监测简易感知解决方案是什么？为

发表于 11-29 17:48 •150次阅读

守护公路安全! 中海达推出轻<b class='flag-5'>量化</b>监测简易<b class='flag-5'>感知</b>方案

中海达推出轻量化监测简易感知解决方案

近期，针对汛期桥梁结构和公路边坡受自然灾害影响出现滑坡、坍塌等事故，交通运输部和应急管理部密集发布相关政策文件，明确各地需加强桥梁结构和公路边坡检测监测工作，多地积极响应政策号召，提出通过轻量化监测简易感知方案来保障公路安全。顺应市场需求，中海达推出中小桥和公路边坡轻

发表于 11-19 11:40 •345次阅读

PyTorch GPU 加速训练模型方法

在深度学习领域，GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和方法来利用GPU进行模型

发表于 11-05 17:43 •547次阅读

如何在 PyTorch 中训练模型

PyTorch 是一个流行的开源机器学习库，广泛用于计算机视觉和自然语言处理等领域。它提供了强大的计算图功能和动态图特性，使得模型的构建和调试变得更加灵活和直观。数据准备在训练模型之前，首先需要

发表于 11-05 17:36 •326次阅读

使用PyTorch在英特尔独立显卡上训练模型

《PyTorch 2.5重磅更新：性能优化+新特性》中的一个新特性就是：正式支持在英特尔独立显卡上训练模型！

发表于 11-01 14:21 •375次阅读

使用<b class='flag-5'>PyTorch</b>在英特尔独立显卡上<b class='flag-5'>训练</b>模型

Pytorch深度学习训练的方法

掌握这 17 种方法，用最省力的方式，加速你的 Pytorch 深度学习训练。

发表于 10-28 14:05 •198次阅读

<b class='flag-5'>Pytorch</b>深度学习<b class='flag-5'>训练</b>的方法

基于Pytorch训练并部署ONNX模型在TDA4应用笔记

电子发烧友网站提供《基于Pytorch训练并部署ONNX模型在TDA4应用笔记.pdf》资料免费下载

发表于 09-11 09:24 •0次下载

基于<b class='flag-5'>Pytorch</b><b class='flag-5'>训练</b>并部署ONNX模型在TDA4应用笔记

pytorch怎么在pycharm中运行

第一部分：PyTorch和PyCharm的安装 1.1 安装PyTorch PyTorch是一个开源的机器学习库，用于构建和训练神经网络。要在PyCharm中使用

发表于 08-01 16:22 •1388次阅读

pytorch如何训练自己的数据

本文将详细介绍如何使用PyTorch框架来训练自己的数据。我们将从数据准备、模型构建、训练过程、评估和测试等方面进行讲解。环境搭建首先，我们需要安装PyTorch。可以通过访问

发表于 07-11 10:04 •523次阅读

pytorch中有神经网络模型吗

当然，PyTorch是一个广泛使用的深度学习框架，它提供了许多预训练的神经网络模型。 PyTorch中的神经网络模型 1. 引言深度学习是一种基于人工神经网络的机器学习技术，它在图像识别、自然语言

发表于 07-11 09:59 •694次阅读

PyTorch的介绍与使用案例

学习领域的一个重要工具。PyTorch底层由C++实现，提供了丰富的API接口，使得开发者能够高效地构建和训练神经网络模型。PyTorch不仅支持动态计算图，还提供了强大的自动微分系统，极大地简化了深度学习任务的开发流程。

发表于 07-10 14:19 •393次阅读

解读PyTorch模型训练过程

PyTorch作为一个开源的机器学习库，以其动态计算图、易于使用的API和强大的灵活性，在深度学习领域得到了广泛的应用。本文将深入解读PyTorch模型训练的全过程，包括数据准备、模型构建、训

发表于 07-03 16:07 •1050次阅读

PyTorch如何训练自己的数据集

PyTorch是一个广泛使用的深度学习框架，它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时，数据集是不可或缺的组成部分。然而，很多时候，我们可能需要使用自己的数据集而不是现成

发表于 07-02 14:09 •1658次阅读

请问电脑端Pytorch训练的模型如何转化为能在ESP32S3平台运行的模型？

由题目，电脑端Pytorch训练的模型如何转化为能在ESP32S3平台运行的模型？如何把这个Pytorch模型烧录到ESP32S3上去？

发表于 06-27 06:06

存内计算技术工具链——量化篇

本篇文章将重点讲述存内计算技术工具链之“量化”，我们将从面向存内计算芯片的深度学习编译工具链、神经网络中的量化（包括训练后量化与量化

发表于 05-16 12:35 •1220次阅读

搜索历史

Pytorch量化感知训练的详解

前言