蚂蚁链AIoT团队与NVIDIA合作加速AI推理-电子发烧友网

蚂蚁链 AIoT 团队与 NVIDIA 合作，将量化感知训练(QAT)技术应用于深度学习模型性能优化中，并通过 NVIDIA TensorRT 高性能推理 SDK 进行高效率部署，通过 INT8 推理，吞吐量提升了 3 倍，助力蚂蚁链版权 AI 平台中的模型推理服务大幅降本增效。

依托于蚂蚁链自研的区块链和 AI 技术，以及金融级的加密算法能力和云计算能力的加持，蚂蚁链版权 AI 平台能够为数字媒体时代的内容管理方、内容平台方以及创作者提供一站式的版权保护能力。作为蚂蚁链版权平台的核心能力，AI 技术可以快速提取音视频及图像特征，在短时间内完成对相似内容的自动识别和判断。得益于 NVIDIA 完善的软硬件生态，蚂蚁链团队除了可以方便的在云端 GPU 部署深度学习模型推理服务，在进一步的合作中，双方亦成功将其 TensorRT 支持的业界领先的 INT8-QAT 技术应用到版权保护业务模型上，对 AI 模型的推理效率进行大幅度优化，实现了在几乎精度无损的情况下，单 GPU 上的吞吐量提升约 300%。

利用深度学习模型高效且自动化地进行相似内容识别是蚂蚁链版权 AI 平台的一项关键技术能力，这对 AI 模型研发提出了较高的技术挑战。一方面，多媒体版权保护业务场景中作品侵权的类型复杂而多变，为了到达高召回率和低虚警率的效果精度，蚂蚁链团队需采用较为复杂的算法模型方案;而另一方面，版权场景中高吞吐、低成本的需求又对模型提出了性能方面的挑战。换言之，算法模型需要的存算资源必须有所限制、推理性能必须较高，而一般情况下，这与模型的效果要求是矛盾的，因为深度学习模型的效果往往与模型的尺寸和所需算力正相关。而这些复杂而又多维的业务需求，也确实给团队的算法研发和优化工作，带来了相当大的挑战。

因此，蚂蚁链团队将算法研发拆解为不同的流程以解决不同维度的业务需求。简而言之，就是优先以满足业务效果指标为目的研发模型，随后借助模型压缩技术对模型存算需求进行优化，而第二部分工作实现，则需仰赖 NVIDIA 相关软硬件生态对于高性能AI模型推理加速的优秀支持。一方面，NVIDIA GPU 所提供的强大并行算力以及 INT8 Tensor Core 提供的整型计算能力，为深度学习模型推理的高效实现奠定了基础;另一方面，NVIDIA TensorRT 8 SDK 中对模型计算图的高效融合，以及对于新型模型结构的支持和优化(例如 QAT 所采用的 QDQ 结构以及 transformer-based 模型)让我们可以在 PyTorch 模型的基础上生成高效的量化推理模型。其中，QAT 作为此项目模型性能优化的重要技术，最大的优点莫过于可以在大幅提升推理速度的同时，做到几乎完全消弭量化网络整型计算相比浮点网络数值精度差异带来的算法效果损失。而近年来，随着 NVIDIA 对相关软硬件生态的对 QAT 技术的支持日臻完善，蚂蚁链团队希望能藉由 NVIDIA 相关的软硬件生态，将 QAT 技术应用到蚂蚁链版权 AI 项目中，以满足严苛的业务需求。

基于以上挑战，蚂蚁链 AIoT 技术部与 NVIDIA 技术专家合作，引入 QAT 技术对深度学习模型进行性能优化，并将模型转换为 TensorRT 引擎部署至 NVIDIA T4 GPU 进行在线推理。

首先，团队使用 QAT 技术对算法模型以“伪量化”模式进行微调，使模型得以在 INT8 整型推理模式下在算法效果指标上几乎没有损失。具体实现方案主要包括：使用 NVIDIA PyTorch Quantization 工具在模型中一些特定位置插入量化/反量化节点，在原模型的基础上构造一个“伪量化”模型。紧接着，使用该“伪量化”模型在原任务上进行一定轮数的微调，使模型参数在受到量化误差扰动的同时依然可以收敛到一个局部最优，最终最小化量化推理对模型算法指标带来的负面影响。实践中，蚂蚁链团队通过 QAT 技术可以将 INT8 模型与单精度模型的算法指标的相对差距缩小到 0.2% 以内，做到了算法效果几乎无损的模型量化。

随后，则需要将微调完成的 QAT 模型转换为真正的 INT8 版本模型部署到线上生产环境中。这一流程主要依赖 NVIDIA 提供的 TensorRT 高性能推理框架，相较其他部署框架，TensorRT 在 NVIDIA GPU 上表现出巨大的性能优势：一方面通过 graph fusion，kernel tuning 等功能，可以自动化精简网络结构，为模型各层的不同 op 寻找最优 CUDA kernel 等优化操作;更重要的是，TensorRT 8.0 开始，添加了针对“伪量化”节点的自动化解析和融合功能，使 QAT 模型落地的门槛大大降低，让 QAT 模型真正有可能在部署环境中展现出近似 INT8 后量化模型的极高推理性能。实践中，采用 INT8-QAT 的模型做到了比单精度模型约 300% 的单位时间吞吐提升，极大提高了模型推理服务的效率;同时，量化模型更低的显存占用也为模型部署带来了更高的灵活性。

借助 NVIDIA 在高性能模型推理方面完善的软硬件生态，蚂蚁链团队得以使用 INT8-QAT 技术大幅优化蚂蚁链版权 AI 平台中模型推理服务的效率，帮助系统整体降本增效。300% 的推理速度提升，以及算法指标几乎无损的特性，让此项目的 AI 模型可以做到兼顾效果与性能，帮助蚂蚁链版权 AI 平台在业界树立技术优势。

“版权保护是一个富有挑战的技术领域，互联网内容类型多样、隐匿性强、易复制与编辑等特点对我们提出了诸多挑战。蚂蚁链从 2019 年发布鹊凿版权保护平台以来，在音视图文的侵权检索、侵权比对与定位方面做了大量深入的研究工作。我们 AIoT 团队在 2022 年世界知识产权日向公众发布了蚂蚁链版权 AI 计算引擎，可以对相似内容的提取精确到帧，直接以秒为单位反馈比对结果。这种细颗粒度的识别能力极大提高了下游工作效率，同时也需要我们充分探索和利用 NVIDIA INT8-QAT 等加速技术，在效果和性能之间达到最佳平衡。接下去我们还会面向低成本高性能的版权 AI 算法演进，让技术普惠更多的普通创作者。”蚂蚁链 AIoT 高级算法专家张晓博与钱烽表示。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5104

浏览量
104420
gpu

gpu

+关注

关注
28

文章
4828

浏览量
129763
AI

AI

+关注

关注
87

文章
32376

浏览量
271538
英伟达

英伟达

+关注

关注
22

文章
3872

浏览量
92433

原文标题：NVIDIA 携手蚂蚁链实现 INT8 QAT 技术加速 AI 推理，打造新一代版权保护平台

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

使用NVIDIA推理平台提高AI推理性能

NVIDIA推理平台提高了 AI 推理性能，为零售、电信等行业节省了数百万美元。

发表于 02-08 09:59 •317次阅读

使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

NVIDIA与合作伙伴推出代理式AI Blueprint

开发者现在可以使用全新 NVIDIA AI Blueprint 构建和部署具备推理、规划和行动能力的定制化 AI 智能体。这些蓝图囊括了 NVIDI

发表于 01-09 11:08 •354次阅读

NVIDIA与软银集团合作加速日本主权AI计划

NVIDIA 宣布与软银集团开展一系列合作，旨在加速日本主权 AI 计划，并进一步提升日本在全球的技术领先优势，同时为全球电信运营商开辟数十亿美元的

发表于 11-19 15:49 •451次阅读

NVIDIA加速AI在日本各行各业的应用

企业借助基于 NVIDIA AI Enterprise 与 Omniverse 工业 AI 构建的创新中心和服务加速 AI 转型。

发表于 11-19 15:45 •375次阅读

赖耶科技通过NVIDIA AI Enterprise平台打造超级AI工厂

与 NVIDIA 技术团队保持合作。赖耶科技通过NVIDIA AI Enterprise平台打造的超级

发表于 11-19 14:55 •592次阅读

日本企业借助NVIDIA产品加速AI创新

日本领先企业和大学正在使用 NVIDIA NeMo、NIM 微服务和 NVIDIA Isaac 加速 AI 创新。

发表于 11-19 14:34 •537次阅读

印度头部IT企业与NVIDIA合作加速AI采用

Infosys、TCS、Tech Mahindra 和 Wipro 这四家公司的近 50 万名开发者和顾问使用 NVIDIA AI Enterprise 软件设计和部署 AI 智能体，并使用

发表于 10-29 15:08 •566次阅读

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise，为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速

发表于 10-27 10:03 •397次阅读

NVIDIA与思科合作打造企业级生成式AI基础设施

由 NVIDIA 加速计算平台、NVIDIA AI Enterprise 软件和 NVIDIA NIM

发表于 10-10 09:35 •495次阅读

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务，与同样刚推出的 Llama 3.1

发表于 07-25 09:48 •838次阅读

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 变革

简化 AI 创造价值的过程，加速生成式 AI 的发展步伐。 NVIDIA AI Computing by HPE 由 HPE 与

发表于 06-20 17:36 •836次阅读

英伟达推出AI模型推理服务NVIDIA NIM

英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程，为全球的2800万英伟达开发者提供前所未有的便利。

发表于 06-04 09:15 •792次阅读

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

发表于 05-27 11:50 •645次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVI

发表于 04-20 09:39 •878次阅读

NVIDIA和谷歌云宣布开展一项新的合作，加速AI开发

NVIDIA 和谷歌云宣布开展一项新的合作，以帮助全球初创企业加速创建生成式 AI 应用和服务。

发表于 04-11 14:03 •611次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

蚂蚁链AIoT团队与NVIDIA合作加速AI推理

评论

使用NVIDIA推理平台提高AI推理性能

NVIDIA与合作伙伴推出代理式AI Blueprint

NVIDIA与软银集团合作加速日本主权AI计划

NVIDIA加速AI在日本各行各业的应用

赖耶科技通过NVIDIA AI Enterprise平台打造超级AI工厂

日本企业借助NVIDIA产品加速AI创新

印度头部IT企业与NVIDIA合作加速AI采用

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

NVIDIA与思科合作打造企业级生成式AI基础设施

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 变革

英伟达推出AI模型推理服务NVIDIA NIM

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

利用NVIDIA组件提升GPU推理的吞吐

NVIDIA和谷歌云宣布开展一项新的合作，加速AI开发