在 NVIDIA NGC 上搞定模型自动压缩，YOLOv7 部署加速比 5.90，BERT 部署加速比 6.22-电子发烧友网

PaddleSlim 发布 AI 模型自动压缩的工具，带来全新升级 AI 模型一键自动压缩体验。欢迎广大开发者使用 NVIDIA 与飞桨联合深度适配的 NGC 飞桨容器在 NVIDIA GPU 上体验！

PaddleSlim 自动压缩工具，

30+CV、NLP 模型实战

众所周知，计算机视觉技术（CV）是企业人工智能应用比重最高的领域之一。为降低企业成本，工程师们一直在探索各类模型压缩技术，来产出“更准、更小、更快”的 AI 模型部署落地。而在自然语言处理领域（NLP）中，随着模型精度的不断提升，模型的规模也越来越大，例如以 BERT、GPT 为代表的预训练模型等，这成为企业 NLP 模型部署落地的拦路虎。

针对企业落地模型压缩迫切的需求，PaddleSlim 团队开发了一个低成本、高收益的 AI 模型自动压缩工具（ACT, Auto Compression Toolkit），无需修改训练源代码，通过几十分钟量化训练，保证模型精度的同时，极大的减小模型体积，降低显存占用，提升模型推理速度，助力 AI 模型的快速落地！

使用 ACT 中的基于知识蒸馏的量化训练方法训练 YOLOv7 模型，与原始的 FP32 模型相比，INT8 量化后的模型减小 75%，在 NVIDIA GPU 上推理加速 5.90 倍。

表1 自动压缩工具在 CV 模型上的压缩效果和推理加速

使用 ACT 中的结构化稀疏和蒸馏量化方法训练 ERNIE3.0 模型，与原始的 FP32 对比，INT8 量化后的模型减小 185%，在 NVIDIA GPU 上推理加速 6.37 倍。

表2 自动压缩工具在 NLP 模型上的压缩效果和推理加速

支持如此强大功能的核心技术是来源于 PaddleSlim 团队自研的自动压缩工具。自动压缩相比于传统手工压缩，自动化压缩的“自动”主要体现在 4 个方面：解耦训练代码、离线量化超参搜索、算法自动组合和硬件感知。

图1 传统手工压缩与自动化压缩工具对比

图2 传统手工压缩与自动化压缩工具代码量对比

更多详细文档，请参考：

https://github.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

PaddleSlim 研发团队详解自动压缩工具 CV 模型和NLP模型两日课回放，可以扫描下方二维码，加入自动压缩技术官方交流群获取。除此之外，入群福利还包括：深度学习学习资料、历届顶会压缩论文、百度架构师详解自动压缩等。

NGC 飞桨容器介绍

如果您希望体验自动压缩工具的新特性，欢迎使用 NGC 飞桨容器。NVIDIA 与百度飞桨联合开发了 NGC 飞桨容器，将最新版本的飞桨与最新的 NVIDIA 的软件栈（如 CUDA）进行了无缝的集成与性能优化，最大程度的释放飞桨框架在 NVIDIA 最新硬件上的计算能力。这样，用户不仅可以快速开启 AI 应用，专注于创新和应用本身，还能够在 AI 训练和推理任务上获得飞桨+NVIDIA 带来的飞速体验。

最佳的开发环境搭建工具 - 容器技术。

容器其实是一个开箱即用的服务器。极大降低了深度学习开发环境的搭建难度。例如你的开发环境中包含其他依赖进程（redis，MySQL，Ngnix，selenium-hub 等等），或者你需要进行跨操作系统级别的迁移。
容器镜像方便了开发者的版本化管理
容器镜像是一种易于复现的开发环境载体
容器技术支持多容器同时运行

最好的 PaddlePaddle 容器

NGC 飞桨容器针对 NVIDIA GPU 加速进行了优化，并包含一组经过验证的库，可启用和优化 NVIDIA GPU 性能。此容器还可能包含对 PaddlePaddle 源代码的修改，以最大限度地提高性能和兼容性。此容器还包含用于加速 ETL（DALI，RAPIDS）、训练（cuDNN，NCCL）和推理（TensorRT）工作负载的软件。

PaddlePaddle 容器具有以下优点：

适配最新版本的 NVIDIA 软件栈（例如最新版本 CUDA），更多功能，更高性能。
更新的 Ubuntu 操作系统，更好的软件兼容性
按月更新
满足 NVIDIA NGC 开发及验证规范，质量管理

通过飞桨官网快速获取

环境准备

使用 NGC 飞桨容器需要主机系统（Linux）安装以下内容：

Docker 引擎
NVIDIA GPU 驱动程序
NVIDIA 容器工具包

有关支持的版本，请参阅 NVIDIA 框架容器支持矩阵和 NVIDIA 容器工具包文档。

不需要其他安装、编译或依赖管理。无需安装 NVIDIA CUDA Toolkit。

NGC 飞桨容器正式安装：

要运行容器，请按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中 Running A Container 一章中的说明发出适当的命令，并指定注册表、存储库和标签。有关使用 NGC 的更多信息，请参阅 NGC 容器用户指南。如果您有 Docker 19.03 或更高版本，启动容器的典型命令是：

*详细安装介绍《NGC 飞桨容器安装指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*详细产品介绍视频

【飞桨开发者说｜NGC 飞桨容器全新上线 NVIDIA 产品专家全面解读】

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82

原文标题：在 NVIDIA NGC 上搞定模型自动压缩，YOLOv7 部署加速比 5.90，BERT 部署加速比 6.22

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3773

浏览量
91023

原文标题：在 NVIDIA NGC 上搞定模型自动压缩，YOLOv7 部署加速比 5.90，BERT 部署加速比 6.22

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

Flexus X 实例 ultralytics 模型 yolov10 深度学习 AI 部署与应用

前言： ��深度学习新纪元，828 B2B 企业节 Flexus X 实例特惠！想要高效训练 YOLOv10 模型，实现精准图像识别？Flexus X 以卓越算力，助您轻松驾驭大规模数据集，加速

发表于 12-24 12:24 •90次阅读

Flexus X 实例 ultralytics <b class='flag-5'>模型</b> <b class='flag-5'>yolov</b>10 深度学习 AI <b class='flag-5'>部署</b>与应用

AI模型部署边缘设备的奇妙之旅：目标检测模型

以及边缘计算能力的增强，越来越多的目标检测应用开始直接在靠近数据源的边缘设备上运行。这不仅减少了数据传输延迟，保护了用户隐私，同时也减轻了云端服务器的压力。然而，在边缘端部署高效且准确的目标检测

发表于 12-19 14:33

华迅光通AI计算加速800G光模块部署

400G光模块。更多信息可以在这篇文章中找到:NVIDIA DGX H100简介。这表明在叶脊架构下，数据中心对高速光模块的需求呈指数级增长。随着数据中心规模的扩大，特别是对AI大型模型训练的需求，以及

发表于 11-13 10:16

在树莓派上部署YOLOv5进行动物目标检测的完整流程

卓越的性能。本文将详细介绍如何在性能更强的计算机上训练YOLOv5模型，并将训练好的模型部署到树莓派4B上，通过树莓派的摄像头进行实时动物目

发表于 11-11 10:38 •956次阅读

<b class='flag-5'>在</b>树莓派上<b class='flag-5'>部署</b><b class='flag-5'>YOLOv</b>5进行动物目标检测的完整流程

YOLOv6在LabVIEW中的推理部署（含源码）

YOLOv6 是美团视觉智能部研发的一款目标检测框架，致力于工业应用。如何使用python进行该模型的部署，官网已经介绍的很清楚了，但是对于如何在LabVIEW中实现该模型的

发表于 11-06 16:07 •254次阅读

<b class='flag-5'>YOLOv</b>6<b class='flag-5'>在</b>LabVIEW中的推理<b class='flag-5'>部署</b>（含源码）

NVIDIA NIM助力企业高效部署生成式AI模型

Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM，将允许用户通过 API 调用来大规模地部署大语言模型。

发表于 10-10 09:49 •389次阅读

快速部署Tensorflow和TFLITE模型在Jacinto7 Soc

电子发烧友网站提供《快速部署Tensorflow和TFLITE模型在Jacinto7 Soc.pdf》资料免费下载

发表于 09-27 11:41 •0次下载

快速<b class='flag-5'>部署</b>Tensorflow和TFLITE<b class='flag-5'>模型</b><b class='flag-5'>在</b>Jacinto<b class='flag-5'>7</b> Soc

Yuan2.0千亿大模型在通用服务器NF8260G7上的推理部署

巨量模型的智能生产力正在逐步渗透到各行各业，但它们的部署和运行通常需要专用的AI加速卡，能否在CPU上运行千亿大

发表于 07-30 14:26 •402次阅读

Yuan2.0千亿大<b class='flag-5'>模型</b><b class='flag-5'>在</b>通用服务器NF8260G<b class='flag-5'>7</b><b class='flag-5'>上</b>的推理<b class='flag-5'>部署</b>

用OpenVINO C# API在intel平台部署YOLOv10目标检测模型

的模型设计策略,从效率和精度两个角度对YOLOs的各个组成部分进行了全面优化，大大降低了计算开销，增强了性能。在本文中，我们将结合OpenVINO C# API使用最新发布的OpenVINO 2024.1部署

发表于 06-21 09:23 •1034次阅读

用OpenVINO C# API<b class='flag-5'>在</b>intel平台<b class='flag-5'>部署</b><b class='flag-5'>YOLOv</b>10目标检测<b class='flag-5'>模型</b>

大模型端侧部署加速，都有哪些芯片可支持？

小型化、场景化需求的增加，推理逐步从云端扩展向端侧。这种趋势在PC和手机等终端产品上尤为明显。大模型在端侧部署

发表于 05-24 00:14 •4111次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •559次阅读

maixcam部署yolov5s 自定义模型

maixcam部署yolov5s 自定义模型本博客将向你展示零基础一步步的部署好自己的yolov5s

发表于 04-23 15:43

NVIDIA数字人技术加速部署生成式AI驱动的游戏角色

NVIDIA 在 GDC 2024 大会上宣布，Inworld AI 等领先的 AI 应用程序开发者，正在使用 NVIDIA 数字人技术加速部署

发表于 04-09 10:08 •664次阅读

yolov5转onnx在cubeAI上部署失败的原因？

第一个我是转onnx时想把权重文件变小点就用了半精度 --half，则说17版本不支持半精度后面则是没有缩小的单精度但是显示哪里溢出了···· 也不说是哪里、、。。。到底能不能部署yolov5这种东西啊？？也没看见几个部署

发表于 03-14 06:23

基于OpenCV DNN实现YOLOv8的模型部署与推理演示

基于OpenCV DNN实现YOLOv8推理的好处就是一套代码就可以部署在Windows10系统、乌班图系统、Jetson的Jetpack系统

发表于 03-01 15:52 •1608次阅读

搜索历史

在 NVIDIA NGC 上搞定模型自动压缩，YOLOv7 部署加速比 5.90，BERT 部署加速比 6.22

评论