0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

NVIDIA英伟达 来源:未知 2022-11-15 21:20 次阅读

PaddleSlim 发布 AI 模型自动压缩的工具,带来全新升级 AI 模型一键自动压缩体验。欢迎广大开发者使用 NVIDIA 与飞桨联合深度适配的 NGC 飞桨容器在 NVIDIA GPU 上体验!

PaddleSlim 自动压缩工具,

30+CV、NLP 模型实战

众所周知,计算机视觉技术(CV)是企业人工智能应用比重最高的领域之一。为降低企业成本,工程师们一直在探索各类模型压缩技术,来产出“更准、更小、更快”的 AI 模型部署落地。而在自然语言处理领域(NLP)中,随着模型精度的不断提升,模型的规模也越来越大,例如以 BERT、GPT 为代表的预训练模型等,这成为企业 NLP 模型部署落地的拦路虎。

针对企业落地模型压缩迫切的需求,PaddleSlim 团队开发了一个低成本、高收益的 AI 模型自动压缩工具(ACT, Auto Compression Toolkit),无需修改训练源代码,通过几十分钟量化训练,保证模型精度的同时,极大的减小模型体积,降低显存占用,提升模型推理速度,助力 AI 模型的快速落地!

使用 ACT 中的基于知识蒸馏的量化训练方法训练 YOLOv7 模型,与原始的 FP32 模型相比,INT8 量化后的模型减小 75%,在 NVIDIA GPU 上推理加速 5.90 倍

99a61056-64e7-11ed-8abf-dac502259ad0.png  表1 自动压缩工具在 CV 模型上的压缩效果和推理加速

使用 ACT 中的结构化稀疏和蒸馏量化方法训练 ERNIE3.0 模型,与原始的 FP32 对比,INT8 量化后的模型减小 185%,在 NVIDIA GPU 上推理加速 6.37 倍

99d136b4-64e7-11ed-8abf-dac502259ad0.png

表2 自动压缩工具在 NLP 模型上的压缩效果和推理加速

支持如此强大功能的核心技术是来源于 PaddleSlim 团队自研的自动压缩工具。自动压缩相比于传统手工压缩,自动化压缩的“自动”主要体现在 4 个方面:解耦训练代码、离线量化超参搜索、算法自动组合和硬件感知。

99fc685c-64e7-11ed-8abf-dac502259ad0.png

图1 传统手工压缩与自动化压缩工具对比

9a2637b8-64e7-11ed-8abf-dac502259ad0.png

图2 传统手工压缩与自动化压缩工具代码量对比

更多详细文档,请参考:

https://github.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

PaddleSlim 研发团队详解自动压缩工具 CV 模型和NLP模型两日课回放,可以扫描下方二维码,加入自动压缩技术官方交流群获取。除此之外,入群福利还包括:深度学习学习资料、历届顶会压缩论文、百度架构师详解自动压缩等。

9a789fe4-64e7-11ed-8abf-dac502259ad0.png

NGC 飞桨容器介绍

如果您希望体验自动压缩工具的新特性,欢迎使用 NGC 飞桨容器。NVIDIA 与百度飞桨联合开发了 NGC 飞桨容器,将最新版本的飞桨与最新的 NVIDIA 的软件栈(如 CUDA)进行了无缝的集成与性能优化,最大程度的释放飞桨框架在 NVIDIA 最新硬件上的计算能力。这样,用户不仅可以快速开启 AI 应用,专注于创新和应用本身,还能够在 AI 训练和推理任务上获得飞桨+NVIDIA 带来的飞速体验。

最佳的开发环境搭建工具 - 容器技术。

  1. 容器其实是一个开箱即用的服务器。极大降低了深度学习开发环境的搭建难度。例如你的开发环境中包含其他依赖进程(redis,MySQL,Ngnix,selenium-hub 等等),或者你需要进行跨操作系统级别的迁移。

  2. 容器镜像方便了开发者的版本化管理

  3. 容器镜像是一种易于复现的开发环境载体

  4. 容器技术支持多容器同时运行

9a94b31e-64e7-11ed-8abf-dac502259ad0.png

最好的 PaddlePaddle 容器

NGC 飞桨容器针对 NVIDIA GPU 加速进行了优化,并包含一组经过验证的库,可启用和优化 NVIDIA GPU 性能。此容器还可能包含对 PaddlePaddle 源代码的修改,以最大限度地提高性能和兼容性。此容器还包含用于加速 ETL(DALI,RAPIDS)、训练(cuDNN,NCCL)和推理(TensorRT)工作负载的软件。

PaddlePaddle 容器具有以下优点:

  1. 适配最新版本的 NVIDIA 软件栈(例如最新版本 CUDA),更多功能,更高性能。

  2. 更新的 Ubuntu 操作系统,更好的软件兼容性

  3. 按月更新

  4. 满足 NVIDIA NGC 开发及验证规范,质量管理

通过飞桨官网快速获取

9abbeaf6-64e7-11ed-8abf-dac502259ad0.png

环境准备

使用 NGC 飞桨容器需要主机系统(Linux)安装以下内容:

  • Docker 引擎

  • NVIDIA GPU 驱动程序

  • NVIDIA 容器工具包

有关支持的版本,请参阅 NVIDIA 框架容器支持矩阵NVIDIA 容器工具包文档

不需要其他安装、编译或依赖管理。无需安装 NVIDIA CUDA Toolkit。

NGC 飞桨容器正式安装:

要运行容器,请按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中 Running A Container 一章中的说明发出适当的命令,并指定注册表、存储库和标签。有关使用 NGC 的更多信息,请参阅 NGC 容器用户指南。如果您有 Docker 19.03 或更高版本,启动容器的典型命令是:

9af1f420-64e7-11ed-8abf-dac502259ad0.png

*详细安装介绍 《NGC 飞桨容器安装指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*详细产品介绍视频

【飞桨开发者说|NGC 飞桨容器全新上线 NVIDIA 产品专家全面解读】

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82


原文标题:在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3739

    浏览量

    90790

原文标题:在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    树莓派上部署YOLOv5进行动物目标检测的完整流程

    卓越的性能。本文将详细介绍如何在性能更强的计算机上训练YOLOv5模型,并将训练好的模型部署到树莓派4B,通过树莓派的摄像头进行实时动物目
    的头像 发表于 11-11 10:38 300次阅读
    <b class='flag-5'>在</b>树莓派上<b class='flag-5'>部署</b><b class='flag-5'>YOLOv</b>5进行动物目标检测的完整流程

    YOLOv6LabVIEW中的推理部署(含源码)

    YOLOv6 是美团视觉智能部研发的一款目标检测框架,致力于工业应用。如何使用python进行该模型部署,官网已经介绍的很清楚了,但是对于如何在LabVIEW中实现该模型
    的头像 发表于 11-06 16:07 169次阅读
    <b class='flag-5'>YOLOv</b>6<b class='flag-5'>在</b>LabVIEW中的推理<b class='flag-5'>部署</b>(含源码)

    NVIDIA NIM助力企业高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM,将允许用户通过 API 调用来大规模地部署大语言模型
    的头像 发表于 10-10 09:49 358次阅读

    快速部署Tensorflow和TFLITE模型Jacinto7 Soc

    电子发烧友网站提供《快速部署Tensorflow和TFLITE模型Jacinto7 Soc.pdf》资料免费下载
    发表于 09-27 11:41 0次下载
    快速<b class='flag-5'>部署</b>Tensorflow和TFLITE<b class='flag-5'>模型</b><b class='flag-5'>在</b>Jacinto<b class='flag-5'>7</b> Soc

    Yuan2.0千亿大模型通用服务器NF8260G7的推理部署

    巨量模型的智能生产力正在逐步渗透到各行各业,但它们的部署和运行通常需要专用的AI加速卡,能否CPU运行千亿大
    的头像 发表于 07-30 14:26 354次阅读
    Yuan2.0千亿大<b class='flag-5'>模型</b><b class='flag-5'>在</b>通用服务器NF8260G<b class='flag-5'>7</b><b class='flag-5'>上</b>的推理<b class='flag-5'>部署</b>

    用OpenVINO C# APIintel平台部署YOLOv10目标检测模型

    模型设计策略,从效率和精度两个角度对YOLOs的各个组成部分进行了全面优化,大大降低了计算开销,增强了性能。本文中,我们将结合OpenVINO C# API使用最新发布的OpenVINO 2024.1部署
    的头像 发表于 06-21 09:23 936次阅读
    用OpenVINO C# API<b class='flag-5'>在</b>intel平台<b class='flag-5'>部署</b><b class='flag-5'>YOLOv</b>10目标检测<b class='flag-5'>模型</b>

    模型端侧部署加速,都有哪些芯片可支持?

    小型化、场景化需求的增加,推理逐步从云端扩展向端侧。这种趋势PC和手机等终端产品尤为明显。   大模型端侧部署
    的头像 发表于 05-24 00:14 3956次阅读

    maixcam部署yolov5s 自定义模型

    maixcam部署yolov5s 自定义模型 本博客将向你展示零基础一步步的部署好自己的yolov5s
    发表于 04-23 15:43

    NVIDIA数字人技术加速部署生成式AI驱动的游戏角色

    NVIDIA GDC 2024 大会上宣布,Inworld AI 等领先的 AI 应用程序开发者,正在使用 NVIDIA 数字人技术加速部署
    的头像 发表于 04-09 10:08 622次阅读
    <b class='flag-5'>NVIDIA</b>数字人技术<b class='flag-5'>加速</b><b class='flag-5'>部署</b>生成式AI驱动的游戏角色

    yolov5转onnxcubeAI上部署失败的原因?

    第一个我是转onnx时 想把权重文件变小点 就用了半精度 --half,则说17版本不支持半精度 后面则是没有缩小的单精度 但是显示哪里溢出了···· 也不说是哪里、、。。。 到底能不能部署yolov5这种东西啊?? 也没看见几个部署
    发表于 03-14 06:23

    基于OpenCV DNN实现YOLOv8的模型部署与推理演示

    基于OpenCV DNN实现YOLOv8推理的好处就是一套代码就可以部署Windows10系统、乌班图系统、Jetson的Jetpack系统
    的头像 发表于 03-01 15:52 1389次阅读
    基于OpenCV DNN实现<b class='flag-5'>YOLOv</b>8的<b class='flag-5'>模型</b><b class='flag-5'>部署</b>与推理演示

    减速电机的减速比是什么意思

    减速电机的减速比是什么意思  减速电机的减速比是指减速装置(如行星齿轮、蜗轮蜗杆、圆柱齿轮等)与电机输出轴的转子(通常是电机上的转子)之间的旋转速度比值。减速比可以通过以下公式来计算
    的头像 发表于 12-19 09:55 1379次阅读

    【爱芯派 Pro 开发板试用体验】部署爱芯派官方YOLOV5模型

    继上文开箱后,本文主要依托爱芯元智官方的实例,进行官方YOLOV5模型部署和测试。 一、环境搭建 由于8核A55的SoC,加上目前Debian OS的工具齐全,所以决定直接在板编译
    发表于 12-12 22:58

    YOLOV7网络架构解读

    继美团发布YOLOV6之后,YOLO系列原作者也发布了YOLOV7
    的头像 发表于 11-29 10:00 1757次阅读
    <b class='flag-5'>YOLOV7</b>网络架构解读

    详细解读YOLOV7网络架构设计

    YOLOV7提出了辅助头的一个训练方法,主要目的是通过增加训练成本,提升精度,同时不影响推理的时间,因为辅助头只会出现在训练过程中。
    发表于 11-27 10:45 729次阅读
    详细解读<b class='flag-5'>YOLOV7</b>网络架构设计