0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一套高性能高灵活性的硬编解码推理技术方案

电子工程师 来源:DeepBlue深兰科技 作者:DeepBlue深兰科技 2021-03-15 09:44 次阅读

在基于NVIDIA平台上推理时,通常会遇到读取视频进行解码然后输入到GPU进行推理的需求。视频一般以RTMP/RTSP的流媒体,文件等形式出现。解码通常有VideoCapture/FFmpeg/GStreamer等选择,推理一般选择TensorRT。

NVIDIA已经为用户提供了基于GStreamer插件拼装的DeepStream Toolkit来解决上述需求,实现RTMP/RTSP/FileSystem到GStreamer再到TensorRT,从视频数据的输入到高性能解码推理,再到渲染编码,直到最终结果输出。端到端的屏蔽了细节,易于上手使用,用户只需要开发对应GStreamer插件即可轻易实现高性能解码推理。这个方案涵盖了服务端GPU、边缘端嵌入式设备的高性能支持。 由于项目的缘故,面临了大规模(96路)视频文件的同时处理,同时推理的模型种类有6种(Object Detection[Anchor base/Anchor free]、Instance Segmentation、Semantic Segmentation、Keypoint Detection、Classification),处理的模型约96个(分类器36个,检测分割60个)。项目需要极高的灵活度(模型种类和数量增加变化)、稳定性和高性能,考察DeepStream后发现其灵活度无法满足需求,因此针对该需求,使用FFMPEG、NVDEC(CUVID)、CUDA、TensorRT、ThreadPool、Lua等技术实现了一套高性能高灵活性的硬编解码推理技术方案,高扩展性,灵活的性能自动调整,任务调度。

解码器

VideoCapture/FFMPEG/NVDEC

VideoCapture基于FFMPEG,如果单独使用FFMPEG则可以做到更细粒度的性能控制,如果配合NVDEC则需要修改FFMPEG。

其中尤为重要的部分是:

a. 谨慎使用cvtColor,在OpenCV底层,cvtColor函数是一个多线程运行加速的函数,即使仅仅是CV_BGR2RGB这个通道交换的操作也如此。他是一个非常消耗CPU的操作。

通过上面可以观察到,具有64线程的服务器,也只能实时处理3路带有cvtColor的视频文件。没有cvtColor时,指标约为12路。也侧面反映了CPU解码效率其实很感人。 而cvtColor在CPU上运行的替代方案是sws_scale,具有灵活的性能配置选择。不过也仅仅是比cvtColor稍好一点,问题并没有得到解决。 颜色空间转换,第一个使用场景为H264解码后得到的是YUV格式图像,需要转换为BGR(这个过程在VideoCapture中默认存在sws_scale,输出图像为BGR格式)。第二个使用场景是神经网络推理所需要的转换(训练时指定为RGB格式)。 解决方案是: 1) 使用BGR进行训练,尽量避免颜色空间转换; 2) 使用FFMPEG解码,并输出YUV格式,使用CUDA把YUV格式转换为BGR,同时还进行进行标准化、BGRBGRBGR转为BBBGGGRRR等推理常有操作。实现多个步骤合并为一个cuda核,降低数据流转,提升吞吐量。例如yolov5,则可以把Focus也合并到一个cuda核中。如果需要中心对齐等操作,依旧可以把仿射变换矩阵传入到cuda核中,一次完成整个预处理流程。 下图为同时实现归一化、focus、bgr到rgb、bgrbgrbgr转bbbgggrrr共4个操作。

c25f8d9c-845b-11eb-8b86-12bb97331649.png

b. 仅考虑CPU解码,使用FFMPEG可以配合nasm编译(--enable_asm)支持CPU的SIMD流指令集(SSE、AVX、MMX),比默认VideoCapture配置的ffmpeg性能更好。同时还可以根据需要配置解码所使用的线程数,控制sws_scale、decode的消耗。

编码而言,ffmpeg可以使用preset=veryfast实现更高的速度提升于VideoWriter,设置合理的gop_size、bit_rate可以实现更加高效的编码速度、更小的编码后文件、以及更快的解码速度。

c. NVDEC是一个基于CUDA的GPU硬件解码器库,CUVID(NVENC)是编码库。

地址是:https://developer.nvidia.com/nvidia-video-codec-sdk

对于ffmpeg配合NVDEC时,需要修改libavutil/hwcontext_cuda.c:356 对于hwctx->cuda_ctx 的创建不能放到ffmpeg内部进行管理。这对于大规模(例如超过32路同时创建解码器时)是个灾难。硬件解码的一个核心就是CUcontext的管理,CUcontext应该在线程池的一个线程上下文中全局存在一个,而不是重复创建。TensorRT的模型加载时(cudaStreamCreate时),会在上下文中创建CUcontext,直接与其公用一个context即可。

对于没有合理管理CUcontext的,异步获取ffmpeg的输出数据会存在异常并且难以排查。如果大规模同时创建32个解码器,则同时执行的程序,其前后最大时长差为32秒。并且由于占用GPU显存,导致程序稳定性差,极其容易出现OOM。

frames_ctx->format指定为AV_PIX_FMT_CUDA后,解码出的图像数据直接在GPU显存上,格式是YUV_NV12,可以直接在显卡上对接后续的pipline。

在ffmpeg解码流程中,配合硬件解码,需要在avcodec_send_packet/avcodec_decode_video2之前,将codec_ctx_->pix_fmt设置为AV_PIX_FMT_CUDA,该操作每次执行都需要存在,并不是全局设置一次。

基于以上的结论为:

a) CPU编解码,使用配置了nasm的ffmpeg进行,避免使用VideoCapture/VideoWriter;

b) GPU编解码,服务器使用配置了NVDEC的ffmpeg进行,嵌入式使用DeepStream(不支持NVDEC);

c) 避免使用cvtColor,尽量合并为一个cuda kernel减少数据扭转实现多重功能。

CUDA/TensorRT

关于推理的一些优化

a. 对于图像预处理部分,通常有居中对齐操作:把图像等比缩放后,图像中心移动到目标中心。通常可以使用resize+ROI复制实现,也可以使用copyMakeBorder等CPU操作。

在这里推荐采用GPU的warpAffine来替代resize+坐标运算。原因是warpAffine可以达到一样效果,并且代码逻辑简单,而且更加容易实现框坐标反算回图像尺度。对于反变换,计算warpAffine矩阵的逆矩阵即可(使用invertAffineTransform)。GPU的warpAffine实现,也仅仅只需要实现双线性插值即可。

b. 注意计算的密集性问题。

cudaStream的使用,将图像预处理、模型推理、后处理全部加入到同一个cudaStream中,使得计算密集性增加。实现更好的计算效率,统一的流进行管理。所有的GPU操作均采用Async异步,并尽可能减少主机到显存复制的情况发生。方案是定义MemoryManager类型,实现自动内存管理,在需要GPU内存时检查GPU是否是最新来决定是否发生复制操作。取自caffe的blob类。

c. 检测器通常遇到的sigmoid操作,是一个可以加速的地方。

例如通常onnx导出后会增加一个sigmoid节点,对数据进行sigmoid变为概率后进行后处理得到结果。Yolov5为例,我们有BxHxWx [(num_classes + 5) * num_anchor]个通道需要做sigmoid,假设B=8,H=80,W=80,num_classes=80,num_anchor=3,则我们有8x80x80x255个数字需要进行sigmoid。而真实情况是,我们仅仅只需要保留confidence > threshold的框需要保留。而大于threshold的框一般是很小的比例,例如200个以内。真正需要计算sigmoid的其实只有最多200个。这之间相差65280倍。这个问题适用全部存在类似需求的检测器后处理上。 解决对策为,实现cuda核时,使用desigmoid threshold为阈值过滤掉绝大部分不满足条件的框,仅对满足的少量框进行后续计算。

d. 在cuda核中,避免使用例如1.0,应该使用1.0f。

因为1.0是双精度浮点数,这会导致这个核的计算使用了双精度计算。众所周知,双精度性能远低于单精度,更低于半精度。

线程池Thread Pool

主要利用了c++11提供的condition_variable、promise、 future、mutex、queue、thread实现。线程池是整个系统的基本单元,由于线程池的存在,轻易实现模型推理的高度并行化异步化。

使用线程池后,任务通过 commit提交,推理时序图为:

当线程池配合硬件解码后,时序图为:

此时实现了GPU运算的连续化,异步化。GPU与CPU之间没有等待。

资源管理的RAII机制

Resource Acquisition Is Initialization

在C++中,使用RAII机制封装后,具有头文件干净,依赖简单,管理容易等好处。

其要点在于:第一,资源创建即初始化,创建失败返回空指针;第二,使用shared_ptr自动内存管理,避免丑陋的create、release,new、delete等操作;第三,使用接口模式,hpp声明,cpp实现,隐藏细节。外界只需要看到必要的部分,不需要知道细节。

头文件:interface.hpp

实现文件:interface.cpp

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4700

    浏览量

    128688
  • 编解码器
    +关注

    关注

    0

    文章

    253

    浏览量

    24206
  • 流媒体
    +关注

    关注

    1

    文章

    192

    浏览量

    16649

原文标题:实战 | 硬编解码技术的AI应用

文章出处:【微信号:kmdian,微信公众号:深兰科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    面对快速迭代的技术,怎能忽视设备升级的高效与灵活性

    竞争的商业环境中,技术的飞速迭代和业务需求的持续变化,现场部署的效率与灵活性已成为衡量项目成功与否的关键因素之。企业为了抢占市场先机,必须迅速完成新设备的部署与旧
    的头像 发表于 11-05 08:03 145次阅读
    面对快速迭代的<b class='flag-5'>技术</b>,怎能忽视设备升级的高效与<b class='flag-5'>灵活性</b>?

    NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

    丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise,为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发
    的头像 发表于 10-27 10:03 163次阅读
    NVIDIA助力丽蟾科技打造AI训练与<b class='flag-5'>推理</b>加速解决<b class='flag-5'>方案</b>

    使用低成本MSPM0 MCU提高电池管理设计的灵活性

    电子发烧友网站提供《使用低成本MSPM0 MCU提高电池管理设计的灵活性.pdf》资料免费下载
    发表于 09-07 10:53 0次下载
    使用低成本MSPM0 MCU提高电池管理设计的<b class='flag-5'>灵活性</b>

    使用低成本MSPM0 MCU提高电子温度计设计的灵活性

    电子发烧友网站提供《使用低成本MSPM0 MCU提高电子温度计设计的灵活性.pdf》资料免费下载
    发表于 09-07 09:46 0次下载
    使用低成本MSPM0 MCU提高电子温度计设计的<b class='flag-5'>灵活性</b>

    使用BQ27Z746实现反向充电保护的设计灵活性

    电子发烧友网站提供《使用BQ27Z746实现反向充电保护的设计灵活性.pdf》资料免费下载
    发表于 08-30 11:45 0次下载
    使用BQ27Z746实现反向充电保护的设计<b class='flag-5'>灵活性</b>

    OPSL 优势1:波长灵活性

    与其他类型的连续激光器相比,光泵半导体激光器 (OPSL) 技术有许多优势,包括波长的灵活性。 特别是OPSL打破了传统技术的限制,可以通过设计与应用的波长要求相匹配。 不折不扣的波长灵活性
    的头像 发表于 07-08 06:30 271次阅读
    OPSL 优势1:波长<b class='flag-5'>灵活性</b>

    8芯M16公头如何提升灵活性

      德索工程师说道在电子设备的连接和传输中,8芯M16公头作为种重要的电气连接器,其灵活性对于提高连接效率、降低故障率和增强用户体验至关重要。因此,本文将详细探讨如何提升8芯M16公头的灵活性,以满足不断变化的电子系统需求。
    的头像 发表于 05-25 17:48 231次阅读
    8芯M16公头如何提升<b class='flag-5'>灵活性</b>

    英特尔锐炫A系列显卡为客户提供了强大的性能灵活性

    在当今快速发展的边缘计算和人工智能领域,英特尔凭借其创新的软硬件解决方案,为客户提供了强大的性能灵活性。其中,推出的英特尔锐炫 A 系列显卡备受关注。
    的头像 发表于 03-22 15:17 481次阅读
    英特尔锐炫A系列显卡为客户提供了强大的<b class='flag-5'>性能</b>和<b class='flag-5'>灵活性</b>

    意法半导体推出款兼备智能功能和设计灵活性的八路边开关

    意法半导体新推出的八路边开关兼备智能功能和设计灵活性,每条通道导通电阻RDS(on)(典型值)仅为110mΩ,保护系统能效,体积紧凑,节省 PCB 空间。
    的头像 发表于 03-12 11:41 522次阅读

    高性能立体声编解码器DA7400 数据表

    电子发烧友网站提供《高性能立体声编解码器DA7400 数据表.pdf》资料免费下载
    发表于 02-20 10:11 1次下载
    <b class='flag-5'>高性能</b>立体声<b class='flag-5'>编解码</b>器DA7400 数据表

    编解码体机相对于传统的编解码设备有哪些优势?

    编解码体机相对于传统的编解码设备具有多个优势。以下是编解码体机的几个主要优势: 高效实时的视频处理能力:
    的头像 发表于 01-31 14:56 1323次阅读
    <b class='flag-5'>编解码</b><b class='flag-5'>一</b>体机相对于传统的<b class='flag-5'>编解码</b>设备有哪些优势?

    编解码体机:技术、应用与挑战

    编解码体机是种集视频编解码、音频编码以及数据传输功能于体的多媒体设备。它基于云计算技术,具
    的头像 发表于 01-31 14:48 473次阅读
    <b class='flag-5'>编解码</b><b class='flag-5'>一</b>体机:<b class='flag-5'>技术</b>、应用与挑战

    音频处理的新选择:编解码体机

    编解码体机作为音频处理的新选择,以其高效、灵活的解决方案,引领着音频处理技术的新篇章。这种设备集成了音频
    的头像 发表于 01-31 14:46 510次阅读
    音频处理的新选择:<b class='flag-5'>编解码</b><b class='flag-5'>一</b>体机

    什么是编解码体机?

    编解码体机是种集视频编解码、音频编码以及数据传输功能于体的多媒体设备。这种设备通常基于云计算技术
    的头像 发表于 01-31 14:19 586次阅读
    什么是<b class='flag-5'>编解码</b><b class='flag-5'>一</b>体机?

    4G插卡路由器:无线上网的便利与灵活性

    4G插卡路由器:无线上网的便利与灵活性
    的头像 发表于 11-28 17:27 905次阅读