0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一套高性能高灵活性的硬编解码推理技术方案

电子工程师 来源:DeepBlue深兰科技 作者:DeepBlue深兰科技 2021-03-15 09:44 次阅读

在基于NVIDIA平台上推理时,通常会遇到读取视频进行解码然后输入到GPU进行推理的需求。视频一般以RTMP/RTSP的流媒体,文件等形式出现。解码通常有VideoCapture/FFmpeg/GStreamer等选择,推理一般选择TensorRT。

NVIDIA已经为用户提供了基于GStreamer插件拼装的DeepStream Toolkit来解决上述需求,实现RTMP/RTSP/FileSystem到GStreamer再到TensorRT,从视频数据的输入到高性能解码推理,再到渲染编码,直到最终结果输出。端到端的屏蔽了细节,易于上手使用,用户只需要开发对应GStreamer插件即可轻易实现高性能解码推理。这个方案涵盖了服务端GPU、边缘端嵌入式设备的高性能支持。 由于项目的缘故,面临了大规模(96路)视频文件的同时处理,同时推理的模型种类有6种(Object Detection[Anchor base/Anchor free]、Instance Segmentation、Semantic Segmentation、Keypoint Detection、Classification),处理的模型约96个(分类器36个,检测分割60个)。项目需要极高的灵活度(模型种类和数量增加变化)、稳定性和高性能,考察DeepStream后发现其灵活度无法满足需求,因此针对该需求,使用FFMPEG、NVDEC(CUVID)、CUDA、TensorRT、ThreadPool、Lua等技术实现了一套高性能高灵活性的硬编解码推理技术方案,高扩展性,灵活的性能自动调整,任务调度。

解码器

VideoCapture/FFMPEG/NVDEC

VideoCapture基于FFMPEG,如果单独使用FFMPEG则可以做到更细粒度的性能控制,如果配合NVDEC则需要修改FFMPEG。

其中尤为重要的部分是:

a. 谨慎使用cvtColor,在OpenCV底层,cvtColor函数是一个多线程运行加速的函数,即使仅仅是CV_BGR2RGB这个通道交换的操作也如此。他是一个非常消耗CPU的操作。

通过上面可以观察到,具有64线程的服务器,也只能实时处理3路带有cvtColor的视频文件。没有cvtColor时,指标约为12路。也侧面反映了CPU解码效率其实很感人。 而cvtColor在CPU上运行的替代方案是sws_scale,具有灵活的性能配置选择。不过也仅仅是比cvtColor稍好一点,问题并没有得到解决。 颜色空间转换,第一个使用场景为H264解码后得到的是YUV格式图像,需要转换为BGR(这个过程在VideoCapture中默认存在sws_scale,输出图像为BGR格式)。第二个使用场景是神经网络推理所需要的转换(训练时指定为RGB格式)。 解决方案是: 1) 使用BGR进行训练,尽量避免颜色空间转换; 2) 使用FFMPEG解码,并输出YUV格式,使用CUDA把YUV格式转换为BGR,同时还进行进行标准化、BGRBGRBGR转为BBBGGGRRR等推理常有操作。实现多个步骤合并为一个cuda核,降低数据流转,提升吞吐量。例如yolov5,则可以把Focus也合并到一个cuda核中。如果需要中心对齐等操作,依旧可以把仿射变换矩阵传入到cuda核中,一次完成整个预处理流程。 下图为同时实现归一化、focus、bgr到rgb、bgrbgrbgr转bbbgggrrr共4个操作。

c25f8d9c-845b-11eb-8b86-12bb97331649.png

b. 仅考虑CPU解码,使用FFMPEG可以配合nasm编译(--enable_asm)支持CPU的SIMD流指令集(SSE、AVX、MMX),比默认VideoCapture配置的ffmpeg性能更好。同时还可以根据需要配置解码所使用的线程数,控制sws_scale、decode的消耗。

编码而言,ffmpeg可以使用preset=veryfast实现更高的速度提升于VideoWriter,设置合理的gop_size、bit_rate可以实现更加高效的编码速度、更小的编码后文件、以及更快的解码速度。

c. NVDEC是一个基于CUDA的GPU硬件解码器库,CUVID(NVENC)是编码库。

地址是:https://developer.nvidia.com/nvidia-video-codec-sdk

对于ffmpeg配合NVDEC时,需要修改libavutil/hwcontext_cuda.c:356 对于hwctx->cuda_ctx 的创建不能放到ffmpeg内部进行管理。这对于大规模(例如超过32路同时创建解码器时)是个灾难。硬件解码的一个核心就是CUcontext的管理,CUcontext应该在线程池的一个线程上下文中全局存在一个,而不是重复创建。TensorRT的模型加载时(cudaStreamCreate时),会在上下文中创建CUcontext,直接与其公用一个context即可。

对于没有合理管理CUcontext的,异步获取ffmpeg的输出数据会存在异常并且难以排查。如果大规模同时创建32个解码器,则同时执行的程序,其前后最大时长差为32秒。并且由于占用GPU显存,导致程序稳定性差,极其容易出现OOM。

frames_ctx->format指定为AV_PIX_FMT_CUDA后,解码出的图像数据直接在GPU显存上,格式是YUV_NV12,可以直接在显卡上对接后续的pipline。

在ffmpeg解码流程中,配合硬件解码,需要在avcodec_send_packet/avcodec_decode_video2之前,将codec_ctx_->pix_fmt设置为AV_PIX_FMT_CUDA,该操作每次执行都需要存在,并不是全局设置一次。

基于以上的结论为:

a) CPU编解码,使用配置了nasm的ffmpeg进行,避免使用VideoCapture/VideoWriter;

b) GPU编解码,服务器使用配置了NVDEC的ffmpeg进行,嵌入式使用DeepStream(不支持NVDEC);

c) 避免使用cvtColor,尽量合并为一个cuda kernel减少数据扭转实现多重功能。

CUDA/TensorRT

关于推理的一些优化

a. 对于图像预处理部分,通常有居中对齐操作:把图像等比缩放后,图像中心移动到目标中心。通常可以使用resize+ROI复制实现,也可以使用copyMakeBorder等CPU操作。

在这里推荐采用GPU的warpAffine来替代resize+坐标运算。原因是warpAffine可以达到一样效果,并且代码逻辑简单,而且更加容易实现框坐标反算回图像尺度。对于反变换,计算warpAffine矩阵的逆矩阵即可(使用invertAffineTransform)。GPU的warpAffine实现,也仅仅只需要实现双线性插值即可。

b. 注意计算的密集性问题。

cudaStream的使用,将图像预处理、模型推理、后处理全部加入到同一个cudaStream中,使得计算密集性增加。实现更好的计算效率,统一的流进行管理。所有的GPU操作均采用Async异步,并尽可能减少主机到显存复制的情况发生。方案是定义MemoryManager类型,实现自动内存管理,在需要GPU内存时检查GPU是否是最新来决定是否发生复制操作。取自caffe的blob类。

c. 检测器通常遇到的sigmoid操作,是一个可以加速的地方。

例如通常onnx导出后会增加一个sigmoid节点,对数据进行sigmoid变为概率后进行后处理得到结果。Yolov5为例,我们有BxHxWx [(num_classes + 5) * num_anchor]个通道需要做sigmoid,假设B=8,H=80,W=80,num_classes=80,num_anchor=3,则我们有8x80x80x255个数字需要进行sigmoid。而真实情况是,我们仅仅只需要保留confidence > threshold的框需要保留。而大于threshold的框一般是很小的比例,例如200个以内。真正需要计算sigmoid的其实只有最多200个。这之间相差65280倍。这个问题适用全部存在类似需求的检测器后处理上。 解决对策为,实现cuda核时,使用desigmoid threshold为阈值过滤掉绝大部分不满足条件的框,仅对满足的少量框进行后续计算。

d. 在cuda核中,避免使用例如1.0,应该使用1.0f。

因为1.0是双精度浮点数,这会导致这个核的计算使用了双精度计算。众所周知,双精度性能远低于单精度,更低于半精度。

线程池Thread Pool

主要利用了c++11提供的condition_variable、promise、 future、mutex、queue、thread实现。线程池是整个系统的基本单元,由于线程池的存在,轻易实现模型推理的高度并行化异步化。

使用线程池后,任务通过 commit提交,推理时序图为:

当线程池配合硬件解码后,时序图为:

此时实现了GPU运算的连续化,异步化。GPU与CPU之间没有等待。

资源管理的RAII机制

Resource Acquisition Is Initialization

在C++中,使用RAII机制封装后,具有头文件干净,依赖简单,管理容易等好处。

其要点在于:第一,资源创建即初始化,创建失败返回空指针;第二,使用shared_ptr自动内存管理,避免丑陋的create、release,new、delete等操作;第三,使用接口模式,hpp声明,cpp实现,隐藏细节。外界只需要看到必要的部分,不需要知道细节。

头文件:interface.hpp

实现文件:interface.cpp

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4585

    浏览量

    128124
  • 编解码器
    +关注

    关注

    0

    文章

    234

    浏览量

    24129
  • 流媒体
    +关注

    关注

    1

    文章

    191

    浏览量

    16630

原文标题:实战 | 硬编解码技术的AI应用

文章出处:【微信号:kmdian,微信公众号:深兰科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用低成本MSPM0 MCU提高电池管理设计的灵活性

    电子发烧友网站提供《使用低成本MSPM0 MCU提高电池管理设计的灵活性.pdf》资料免费下载
    发表于 09-07 10:53 0次下载
    使用低成本MSPM0 MCU提高电池管理设计的<b class='flag-5'>灵活性</b>

    OPSL 优势1:波长灵活性

    与其他类型的连续激光器相比,光泵半导体激光器 (OPSL) 技术有许多优势,包括波长的灵活性。 特别是OPSL打破了传统技术的限制,可以通过设计与应用的波长要求相匹配。 不折不扣的波长灵活性
    的头像 发表于 07-08 06:30 165次阅读
    OPSL 优势1:波长<b class='flag-5'>灵活性</b>

    8芯M16公头如何提升灵活性

      德索工程师说道在电子设备的连接和传输中,8芯M16公头作为种重要的电气连接器,其灵活性对于提高连接效率、降低故障率和增强用户体验至关重要。因此,本文将详细探讨如何提升8芯M16公头的灵活性,以满足不断变化的电子系统需求。
    的头像 发表于 05-25 17:48 151次阅读
    8芯M16公头如何提升<b class='flag-5'>灵活性</b>

    英特尔锐炫A系列显卡为客户提供了强大的性能灵活性

    在当今快速发展的边缘计算和人工智能领域,英特尔凭借其创新的软硬件解决方案,为客户提供了强大的性能灵活性。其中,推出的英特尔锐炫 A 系列显卡备受关注。
    的头像 发表于 03-22 15:17 378次阅读
    英特尔锐炫A系列显卡为客户提供了强大的<b class='flag-5'>性能</b>和<b class='flag-5'>灵活性</b>

    意法半导体推出款兼备智能功能和设计灵活性的八路边开关

    意法半导体新推出的八路边开关兼备智能功能和设计灵活性,每条通道导通电阻RDS(on)(典型值)仅为110mΩ,保护系统能效,体积紧凑,节省 PCB 空间。
    的头像 发表于 03-12 11:41 443次阅读

    高性能立体声编解码器DA7400 数据表

    电子发烧友网站提供《高性能立体声编解码器DA7400 数据表.pdf》资料免费下载
    发表于 02-20 10:11 0次下载
    <b class='flag-5'>高性能</b>立体声<b class='flag-5'>编解码</b>器DA7400 数据表

    编解码体机相对于传统的编解码设备有哪些优势?

    编解码体机相对于传统的编解码设备具有多个优势。以下是编解码体机的几个主要优势: 高效实时的视频处理能力:
    的头像 发表于 01-31 14:56 885次阅读
    <b class='flag-5'>编解码</b><b class='flag-5'>一</b>体机相对于传统的<b class='flag-5'>编解码</b>设备有哪些优势?

    编解码体机:技术、应用与挑战

    编解码体机是种集视频编解码、音频编码以及数据传输功能于体的多媒体设备。它基于云计算技术,具
    的头像 发表于 01-31 14:48 363次阅读
    <b class='flag-5'>编解码</b><b class='flag-5'>一</b>体机:<b class='flag-5'>技术</b>、应用与挑战

    音频处理的新选择:编解码体机

    编解码体机作为音频处理的新选择,以其高效、灵活的解决方案,引领着音频处理技术的新篇章。这种设备集成了音频
    的头像 发表于 01-31 14:46 417次阅读
    音频处理的新选择:<b class='flag-5'>编解码</b><b class='flag-5'>一</b>体机

    什么是编解码体机?

    编解码体机是种集视频编解码、音频编码以及数据传输功能于体的多媒体设备。这种设备通常基于云计算技术
    的头像 发表于 01-31 14:19 472次阅读
    什么是<b class='flag-5'>编解码</b><b class='flag-5'>一</b>体机?

    4G插卡路由器:无线上网的便利与灵活性

    4G插卡路由器:无线上网的便利与灵活性
    的头像 发表于 11-28 17:27 744次阅读

    最佳灵活性:通过固态继电器适应应用

    在现代电子和自动化领域,对多功能性和适应性的需求不断增加。行业、企业和个人需要能够无缝集成到各种应用程序中的可靠解决方案。在实现这种灵活性方面发挥着至关重要作用的个关键组件是固态继电器(SSR)。这种电子开关装置彻底改变了电气
    的头像 发表于 10-12 10:11 374次阅读

    Samtec卓越产品 | SEARAY:最大限度提高设计灵活性和密度

    摘要 / 前言   SEARAY™ 是Samtec 的 高速、高密度栅格阵列连接器系列 。 SEARAY™ 为设计人员提供了大量的设计灵活性,远远超过业内任何其他阵列产品。     【 灵活性
    发表于 09-20 16:13 641次阅读
    Samtec卓越产品 | SEARAY:最大限度提高设计<b class='flag-5'>灵活性</b>和密度

    SEARAY:最大限度提高设计灵活性和密度

    SEARAY™是Samtec 的高速、高密度栅格阵列连接器系列。SEARAY™为设计人员提供了大量的设计灵活性,远远超过业内任何其他阵列产品。
    的头像 发表于 09-20 10:49 820次阅读

    如何进行编解码性能测试?是否有参考程序?

    如何进行编解码性能测试?是否有参考程序?
    发表于 09-19 06:56