Google又放大招,高效实时实现视频目标检测-电子发烧友网

图像目标检测是图像处理领域的基础。自从2012年CNN的崛起，深度学习在Detection的持续发力，为这个领域带来了变革式的发展：一个是基于RPN的two-stage，RCNN/Fast RCNN/Faster RCNN、RetinaNet、Mask RCNN等，致力于检测精度的提高。一类是基于SSD和YOLOv1/v2/3的one-stage，致力于提高检测速度。

视频目标检测要解决的问题是对于视频中每一帧目标的正确识别和定位。相对于图像目标检测，视频是高度冗余的，包含了大量时间局部性（temporal locality，即在不同的时间是相似的）和空间局部性（spatial locality，即在不同场景中看起来是相似的），既Temporal Context（时间上下文）的信息。充分利用好时序上下文关系，可以解决视频中连续帧之间的大量冗余的情况，提高检测速度；还可以提高检测质量，解决视频相对于图像存在的运动模糊、视频失焦、部分遮挡以及形变等问题。

视频目标检测和视频跟踪不同。两个领域解决相同点在于都需要对每帧图像中的目标精准定位，不同点在于视频目标检测不考虑目标的识别问题，而跟踪需要对初始帧的目标精确定位和识别。

图1 高德地图车载AR导航可识别前方车辆并提醒

视频目标检测应用广泛，如自动驾驶，无人值守监控，安防等领域。如图1所示，高德地图车载AR导航利用视频目标检测，能够对过往车辆、行人、车道线、红绿灯位置以及颜色、限速牌等周边环境，进行智能的图像识别，从而为驾驶员提供跟车距离预警、压线预警、红绿灯监测与提醒、前车启动提醒、提前变道提醒等一系列驾驶安全辅助。

视频目标检测算法一般包括单帧目标检测、多帧图像处理、光流算法、自适应关键帧选择。Google提出基于Slownetwork 和Fast network分别提取不同特征，基于ConvLSTM特征融合后生成检测框，实现实时性的state-of-art。

论文地址：https://arxiv.org/abs/1903.10172

1 Motivation

物体在快速运动时，当人眼所看到的影像消失后，人眼仍能继续保留其影像，约0.1-0.4秒左右的图像，这种现象被称为视觉暂留现象。人类在观看视频时，利用视觉暂留机制和记忆能力，可以快速处理视频流。借助于存储功能，CNN同样可以实现减少视频目标检测的计算量。

视频帧具有较高的时序冗余。如图2所示，模型[1]提出使用两个特征提取子网络：Slow network 和Fast network。Slow network负责提取视频帧的精确特征，速度较慢，Fast network负责快速提取视频帧的特征提取，准确率较差，两者交替处理视频帧图像。Fast network和Slow network特征经过ConvLSTM层融合并保存特征。检测器在当前帧特征和上下文特征融合基础上生成检测框。论文提取基于强化学习策略的特征提取调度机制和需要保存特征的更新机制。

论文提出的算法模型在Pixel 3达到72.3 FPS，在VID 2015数据集state-of-art性能。

论文创新点：

1、提出基于存储引导的交替模型框架，使用两个特征提取网络分别提取不同帧特征，减少计算冗余。

2、提出基于Q-learning学习自适应交替策略，取得速度和准确率的平衡。

3、在手机设备实现迄今为止已知视频目标检测的最高速度。

图2 存储引导的交错模型

2网络架构

2.1交错模型

图3交错模型

如图3所示论文提出的交错模型（τ = 2），Slow network（Large featureextractor）和Fastnetwork(Small feature extractor)均由MobileNetV2构成(两个模型的depth multiplier不同，前者为1.4，后者为0.35)，anchors比率限制为{1.0,0.5,2.0}。

2.2存储模型

LSTM可以高效处理时序信息，但是卷积运算量较大，并且需要处理所有视频帧特征。论文提出改进的ConvLSTM模型加速视频帧序列的特征处理。

ConvLSTM是一种将CNN与LSTM在模型底层结合，专门为时空序列设计的深度学习模块。ConvLSTM核心本质还是和LSTM一样，将上一层的输出作下一层的输入。不同的地方在于加上卷积操作之后，为不仅能够得到时序关系，还能够像卷积层一样提取特征，提取空间特征。这样就能够得到时空特征。并且将状态与状态之间的切换也换成了卷积计算。

图4 存储模型LSTM单元

如所示，论文的ConvLSTM有一下改进：

1、增加Bottleneck Gate和output跳跃连接。

2、LSTM单元分组卷积。特征图HxWxN分为G组，每个LSTM仅处理HxWxN/G的特征，加速ConvLSTM计算。论文中G = 4。

3、LSTM有一固有弱点，sigmoid激活输入和忘记门很少完全饱和，导致缓慢的状态衰减，长期依赖逐渐丧失，更新中无法保留完整的前期状态。导致Fast network运行中，Slownetwork特征缓慢消失。论文使用简单的跳跃连接，既第一个Fast network输出特征重复使用。

2.3推断优化

论文提出基于异步模式和量化模型，提高系统的计算效率。

1、异步模式。交错模型的短板来自于Slow network。论文采用Fastnetwork提取每帧图像特征，τ = 2帧采用Slow network计算特征和更新存储特征。Slownetwork和Fast network异步进行，提高计算效率。

2、在有限资源的硬件设备上布置性能良好的网络，就需要对网络模型进行压缩和加速，其中量化模型是一种高效手段。基于[2]算法，论文的ConvLSTM单元在数学运算（addition,multiplication, sigmoid and ReLU6）后插入量化计算，确保拼接操作的输入范围相同，消除重新缩放的需求。

3 实验

模型在Imagenet DET 和COCO训练，在Imagenet VID 2015测试结果如图5所示。

从测试结果看，系统只有Slow network模块时准确率最高，只有Fast network模块时准确率最低，但是速度没有交错模型快，比较诧异。另外基于强化学习的adaptive对精度和速度几乎没有影响，而异步模式和模型量化提高系统的实时性。

图5 Imagenet VID 2015测试结果

4 优缺点分析

视频处理策略

1、基于强化学习的交错模型调度是伪命题。论文的Slow network提取强特征，Fastnetwork提取弱特征，交错模型的τ越大，模型性能越差。理论上τ=2时模型的准确率越高。综合考虑准确率和实时性，论文中τ=9。

2、视频具有很强的上下文相关性。视频理解领域的目标检测、分割、识别，跟踪，等领域，都需要提取前后帧的运动信息，而传统采用光流方式，无法保证实时性。本文提出的分组ConvLSTM，可加速计算，量化模型保持准确率，具有借鉴意义。

以上仅为个人阅读论文后的理解、总结和思考。观点难免偏差，望读者以怀疑批判态度阅读，欢迎交流指正。

参考文献

[1] MasonLiu, Menglong Zhu, Marie White, Yinxiao Li, Dmitry Kalenichenko.Looking Fastand Slow: Memory-Guided Mobile Video Object Detection.arXivpreprint arXiv:1903.10172,2019.

[2] B.Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard,H. Adam, and D.Kalenichenko. Quantization and training of neural networks for efficientinteger-arithmetic-only inference. In CVPR, 2018.

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Google

Google

+关注

关注
5

文章
1762

浏览量
57519
目标检测

目标检测

+关注

关注
0

文章
209

浏览量
15606

原文标题：Google又发大招：高效实时实现视频目标检测

文章出处：【微信号：IV_Technology，微信公众号：智车科技】欢迎添加关注！文章转载请注明出处。

AI模型部署边缘设备的奇妙之旅：目标检测模型

广泛的应用，然而，在移动端工业领域的实际应用中，对目标检测算法提出了更为苛刻的要求：需要实现高速度、高精度、小体积、易部署等特性。为应对这一挑战，百度于2021年末发布了一篇关于移动端性能卓越的

发表于 12-19 14:33

案例分享 ▏基于HZ-EVM-RK3576开发板实现YOLOv5目标检测应用

、低功耗的硬件方案来执行实时目标检测任务。在此背景下，HZ-EVM-RK3576开发板作为一款强大且高效的嵌入式开发板，为目标

发表于 12-07 01:10 •211次阅读

案例分享 ▏基于HZ-EVM-RK3576开发板<b class='flag-5'>实现</b>YOLOv5<b class='flag-5'>目标</b><b class='flag-5'>检测</b>应用

在树莓派上部署YOLOv5进行动物目标检测的完整流程

目标检测在计算机视觉领域中具有重要意义。YOLOv5（You Only Look One-level）是目标检测算法中的一种代表性方法，以其高效

发表于 11-11 10:38 •961次阅读

使用OpenVINO C# API部署YOLO-World实现实时开放词汇对象检测

YOLO-World是一个融合了实时目标检测与增强现实（AR）技术的创新平台，旨在将现实世界与数字世界无缝对接。该平台以YOLO（You Only Look Once）算法为核心，实现

发表于 08-30 16:27 •651次阅读

目标检测与图像识别的区别在哪

检测（Object Detection）是指在图像或视频中识别并定位感兴趣的目标，通常包括目标的类别和位置。目标

发表于 07-17 09:51 •875次阅读

目标检测与识别技术有哪些

视频中识别并定位感兴趣的目标，通常包括目标的类别和位置信息。目标识别（Object Recognition）是指对检测到的

发表于 07-17 09:40 •605次阅读

目标检测与识别技术的关系是什么

任务是在图像或视频中快速准确地定位出感兴趣的目标，并给出目标的位置信息。目标检测技术通常包括候选区域提取、特征提取、分类器设计等步骤。

发表于 07-17 09:38 •600次阅读

目标检测识别主要应用于哪些方面

介绍目标检测识别的应用领域，以及其在各个领域的具体应用情况。安全监控安全监控是目标检测识别应用最广泛的领域之一。在安全监控系统中，目标

发表于 07-17 09:34 •1060次阅读

基于深度学习的小目标检测

在计算机视觉领域，目标检测一直是研究的热点和难点之一。特别是在小目标检测方面，由于小目标在图像中所占比例小、特征不明显，使得

发表于 07-04 17:25 •882次阅读

基于FPGA的实时边缘检测系统设计，Sobel图像边缘检测，FPGA图像处理

的主要特征提取手段。由于实时视频图像的边缘检测需要处理的数据量非常大，所以采用一般的软件方法实现起来处理速度慢，无法满足实时性的要求。随

发表于 05-24 07:45

在控道AI盒子上基于YOLOv9实现实时目标检测实战

随着计算机视觉技术的不断进步，目标检测已经成为许多应用的核心组件，如自动驾驶、视频监控、智能安防等。

发表于 04-12 14:30 •945次阅读

OpenVINO工具包部署YOLO9模型实现实时目标检测

YOLOv9引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 等开创性技术，不仅增强了模型的学习能力，还确保了在整个检测过程中保留关键信息，从而实现了卓越的准确性和性能。

发表于 03-18 11:38 •1234次阅读

百度开源DETRs在实时目标检测中胜过YOLOs

这篇论文介绍了一种名为RT-DETR的实时检测Transformer，是第一个实时端到端目标检测器。

发表于 03-06 09:24 •1567次阅读

AI驱动的雷达目标检测：前沿技术与实现策略

传统的雷达目标检测方法，主要围绕雷达回波信号的统计特性进行建模，进而在噪声和杂波的背景下对目标存在与否进行判决，常用的典型算法如似然比检测（LRT）、

发表于 03-01 12:26 •2834次阅读

在ELF 1 开发板上实现读取摄像头视频进行目标检测

深度学习模型的项目，该项目能够实时读取摄像头视频流并实现对画面中的物体进行精准的目标检测。项目所需的硬件设备：1、基于NXP（恩智浦）i.M

发表于 01-24 10:38 •690次阅读