一个高效的低延迟视频语义分割算法-电子发烧友网

在自动驾驶领域，目前基于深度学习的分割算法运算负荷仍然较大，不能有效移植到嵌入式端，在车辆上运行。在保证分割精度的情况下，如何才能达到高实时性？CVPR 2018商汤科技论文解读第4期为您带来解读。

以下是在自动驾驶场景理解领域，商汤科技发表的一篇亮点报告（Spotlight）论文，提出极低延迟性的视频语义分割算法。

简介

近年来由于深度神经网络，尤其全卷经神经网络的迅速发展，图像语义分割取得了飞速的进展，但是如何高效的实现视频语义分割仍然是一个极富挑战性的问题。其困难在于：

与图像分割相比，视频分割通常涉及更多的数据。比如，视频每秒通常包含15～30帧，分析视频因而需要更多的计算资源；

许多实际应用（如自动驾驶）中的视频分割模块需要实现视频分割的低延迟性。

对于视频语义分割任务，大部分现有工作关注如何在每帧计算量和分割精度之间的达到一个平衡点，却并没有深入的思考和探讨算法延迟性这个因素。现有工作可以被大致分为两类：

高层特征的时序建模方法

中间层特征传播的方法

前者主要在一个完整的逐帧模型上增加一些提取时序信息的操作，因此不能减少计算量。后者（如Clockwork Net、Deep Feature Flow等工作）通过重用历史帧的特征来加速计算，这类方法可以减少视频整体计算量，然而忽略了延迟方面的因素。这类方法的延迟和精度对比（如图1所示），可以看出这类方法很难同时实现低延迟和高精度。我们的工作则立足降低每帧平均计算量的同时，实现分割的高精度，降低算法的最大延迟。

图1：

Cityscapes数据集上

不同方法延迟和分割精度的对比

算法核心思想

本文算法使用视频分割中经典的基于关键帧调度的模式来有效平衡计算量和精度。具体来说，如果当前处理帧为关键帧，则使用整个分割网络来获得语义分割的标签，如图2左部分所示；如果当前帧不为关键帧，则变换分割网络高层历史帧特征为当前帧高层特征，再使用分割网络的语义分类操作获得当前帧的语义标签，如图2右部分所示。关键帧的选择和特征跨帧传播两个操作均基于同样的网络低层特征，具体操作在之后章节详述。在划分分割网络结构时，算法尽量保证低层网络的运行时间远小于高层网络，（如图2所示）低层网络耗时61ms，而高层网络耗时300ms。这样考虑的出发点在于：

因低层网络的计算代价很小，算法可以基于低层网络提取的特征，增加少部分额外的计算来完成关键帧选择和特征跨帧传播；

当前帧的低层特征同样包含当前帧的信息，可以互补来自不同时间的传播特征；

所有的操作均复用了逐帧模型的结构，算法整体模型更加简洁。

图2：

自适应特征传播模块

自适应特征跨帧传播

特征传播关注如何从历史帧传播高层特征到当前帧，降低模型总体计算量，先前的变换方法主要分为两类：

基于图像或底层特征获取的光流信息，跨帧传播不同帧的语义分类特征。这类方法虽然有效，但是计算光流往往代价太大，而获得当前帧的语义标签并不需要严格的点到点映射。

平移不变性卷积。这种操作在每个位置均使用相同的卷积核来映射特征，因此不能适应不同位置的内容变化。

本文设计了一个位置相关的卷积操作来进行跨帧特征传播。它的计算量相对较低，同时又能适应不同位置的特征进行自适应传播。不同位置的卷积核参数通过一个小的网络回归学习获得（如图2中weight predictor所示），其能很好的适应不同空间位置内容的变化。整体特征传播模块（包含当前帧低层网络、卷积核预测和空间变化卷积）包含两大优势：

总体计算量相较高层网络部分计算量大为减小，因而可以快速的获得当前帧的语义标签；

可以很好的保持视频邻近帧的抖动或者其他快速变化，实验结果表明这种卷积操作融合方法能够有效的提升7% mIOU的精度。

整体结果如表1所示，结果展示了本文算法复用逐帧网络的优势，可以从低层网络提取的特征来互补跨帧传播的特征。

表1：

不同特征传播模块对最终分割精度的影响

自适应关键帧调度

视频处理算法中，一个好的关键帧选择算法能够随视频内容变化自适应的调整关键帧选择频率，在视频内容变化大的时间区间更多的选择关键帧，而在视频变化缓慢的区间较少的选择关键帧，从而在有效保持视频流中信息的前提下，降低整体计算量。现有的关键帧调度算法分为固定长度调度和基于阈值调度两种方案，前者每隔n帧选择一次关键帧，这种方式不能适应不同视频帧之间内容的变化，后者则通过计算当前帧高层特征和历史帧高层特征之间的差值，通过设定一个阈值来决定是否是否选择当前帧为关键帧，这种方法能一定程度的适应不同帧之间的内容变化，但是特征的差值容易波动，较难设定一个统一的阈值。

本文算法使用当前帧语义标签和前一个关键帧语义标签的差异值来作为视频内容变化程度的判断依据，如图3所示，若当前帧距上一个关键帧越远，则语义标签的差值就越大。当差值超过某个阈值的时候，则选择该帧作为关键帧。但是直接计算这样一个差异值较为困难，本文在Cityscapes和Camvid两个数据集上发现低层特征和语义标签的变化值有很大的关联，因而利用低层特征来预测这样该差值，即输入历史帧低层特征和当前帧低层特征到一个回归器来回归该差异值。不同的关键帧选择策略的结果如图4所示，所有的策略均采用本文提出的自适应特征传播方法，可以看出提出的自适应关键帧调度方法明显优于基于固定间隔和基于高层特征差值阈值的调度策略。

图3：

自适应的关键帧选择

图4：

不同调度策略对最终分割性能的影响

整体系统框架

本文算法整体框架如图5所示，当视频的序列帧不断输入时，在第一帧时刻，进行初始化操作，即输入图片帧给整个网络，获得低层特征和高层特征。在接下来的时刻t进行自适应的计算，首先计算低层特征：输入和上一个关键帧低层特征至自适应关键帧选择模块，判断当前帧是否为关键帧。若为关键帧，则输入底层特征至高层网络获得高层特征；否则输入底层特征至自适应特征传播模块获得当前帧高层特征，进而通过语义分类获得当前帧语义标签。

图5：

系统整体框架示意图

该系统极大的减少了整体耗时，其中判断关键帧操作耗时仅20ms，跨帧特征传播仅需38ms，而高层网络计算高层特征则需要299ms。通过这种方式，整个系统可以明显的降低系统的平均每帧计算量（如表2所示），自适应调度策略和自适应特征传播方法可以把每帧平均计算时间由360ms减为171ms，精度仅损失3.4% mIOU。

表2：

Cityscape数据集上

与目前先进方法结果的对比

同时本文设计了一种低延迟的调度策略进一步减少整体系统的延迟，适用于自动驾驶等需要及时响应的系统。具体而言，当前帧被判断为关键帧时，低延迟调度策略仍然从历史帧传播特征到当前帧并将其缓存为当前帧高层特征，同时启用一个后台线程来计算当前帧高层特征（如果直接运行高层网络部分会造成299ms的延迟），一旦计算完成就取代缓存的高层特征。实验结果表明（如表2所示），这种低延迟的调度策略能够将延迟由360ms降为119ms，同时只损失较小的分割精度（由78.84%降为75.89%）。

结论

本文提出了一个高效的低延迟视频语义分割算法，其主要由自适应特征传播和自适应关键帧调度模块组成。该算法在关注平衡精度和计算量的同时力求降低系统的延迟，Cityscapes和Camvid两个数据集上的实验结果证明了该方法的有效性。作者希望在未来工作中在模型压缩和模型设计方面进一步降低算法的总体延迟和计算量。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4789

浏览量
101549
视频

视频

+关注

关注
6

文章
1964

浏览量
73308
自动驾驶

自动驾驶

+关注

关注
788

文章
13994

浏览量
167656

原文标题：CVPR 2018 | 商汤科技Spotlight论文详解：极低延迟性的视频语义分割

文章出处：【微信号：SenseTime2017，微信公众号：商汤科技SenseTime】欢迎添加关注！文章转载请注明出处。

基于TICA和GMM的视频语义概念检测算法

针对目前词袋模型（ BoW）视频语义概念检测方法中的量化误差问题，为了更有效地自动提取视频的底层特征，提出一种基于拓扑独立成分分析（ TICA）和高斯混合模型（GMM）的

发表于 12-22 15:24 •0次下载

基于TICA和GMM的<b class='flag-5'>视频</b><b class='flag-5'>语义</b>概念检测<b class='flag-5'>算法</b>

聚焦语义分割任务，如何用卷积神经网络处理语义图像分割？

同一对象。作者将沿着该领域的研究脉络，说明如何用卷积神经网络处理语义图像分割的任务。更具体地讲，语义图像分割的目标在于标记图片中每

发表于 09-17 15:21 •595次阅读

Facebook AI使用单一神经网络架构来同时完成实例分割和语义分割

这一新架构“全景 FPN ”在 Facebook 2017 年发布的 Mask R-CNN 的基础上添加了一个用于语义分割的分支。这

发表于 04-22 11:46 •2967次阅读

Facebook AI使用单<b class='flag-5'>一</b>神经网络架构来同时完成实例<b class='flag-5'>分割</b>和<b class='flag-5'>语义</b><b class='flag-5'>分割</b>

语义分割算法系统介绍

文章。作者Xavier CHEN针对语义分割进行系统的介绍，从原理解析到算法发展总结，文章思路清晰，总结全面，推荐大家阅读。本文作者为Xavier CHEN，毕业于浙江大学，在知乎持续分享前沿文章。 01 前言之前做了

发表于 11-05 10:34 •6874次阅读

语义分割方法发展过程

语义分割的最简单形式是对一个区域设定必须满足的硬编码规则或属性，进而指定特定类别标签. 编码规则可以根据像素的属性来构建，如灰度级强度(gray level intensity). 基

发表于 12-28 14:28 •5217次阅读

分析总结基于深度神经网络的图像语义分割方法

语义分割和弱监督学习图像语义分割，对每种方法中代表性算法的效果以及优缺点进行对比与分析，并阐述深度神经网络对

发表于 03-19 14:14 •21次下载

分析总结基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b>方法

基于深度神经网络的图像语义分割方法

对应用于图像语义分割的几种深度神经网络模型进行简单介绍，接着详细阐述了现有主流的基于深度神经网络的图像语义分割方法，依据实现技术的区别对图像语义

发表于 04-02 13:59 •11次下载

全局双边网络语义分割算法综述

语义分割任务是对图像中的物体按照类别进行像素级别的预测，其难点在于在保留足够空间信息的同时获取足够的上下文信息。为解决这一问题，文中提出了全局双边网络语义

发表于 06-16 15:20 •16次下载

语义分割数据集：从理论到实践

语义分割是计算机视觉领域中的一个重要问题，它的目标是将图像或视频中的语义信息（如人、物、场景等）

发表于 04-23 16:45 •1093次阅读

语义分割标注：从认知到实践

随着人工智能技术的不断发展，语义分割标注已经成为计算机视觉领域的一个热门话题。语义分割是指将图像

发表于 04-30 21:20 •1205次阅读

PyTorch教程-14.9. 语义分割和数据集

，语义分割中标记的像素级边界明显更细粒度。图 14.9.1语义分割中图像的狗、猫和背景的标签。¶ 14.9.1。图像分割和

发表于 06-05 15:44 •754次阅读

深度学习图像语义分割指标介绍

深度学习在图像语义分割上已经取得了重大进展与明显的效果，产生了很多专注于图像语义分割的模型与基准数据集，这些基准数据集提供了一套统

发表于 10-09 15:26 •495次阅读

图像分割与语义分割中的CNN模型综述

图像分割与语义分割是计算机视觉领域的重要任务，旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络（CNN）作为深度学习的一种核心

发表于 07-09 11:51 •1322次阅读

图像分割和语义分割的区别与联系

图像分割和语义分割是计算机视觉领域中两个重要的概念，它们在图像处理和分析中发挥着关键作用。 1. 图像分割简介图像

发表于 07-17 09:55 •1329次阅读

图像语义分割的实用性是什么

图像语义分割是一种重要的计算机视觉任务，它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用，如自动驾驶、医学图像分析、机器人导航等。

发表于 07-17 09:56 •612次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

一个高效的低延迟视频语义分割算法

评论

基于TICA和GMM的视频语义概念检测算法

聚焦语义分割任务，如何用卷积神经网络处理语义图像分割？

Facebook AI使用单一神经网络架构来同时完成实例分割和语义分割

语义分割算法系统介绍

语义分割方法发展过程

分析总结基于深度神经网络的图像语义分割方法

基于深度神经网络的图像语义分割方法

全局双边网络语义分割算法综述

语义分割数据集：从理论到实践

语义分割标注：从认知到实践

PyTorch教程-14.9. 语义分割和数据集

深度学习图像语义分割指标介绍

图像分割与语义分割中的CNN模型综述

图像分割和语义分割的区别与联系

图像语义分割的实用性是什么