0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种用于视频识别的SlowFast网络

电子工程师 来源:lq 2018-12-25 10:29 次阅读

【导语】继图像领域之后,现在的 CV 领域,大家都在研究哪些内容?近日,Facebook AI 实验室的 Christoph Feichtenhofer、何恺明等人发表一篇论文,在视频识别领域提出了一种 SlowFast 网络,并且在没有预训练模型情况下,此网络在 Kinetics 数据集上取得79.0% 的准确率,是当前该数据集上的最佳表现。在 AVA 动作检测数据集上,同样实现了 28.3 mAP 的最佳水准。

到底 SlowFast 网络是怎样的设计、有什么特征、效果如何,下面就一起来看一下~

对于图像识别任务,给定一张图像 I(x, y),对称地处理图像的空间维度 x、y 是一种很常见的做法,而自然图像的统计数据也证明了这种做法的合理性—自然图像具有各向同性(即所有方向具有相同的可能性)和平移不变性。

然而,对于视频信号 I(x, y, t)而言,我们不能这样对称地处理时空信号。因为动作是方向的时空产物,但并非所有的时空方向都拥有相同的可能性。如果这样,那么我们就不能像基于时空卷积(spatiotemporal convolutions)的视频识别方法那样,对称地处理空间和时间信息。相反,我们需要分解这种结构,并分开处理空间结构和时间事件。

受此启发,本研究提出了一种用于视频识别的 SlowFast 双路径模型,一条路径 slow pathway更关注空间域的语义信息,以低帧率,缓慢的刷新速度运行,用于捕获图像或几个稀疏帧提供的语义信息;而另一条路径 fast pathway以高时间分辨率、快速刷新在所有中间层运行,捕获快速变化的动作信息,轻量级,整体的计算开销小。此外,这种快慢结合的双路径二者在结构上通过侧向连接(lateral connection)进行融合,以不同的速率处理原始视频。

图1 SlowFast 网络由低帧率、低时间分辨率的 Slow 路径和高帧率、高时间分辨率 (是 Slow 路径时间分辨率的 α 倍) 的 Fast 路径构成。使用减少通道容量轻量化 Fast 路径,并通过侧向连接的方式连接 Slow 路径和 Fast 路径。图中该样本来自 AVA 数据集。

SlowFast 模型

如上图所示,SlowFast 网络的整体结构,包含 Slow pathway、Fast pathway 及其侧向连接(lateral connection)部分。其中,Slow pathway 可以是任意的卷积模型,用于处理视频的空间信息体量。为了与 Slow pathway 对应,Fast pathway 也是卷积结构的模型,但需要具有高帧率,高时间分辨率、低通道容量等特点。

为了将快慢两条途径的信息融合在一起,作者采用侧向连接(lateral connection)的方式来实现。侧向连接技术已被广泛用于融合基于光流的双流网络,而在图像目标检测任务中,横向连接作为一种流行的融合的技术,能够将空间分辨率和语义水平特征融合在一起。在这里作者在快慢路径之间引入一个横向连接,即每个“阶段”的两条路径(如上图1所示)。具体而言,对于 ResNets 网络,这些侧向连接分别在 pool1,res2,res3 和 res4 层之后。而对于 slow-fast 网络,由于两条路径存在差异,因此侧向连接需要通过转换过程以便匹配各自的路径,即采用单向连接的方式来将 Fast 的特征融合到 Slow 路径上。最后,在每条路径的输出后引入一个全局平均池化操作,并将两个池化特征向量连接,作为全连接分类层的输入。更多具体的信息可以查看论文中的详细介绍。

值得一提的是,这种快慢结合方法是受到灵长类视觉系统中视网膜神经节细胞的生物学研究启发的。生物学研究结果发现,在这些细胞中约 80% 是小细胞 P-cell,它能够提供良好的空间细节和颜色,但时间分辨率较低;而另外有大约 15-20% 的细胞是大细胞 M-cell,它以较高的时间频率工作,对时间变化更加敏感,但对空间细节和颜色不敏感。SlowFast 网络的提出正是受此启发,两条路径构成,分别以低时间分辨率和高时间分辨率工作,对应于 P-cell 和 M-cell 的作用。

SlowFast 是一种通用的网络框架,可以进行实例化,适配各种的主干网络。在这里,作者所采用的 SlowFast 网络参数如下图2所示:

图2 SlowFast 网络的实例化。核维度表示为 {T×S^2 , C},其中 T 表示时间分辨率,S 表示空间语义而 C 表示通道数。步长表示为 {temporal stride, spatial stride^2}。此外,速度比率是α = 8,通道比率是 β = 1/8。τ = 16。图中绿色表示 Fast 路径较高的时间分辨率,橙色表示 Fast 路径较少的通道数,下划线表示非退化时间滤波器(non-degenerate temporal filter)。方括号内表示的是残差块结构。骨干网络采用的是 ResNet-50。

实验

SlowFast 网络在 Kinetics 和 AVA 数据集上具体表现如何?我们通过研究中的一些实验数据对比看一下各数据结果。

▌Kinetics 数据集的动作分类

对于视频动作分类,作者采用 Kinetics-400 数据集,其中包含约 240k 个训练视频数据和20k个验证数据,共涵盖400种动作类别。实验结果得到 Top1 和 Top5 的分类准确性,单条 Slow 网络与 SlowFast 网络的性能对比,以及 SlowFast 网络与 Kibetics-400 数据集上当前最佳模型之间的性能对比,详细结果如下图3,图4,图5所示。

图3 Kinetics-400 数据集动作分类结果,包括 top-1 和 top-5 分类准确度,以及计算复杂度 GFLOPs。

图4 Kinetics-400 数据集上 Slow-only 网络与 SlowFast 网络的性能对比;top-1 训练误差 (虚线表示) 和验证误差 (实线表示)。

图5 Kinetics-400 数据集上当前最佳模型与 SlowFast 网络的性能对比。

▌AVA 数据集的动作检测

对于视频动作检测,作者采用 AVA 数据集,其中包含有 211k 个训练数据和 57k 个验证数据,共涵盖 60 种动作类别。实验结果得到 60 个类别的平均精度 mAP 值,SlowFast 网络与 AVA 数据集上当前最佳模型之间的性能对比,以及 AVA 数据集动作检测结果的可视化过程,详细结果如下图 6,图 7,图 8 所示。

图6 AVA 数据集上每个类别的 AP:Slow-only 模型的 19.0 mAP vs. SlowFast 模型的 24.2 mAP。其中,黑色突出显示的是绝对增长最高的5个类别,而这里实例化的 SlowFast 网络并不是最佳的模型。

图7 AVA 数据集上最佳模型与 SlowFast 网络的性能对比。其中,++ 表示在测试过程引入了诸如水平翻转的图像增强操作。

图8 可视化 AVA 数据集的动作检测结果。其中真实的标签用红色表示,而 SlowFast 模型在验证集上的预测结果用绿色表示。

总结

本文提出了一种用于视频识别的 SlowFast 网络。该模型由两部分组成:以低帧率运行以捕捉空间语义信息的 Slow pathway;以高帧率运行捕捉较好时序分辨率的运动信息的 Fast pathway。通过减少通道容量,所设计的 Fast pathway 是个非常轻量级的、同时又能够将学习到有用的时间信息用于视频识别的网络。

SlowFast 网络在视频动作分类及检测任务上展现了强大的性能,同时这种快慢结合思想的提出也为视频目标识别和检测领域做出了重要贡献。实验结果表明,在没有使用任何预训练模型的情况下,SlowFast 网络在 Kinetics 数据集上取得了 79.0% 的准确率,大大超过了以前同类方法的最佳结果。而在 AVA 动作检测数据集上,该网络同样实现了 28.3 mAP 的当前最佳水准。

总的来说,时间维度是视频任务中一个特殊的因素,本文的 SlowFast 网络框架考虑时间维度上不同的速度对时空信息捕捉的影响,实例化的 SlowFast 模型在 Kinetics 和 AVA 数据集上实现当前最佳的视频动作分类和检测结果,希望这种快慢结合的设计理念能够促进视频识别领域未来的研究。有关的项目代码将会在近期开源。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 滤波器
    +关注

    关注

    159

    文章

    7688

    浏览量

    177346
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24608
  • 视频识别
    +关注

    关注

    2

    文章

    10

    浏览量

    10905

原文标题:何恺明等最新突破:视频识别快慢结合,取得人体动作AVA数据集最佳水平

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    介绍一种基于Winpcap的网络视频识别算法

    本文设计了一种基于Winpcap的网络视频识别算法,实现了对网络流媒体的发现。
    发表于 06-03 06:34

    一种用于枪声的多级检测识别技术

    一种用于枪声的多级检测识别技术,感兴趣的可以看看。
    发表于 01-04 15:23 0次下载

    人脸识别技术是生物识别技术的一种 主要通过信息的相似度识别身份

    人脸识别技术是生物识别技术的一种,它是依据独无二的人脸生理特征,自动进行身份鉴别的一种生物特征
    发表于 10-31 16:03 4017次阅读

    我国人脸识别的市场还有多大的发展空间

    人脸识别,又称人像识别、面部识别,是基于人类的脸部特征信息进行身份识别的一种生物识别技术,主要用
    发表于 10-24 10:12 1584次阅读

    人脸识别的般流程看了就知道

    人脸识别一种依据人的面部特征,自动进行身份识别的一种生物识别技术,通常我们所说的人脸识别是基于
    的头像 发表于 11-15 11:39 2.8w次阅读

    人脸识别是基于脸部信息进行身份识别的一种技术

    人脸识别,是基于人的脸部信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对
    发表于 03-06 10:53 5229次阅读

    一种用于释义识别的句子相似度算法

    针对现有句子相似度算法无法处理同义词、准确率低和复杂度高等不足,结合词向量技术改进 Levenshtein相似度算法和 Jaccard系数,提出一种新的句子相似度算法用于释义识别,并对多种句子相似度
    发表于 03-23 14:32 8次下载
    <b class='flag-5'>一种</b><b class='flag-5'>用于</b>释义<b class='flag-5'>识别的</b>句子相似度算法

    一种用于模式识别的新型神经网络

    提出了一种用于模式识别的新型神经网络模型——局部有监督特征映射网络,描述了该网络的拓扑结构和学
    发表于 05-31 16:29 5次下载

    一种用于网络视频记录/数码录影机系统的备电方案

    一种用于网络视频记录/数码录影机系统的备电方案
    发表于 10-31 08:23 0次下载
    <b class='flag-5'>一种</b>应<b class='flag-5'>用于</b><b class='flag-5'>网络</b><b class='flag-5'>视频</b>记录/数码录影机系统的备电方案

    基于一种新型的用于无声语音识别的贴片式智能传感器

    摘要:电子科技大学和格拉斯哥大学的研究人员合作开发了一种用于无声语音识别的贴片式智能传感器件,可以检测到说话时细微的喉咙振动,借助深度学习将其转化为可读的单词,这为语音控制和人机界面智能感知开辟了
    的头像 发表于 06-17 10:27 1114次阅读

    人脸识别和指纹识别哪个安全?人脸识别和指纹识别的利弊及风险

      人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,
    发表于 08-03 16:55 3973次阅读

    生物识别和人脸识别的区别

    对人脸图片或视频进行分析和识别,以确定个体身份的一种方法。本文将探讨生物识别和人脸识别的概念、应用领域和区别。
    发表于 08-28 17:29 1432次阅读

    一种基于图像识别的第五版人民币成色检测方法

    电子发烧友网站提供《一种基于图像识别的第五版人民币成色检测方法.pdf》资料免费下载
    发表于 10-13 11:19 0次下载
    <b class='flag-5'>一种</b>基于图像<b class='flag-5'>识别的</b>第五版人民币成色检测方法

    一种用于化学和生物材料识别的便携式拉曼光谱解决方案

    基于扫频光源的紧凑型拉曼光谱系统:美国麻省理工学院(MIT)和韩国科学技术院(KAIST)的研究人员开发了一种用于化学和生物材料识别的便携式拉曼光谱解决方案,克服了光谱仪笨重的局限性。
    的头像 发表于 04-16 10:35 475次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>用于</b>化学和生物材料<b class='flag-5'>识别的</b>便携式拉曼光谱解决方案

    如何设计人脸识别的神经网络

    人脸识别技术是一种基于人脸特征信息进行身份识别的技术,广泛应用于安全监控、身份认证、智能门禁等领域。神经网络是实现人脸
    的头像 发表于 07-04 09:20 472次阅读