分享上海交通大学团队在两项竞赛任务中的算法思路和方案-电子发烧友网

近日，视频行为理解领域的ImageNet竞赛——Ac tivityNet Challenge 2018在CVPR 会议上落下了帷幕。来自上海交通大学计算机视觉实验室的团队（自动化系研究生林天威、苏海昇，导师赵旭副教授），获得了未修剪视频中的时序动作定位任务的冠军，以及时序动作提名任务的亚军。本文将分享该团队在两项竞赛任务中所采用的算法思路和方案。

引言

理解视频中人的动作和行为，是计算机视觉领域的挑战性问题，也是视频内容理解的关键，极具应用前景。ActivityNet挑战赛旨在催生视频行为理解的新算法和新技术，是目前视频行为理解领域数据规模最大、最具影响力的技术竞赛，与每年的顶级学术会议CVPR一起召开，已成功举办三届。今年ActivityNet挑战赛共举办6项比赛，吸引了全球计算机视觉领域来自学术界和工业界的诸多团队积极参赛。

近日，ActivityNet Challenge在CVPR会议上公布了2018年的竞赛成绩。来自上海交通大学计算机视觉实验室的团队（自动化系研究生林天威、苏海昇，导师赵旭副教授），获得了未修剪视频中的时序动作定位任务的冠军，以及时序动作提名生成任务的亚军。

本文将分享上海交通大学团队在两项竞赛任务中的算法思路和方案。在此次竞赛中，上交团队主要采用了近期投稿在ECCV 2018会议上的时序动作提名生成新方法-Boundary Sensitive Network (BSN) 。

ActivityNet挑战赛

ActivityNet 挑战赛是目前视频动作理解领域规模最大的竞赛，涵盖了视频动作分类、时序动作定位、视频文本生成等多个方向。今年的ActivityNet挑战赛在规模、多样性和自然度上较往年均有显著提升，共举办6项竞赛任务，其中任务1-3基于ActivityNet数据集，任务A,B,C则为其他视频理解领域内重要的数据集。目前ActivityNet数据集的版本为1.3，包括20000个Youtube 视频，共计约700小时，平均每个视频上有1.5个动作片段，涵盖了共200个动作类别。这些比赛项目具体包括：

任务1: 时序动作提名生成；

任务2: 时序动作定位；

任务3: 视频密集描述生成；

任务A: 视频动作分类（Kinetics数据集）；

任务B: 时空动作定位（AVA数据集）；

任务C: 视频事件分类（Moments-in-time 数据集）

围绕上述6项竞赛任务，今年的挑战赛吸引了来自上海交通大学、清华大学、中科大等国内高校，CMU、UMD、UCSB、华盛顿大学等国外高校，以及DeepMind、百度、旷视科技、七牛云、爱奇艺等企业团队参赛。比赛由阿卜杜拉国王科技大学视觉计算中心在CVPR 2018会议上举办，得到谷歌、DeepMind、Facebook等公司的赞助。

竞赛任务及测评方式

本次竞赛中，上交团队参加了任务1：时序动作提名生成，以及任务2：时序动作定位的比赛。其中，任务2要求在视频序列中确定动作发生的时间区间（包括开始时间与结束时间）以及动作的类别。这个问题与二维图像中的目标检测问题有很多相似之处。相关算法一般可以分为两个部分：(1) 时序动作提名生成，产生候选视频时序片段，类似于Faster-RCNN中的RPN网络的作用；(2) 动作分类: 即判断候选视频时序片段的动作类别。两个部分结合在一起，即实现了视频中的时序动作检测。从去年起，时序动作提名作为单项竞赛任务被单独列出（任务1）。

在时序动作定位问题中，mean Average Precision(mAP) 是最常用的评估指标。此次竞赛计算0.5到0.95, 以0.05为步长的多个IoU阈值下的mAP，称为 Average mAP，作为最终的测评以及排名指标。相较于使用mAP@0.5 作为测评指标，Average mAP 更看重在较严格IoU阈值下的检测精度。时序动作提名任务由于无需对时序片段进行分类，所以通常使用average recall (AR) 来进行评估。在此次竞赛中，Average Recall vs. Average Number of Proposals per Video (AR-AN) 曲线下的面积被作为最终的评测指标。举个例子，AN=50 时的AR分数可以理解为对于每个视频，使用proposal set中分数最高的前50个proposal时，所能达到的召回率。

竞赛方案介绍

此次竞赛，我们主要对我们投稿在ECCV 2018会议上的时序动作提名生成算法-BSN模型 [1]（Boundary-Sensitive Network) 进行了优化与改进。下面首先对BSN方法进行介绍，之后再介绍此次竞赛中所进行的一些改进。

BSN-用于时序动作提名生成的边界敏感网络

时序动作检测一般包含两个环节-提名和分类。目前行为分类的精度其实已经比较高了，而时序动作检测的精度仍然比较低，所以我们认为其瓶颈在于时序动作提名生成阶段。高质量的时序动作提名应该具备（1）灵活的时序长度；（2）精确的时序边界；（3）可靠的置信度分数。现有的基于滑窗或anchor的方法或是基于聚类的方法都不能同时在这几个方面做好。因此，我们在[1]中提出了一种新的时序提名生成算法-Boundary Sensitive Network(BSN)。在BSN中，我们首先去定位时序动作片段的边界（开始节点和结束节点），再将边界节点直接结合成时序提名，最后基于所设计的proposal-level的feature来对每个proposal的置信度进行评估。算法的整体框架图如下图所示，之后会逐步介绍各个步骤。

1. 特征提取

在特征提取阶段，我们主要将视频切分成16帧不重叠的单元，然后采用 two-stream network 提取特征。对于spatial network, 我们使用每个单元的中心帧提取特征；对于temporal network，我们则使用每个单元的中心6帧图像计算得到的光流图像提取特征。最终将视频图像序列转化为特征序列。

2. BSN - 时序评估模块

基于提取的图像特征序列，BSN中的时序评估模块采用3层时序卷积层来对视频序列中每个位置上动作开始的概率、动作结束的概率和动作类别概率同时进行建模，从而生成动作开始概率序列，动作结束概率序列和动作类别概率序列。

3. BSN - 提名生成模块

接下来，基于上述的几种概率序列，提名生成模块要生成候选时序动作提名，并对每个动作提名生成对应的特征描述。

要生成候选时序动作提名，首先我们选择动作开始和动作结束概率序列中满足以下两个条件之一的时间节点作为候选时序边界节点：（1）概率高于一个阈值或（2）该时间节点的概率高于前一时刻以及后一时刻的概率。然后我们将候选开始时间节点和候选结束时间节点两两结合，保留时长符合要求的开始节点-结束节点组合作为候选时序动作提名。算法示意图如下图所示。

接下来要为每个候选时序动作提名生成对应的特征描述，我们称其为Boundary-Sensitive Proposal (BSP) feature。对于每个提名，我们取其本身的时序区间作为center region，再取开始节点和结束节点附近的一段区间作为starting region 以及 ending region。对于每个区域，我们都在动作概率序列上的对应位置采样N个点，拼接后则得到一个非常简短的提名特征。BSP特征的构成示意图如下图所示。

4. BSN - 提名评估模块

生成候选时序动作提名以及对应的提名特征后，我们采用提名评估模块-一个简单的MLP（多层感知机）模型去对每个提名的置信度分数进行估计。置信度分数越高，则说明该时序提名与真值的重叠IoU应当越高。

5. 结果后处理

最后，我们需要对结果进行非极大化抑制，从而去除重叠的结果。具体而言，我们采用了soft-nms算法来通过降低分数的方式来抑制重叠的结果。处理后的结果即为BSN算法最终生成的时序动作提名。

6. 时序动作检测

基于BSN所生成的时序动作提名，要得到时序动作检测结果，我们还需要对提名进行分类。我们此处采用了一种比较简单的方式，即直接采用动作分类网络所生成的video-level的动作类别作为提名的动作类别。

BSN模型改进

为了在竞赛中获得更好的效果，我们针对BSN算法尝试了多种改进技巧。对于时序动作提名任务，主要的改进方式主要包括五点，包括：

改进A：将提名生成模块中的概率阈值从0.9改为0.5*max_score, 其中max_score为该视频中的最大概率。

改进B：除了采用在ActivityNet数据集上预训练的TSN网络提取特征，在竞赛中，我们还额外采用了在Kinetics数据集上预训练的TSN和P3D网络提取视频特征。

改进C：为了获得更好的置信度分数，我们还与我们之前提出的SSAD[2]算法所生成的结果进行了融合。

改进D：在ActivityNet数据集上，为了方便，在初始的BSN中，我们会将所有视频的特征序列缩放到一个给定长度。在竞赛中，我们发现使用原始长度预测结果会得到更好的效果。

改进E：在进一步的分析中，我们发现按照原始长度预测结果主要是提高了对较短的时序片段的预测结果，但损害了较长的时序片段的预测效果。因此，我们将按原始长度预测的结果和按给定长度预测的结果进行了融合，获得了更好的效果。

对于时序动作检测任务，我们同样也采用了上述的改进，但有两点不同：

在时序动作检测中，我们采用定长的特征序列预测结果

采用较为严格的Soft-NMS阈值

之所以对时序动作提名和时序动作定位采用略为不同的策略，主要是因为时序动作检测的结果主要依赖于靠前的几个proposals，而现有的时序动作提名的评估方式则更看重较多proposals时所能达到的recall。这也反映了现有的时序动作提名评估方式还存在不合理之处。

实验结果

此处主要介绍我们在此次竞赛中所做的实验，更多关于BSN算法的实验见[1].

时序动作提名生成任务

时序动作提名生成任务的实验结果如下表所示。可以看出，BSN方法比起之前的state-of-the-art方法有明显的效果提升，此次竞赛中所实施的各项改进又带来了显著的效果提升。最终，在该项目上我们获得了亚军。

时序动作定位任务

时序动作定位任务中的实验结果如下表所示。可以看出，BSN方法获得了非常好的效果，竞赛中实施的改进也非常有效。最终，在该项目上我们以较大的优势获得了冠军。

其他实验

为了验证BSN算法的有效性，在[1]中我们还做了很多对比实验，证明了BSN算法的优越效果来自于模型结构本身。此外，我们还通过实验表明了BSN算法有着良好的泛化能力，能够为训练时没有见过的动作类别生成高质量的时序动作提名。具体的实验结果和内容详见论文[1]。

总结

通过我们对时序动作提名生成和时序动作定位任务的研究，我们主要有以下几点收获：

1. 动作提名的质量对后续动作定位的效果有很大的影响, 目前改进动作定位的重点在于提高提名集的质量；

2. 提名集中最靠前的一小部分提名片段贡献大部分的定位mAP；

3. 高质量的时序动作提名应当具备（1）灵活的时长（2）准确的边界（3）可靠的置信度分数。

在后续的工作中，我们计划开源BSN模型，供研究者使用。相关进展会更新在 wzmsltw.github.io 上，希望大家继续关注我们的工作。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

网络

网络

+关注

关注
14

文章
7646

浏览量
89577
时序

时序

+关注

关注
5

文章
392

浏览量
37517
计算机视觉

计算机视觉

+关注

关注
8

文章
1702

浏览量
46225

原文标题：CVPR大规模行为识别竞赛连续两年夺冠，上交大详细技术分享

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

2011年全国大学生电子设计竞赛（上海赛区TI杯）胜利开赛

`　　日前2011年全国大学生电子设计竞赛（上海赛区TI杯）在上海各参赛学校正式拉开帷幕。今年上海赛区的比赛由

发表于 09-02 09:18

北京交通大学EMC教材

本教材是北京交通大学emc教材

发表于 01-07 12:57

电机学(北方交通大学)

电机学(北方交电机学(北方交通大学)通大学)

发表于 05-23 19:29

TSC峰会回顾02 | 上海交通大学OpenHarmony技术俱乐部建设

青年长江学者、OpenHarmony技术俱乐部主任夏虞斌在第一届OpenHarmony技术峰会上进行了详细介绍。01 ►性质和宗旨上海交通大学OpenHarmony高校技术俱乐部的性质和宗旨为：以会员

发表于 04-19 15:12

GW Instek荣获上海交通大学采购高端仪器组合方案

固纬电子日前宣布GW Instek荣获中国上海交通大学采购高端仪器组合方案，作为共建实验室电子教学研究与实验设备。

发表于 02-15 09:11 •606次阅读

GW Instek荣获<b class='flag-5'>上海</b><b class='flag-5'>交通大学</b>采购高端仪器组合<b class='flag-5'>方案</b>

2014 TI杯全国大学生物联网设计竞赛在上海交通大学举行

（2014 年 8月27日，上海讯）由教育部高等学校计算机类专业教学指导委员会主办，全球领先的模拟与嵌入式处理半导体厂商德州仪器（TI）协办的“2014 TI杯全国大学生物联网设计竞赛”于8月25日到8月27日在

发表于 08-28 09:16 •1533次阅读

2014 TI杯全国<b class='flag-5'>大学</b>生物联网设计<b class='flag-5'>竞赛</b>在<b class='flag-5'>上海</b><b class='flag-5'>交通大学</b>举行

Race Your Dream! 贸泽电子鼎力赞助上海交通大学赛车队

半导体与电子元器件业顶尖工程设计资源与授权分销商贸泽电子（Mouser Electronics）宣布赞助上海交通大学赛车队参加中国大学生方程式汽车大赛（FSC），由Mouser所赞助的上海

发表于 09-29 13:35 •736次阅读

智能车竞赛光电组决赛之西安交通大学

2011年第六届飞思卡尔智能车竞赛决赛视频光电组--西安交通大学演示情况。

发表于 06-21 16:43 •2849次阅读

台湾交通大学生物科技团队发表全球独创的全定量快筛检测系统

由台湾交通大学生物科技学系、农译科技、百欧生命科技、万能生物科技组成的研究团队，在台湾交通大学终身讲座教授林一平带领下，通过整合生物科技学、芯片研发以及病毒快筛等跨领域技术所研发出来的AllCHECKTM组合式电芯片平台，

发表于 11-10 09:43 •2063次阅读

跨界而来上海人工智能实验室与上海交通大学签署战略合作协议

仪式由上海交通大学副校长毛军发院士主持。双方将围绕国家重大战略需求，以突破人工智能的前沿基础理论与核心技术问题为牵引，在优秀科研人员双聘兼聘、杰出人才职称互认、青年人才联合培养、产学研用创新生态打造以及人工智能成果

发表于 11-26 14:22 •1146次阅读

上海交通大学与燧原科技联合创办的云端AI加速系统联合研发中心揭牌

学院院长臧斌宇及电院教授，燧原科技创始人兼CEO赵立东、产品工程高级总监邓辉、市场总监陈超及团队代表等共同出席。揭牌仪式由软件学院副院长姚建国主持。上海交通大学关新平院长首先代表交通大

发表于 12-28 11:22 •2462次阅读

上海交通大学博士学位论文《纯电动轿车动力总成控制系统的研究》

上海交通大学博士学位论文《纯电动轿车动力总成控制系统的研究》

发表于 04-10 11:34 •3次下载

小米夜枭算法团队获大众评审和摄影师评审两项世界冠军

小米夜枭算法团队在被誉为“影像算法奥林匹克”的CVPR NTIRE 夜景渲染比赛中，获得了大众评审和摄影师评审的两项世界冠军。消息一出，公司

发表于 05-09 10:02 •2560次阅读

上海交通大学OpenHarmony技术俱乐部正式成立

9月9日，由OpenAtom OpenHarmony（以下简称“OpenHarmony”）技术指导委员会（TSC）主办、上海交通大学承办的“上海交通大学OpenHarmony技术俱乐部

发表于 09-09 17:19 •1495次阅读

上海交通大学集成电路学院揭牌成立

获取更多传感器行业深度资讯、报告，了解传感器技术、传感器与测试技术、物联网传感器技术……等传感器知识，请关注传感器专家网公众号，设为星标，查看往期内容。 3月31日，上海交通大学集成电路学院揭牌

发表于 04-04 08:41 •373次阅读

搜索历史

分享上海交通大学团队在两项竞赛任务中的算法思路和方案

评论

2011年全国大学生电子设计竞赛（上海赛区TI杯）胜利开赛

北京交通大学EMC教材

电机学(北方交通大学)

TSC峰会回顾02 | 上海交通大学OpenHarmony技术俱乐部建设

GW Instek荣获上海交通大学采购高端仪器组合方案

2014 TI杯全国大学生物联网设计竞赛在上海交通大学举行

Race Your Dream! 贸泽电子鼎力赞助上海交通大学赛车队

智能车竞赛光电组决赛之西安交通大学

台湾交通大学生物科技团队发表全球独创的全定量快筛检测系统

跨界而来上海人工智能实验室与上海交通大学签署战略合作协议

上海交通大学与燧原科技联合创办的云端AI加速系统联合研发中心揭牌

上海交通大学博士学位论文《纯电动轿车动力总成控制系统的研究》

小米夜枭算法团队获大众评审和摄影师评审两项世界冠军

上海交通大学OpenHarmony技术俱乐部正式成立

上海交通大学集成电路学院揭牌成立