突破有限的人类标注的限制，提供一种新的训练视频跟踪的思路-电子发烧友网

本文介绍一篇CVPR 2019 Oral的工作，作者来自CMU、UC伯克利，论文提出采用无监督学习的创新视频跟踪思路，得到了优越的结果。

本文主要介绍CVPR2019(Oral)的工作:

Xiaolong Wang*, Allan Jabri* and Alexei A. Efros. Learning Correspondence from the Cycle-consistency of Time.

Paper:LearningCorrespondencefromtheCycle-ConsistencyofTime

Code:xiaolonw/TimeCycle

Slides(百度网盘):https://pan.baidu.com/s/1prNthUokiqRPELs8J4O-vQ提取码:es86

我们这个工作主要是给 tracking 和 optical flow 提供一种新的思路。我们把两者联系并且统一起来称为correspondenceintime。而这个工作的目标就是训练一个神经网络，使得它能帮助我们获得在video中帧与帧之间的semi-densecorrespondence。

和以往的方法不一样，我们不需要人为的数据标注也不需要 synthetic data 进行训练。这个工作采用的是无监督学习(self-supervised /unsupervised learning)，而且训练网络的方法能被应用到任意的 video 上面。

首先 show 一下结果，我们训练出来的网络可以用来做以下的 human part segment tracking (没有经过任何用 segmentation training 和 fine-tuning)。

视频分割跟踪

在介绍我们的方法之前，先讨论一下目前找 correspondence 的方法：

RelatedWork1:VisualTracking

Visual Tracking 能够获得 box-level correspondence。但是目前训练神经网络做 tracking 需要标注视频的每一帧进行训练，这样大大限制了训练样本的数量。

RelatedWork2:OpticalFlowEstimation

Optical Flow Estimation 能够获得 pixel-level correspondence。但通常训练神经网络计算 optical flow 通常需要在 synthetic dataset 上进行，使得训练出来的网络很难泛化到真实数据中 (generalization to real data)。而且 optical flow 对于局部的变化过于敏感，很难处理长距离或者 large motion 的视频。

其实 Visual Tracking 和 Optical Flow Estimation 之间非常相关，但是似乎在近年来深度学习之后这两个领域变得互相独立。我们这篇文章希望让大家能把两者联系起来思考。

本文的方法

我们这里提出的其实是介于tracking与opticalflow的中间的mid-levelcorrespondence或者说是 semi-dense correspondence。正因为我们是在 mid-level 上算 correspondence，这使得我们对 pixel 上的局部变化变得更加 robust，能在一定程度上 encode invariance，从而让我们可以做 long-range tracking 和处理 large object displacement。

我们在 deep feature 上计算 semi-dense correspondence。如下图，对于相邻两帧，我们首先抽取 deep feature （大概 30x30 resolution）。对于在 t-1 帧的一个格子，我们通过算 nearest neighbor 找到在 t 帧最相似的格子。下图箭头两端代表了其中一个 correspondence。

以下是我们训练这个 deep network 的方法，这里采用的是无监督学习（self-supervised/unsupervised learning）：既是学习过程中不需要任何的人为的标注。

如下图所示，假设我们用这个 network 进行 tracking。在最后一帧上，我们首先随机选一个起 bounding box，然后对这个 bounding box 进行 backward tracking（蓝色箭头），接着对在第一帧的结果进行 forward tracking（红色箭头）。那么 initial box 和最后的 tracking box 之间的 error（黄色箭头）就会作为我们训练 network 的 supervisory signal。我们把这个 signal 称为 Cycle-Consistency Loss。

Cycle-Consistency Loss

在训练的过程中，我们把 error 沿着 cycle 来传递（图中用黄色虚线表达）：

在训练过程的不同迭代次数中，cycle 产生如下图的变化。可以看见随着迭代次数的变化，tracking 也逐渐变得越来越好：

Changes of Cycles

我们的结果

我们训练出来的网络能够帮助我们找 correspondence，并应用在各种的 Tracking Tasks。

我们在 VLOG 数据集 (https://github.com/xiaolonw/TimeCycle/blob/master/DATASET.md) 上面进行 unsupervised learning。在训练之后的网络我们可以直接应用在以下不同的 tracking tasks，不需要在目标数据集上做任何的 training/fine-tuning。

除了开篇提到的humanpartsegmentstracking，我们还可以完成以下tasks:

1. Tracking Object Mask

2. Tracking Pose

3. Tracking Texture

在这个 task 里面，我在第一帧画了一个彩虹 texture，然后用我们的 correspondence 可以把彩虹 texture 一直传递下去。

4. Optical Flow

我们还能将 correspondence visualize 出来，结果和 optical flow 类似。

总结

我们希望这个工作能将 tracking 和 optical flow 联系起来。针对 tracking tasks, 我们能突破有限的 human annotation 的限制，提供一种新的训练 tracker 的思路。我们还希望能够提供一种新的 video 里面，或者有时序关系的数据中的无监督学习的方法。在未来可以用这种 cycle-consistency in time 来作为一种 supervisory signal 帮助其他任务。

论文地址：

https://arxiv.org/abs/1903.07593

（本文经授权转载自知乎，作者Xiaolong Wang，原文链接：https://zhuanlan.zhihu.com/p/61607755）

反应式机器。代表性范例：深蓝。能够识别棋盘上的形势，并做出预测，但没有记忆。

有限记忆。能利用过去的记忆为未来决策提供帮助。代表性范例：自动驾驶

意志理论：能够理解影响自身决策的观点、欲求和目的。目前这类AI尚不存在。

自我意识：具有自我意识的机器，能够理解自身目前的状态，并能利用现有信息推测他人的感觉。目前这类AI也不存在。

AI技术应用举例：

自动化机器人：对机器进行编程，使其高质量地完成一般由人完成的重复性任务，同时具备对不同任务条件的适应性。

机器视觉：让计算机能够“看见”的技术，利用摄像头捕获并分析视觉信息，完成模-数转换与数字信号处理。

机器学习：让计算机在未经编程的情况下运行。机器学习的子领域之一是深度学习，其目标是实现自动化的预测性分析。

自然语言处理：利用计算机程序处理人类语言。垃圾邮件检测、文本翻译、语义分析和语音识别等都属于该领域。

机器人技术：机器人能够比人类更精确、更持久地完成困难的重复性任务。

全球AI技术竞争中最具优势的10大企业

1、DeepMind：目前居于AI研究企业第一位

2、谷歌：旗下设谷歌大脑团队，在每个可能的领域聚焦长期AI研发。

3、Facebook：主要关注语言领域的问题，如动态记忆，问答系统开发等。

4、OpenAI：团队规模虽然不大，配置属于全明星级别。

5、百度：在语音交互、自动驾驶等领域表现出色。

6、微软：在AI领域耕耘多年，目前聚焦实时翻译。

7、苹果：正在研发面部识别技术，分析用户面对设备上出现广告的面部反应

8、IBM：利用AI技术从照片、视频、语音和文本中提取语义。

9、亚马逊：目前多个部门业务向AI倾斜，比如无人商店、无人机货物配送，以及Alexa语音助理等业务。

10、英伟达：机器学习计算资源和硬件领域的领军者。

全球10大AI国家

1、美国：每年有100亿风投资金进入AI领域

2、中国：在过去5年中，中国与AI相关的专利数量上涨了190%。

3、日本：制造业部门的自动化程度可能高达71%。

4、英国：英国政府每年资助1000位AI专业的博士

5、德国：首都柏林的AI初创公司数量位居世界第四。

6、法国：到2022年，法国政府对AI行业的投资将达18亿美元。

7、加拿大：正在兴建价值1.27亿美元的AI研究设施。

8、俄罗斯：到2025年，俄罗斯30%的军事装备将实现机器人化。

9、以色列：自2014年以来，AI初创公司的数量增长了3倍。

10、爱沙尼亚：在处理与解决与AI相关的法律问题上走在世界前列。

AI 的未来

全面自动化的交通：AI技术将让未来的交通走向全面智能化和自动化。

赛博技术：AI和机器人技术将成功助我们超越认知和身体上的极限。

代替人类从事危险职业：机器人和无人机将代替我们完成炸弹拆除等危险任务，我们不必为了完成这些任务冒上生命危险。

解决气候变化问题：有朝一日，AI可以利用大数据获得判断趋势的能力，并利用这些信息解决气候变化这样的重大问题。

探索新的边界：机器人可以帮我们进一步探索太空和海洋。

预测未来：机器学习利用过去的信息预测未来，谁将开启一段浪漫之旅？谁将面临离婚等等。

原信息图及更多内容：

https://www.visualcapitalist.com/ai-revolution-infographic/

https://techjury.net/stats-about/ai/

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4773

浏览量
100874
视频跟踪

视频跟踪

+关注

关注
0

文章
2

浏览量
6096
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24727

原文标题：【CVPR Oral】视频跟踪新思路，完全无需手工标注

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

基于毫米波的人体跟踪和识别算法

了RadHAR，这是一种使用稀疏和非均匀点云执行精确HAR的框架。RadHAR利用滑动时间窗口来累积毫米波雷达的点云，并生成体素化表示，作为分类器的输入。我们在收集的具有5种不同活动的人类活动数据集上

发表于 05-14 18:40

怎样去设计一种基于STM32F407的人脸检测追踪系统

怎样去设计一种基于STM32F407的人脸检测追踪系统？其大致思路是怎样的呢？

发表于 10-18 06:16

探索一种降低ViT模型训练成本的方法

效的专用硬件或更高效的数据表示，如半精度。另一种正交方法是开发更有效的算法。在本文中，重点讨论第二种方法。已经开发了许多方法（例如剪枝）来降低推理成本，但数量有限的工作正在探索降低训练

发表于 11-24 14:56

chatGPT一种生产力的变革

作家、画家、程序员等职业在未来都将被人工智能所取代。虽然存在这些担忧，但人类的创造物终究会帮助人类自身的发展，AIGC无疑是一种生产力的变革，将世界送入智能创作时代。在智能创作时代，创作者生产力的提升

发表于 04-25 16:04

一种基于粒子滤波的自适应相关跟踪算法

一种基于粒子滤波的自适应相关跟踪算法:相关跟踪是最常见的一种目标跟踪方法,但传统相关跟踪采取的“

发表于 11-08 16:44 •35次下载

一种数字跟踪测距模块的设计与实现

一种数字跟踪测距模块的设计与实现　0 引言　　雷达最主要的功能之一就是对目标距离的跟踪和测量。在此首先阐述了雷达测距跟踪的基本原

发表于 03-01 12:04 •936次阅读

<b class='flag-5'>一种</b>数字<b class='flag-5'>跟踪</b>测距模块的设计与实现

一种基于Matlab的DSP开发思路的研究

发表于 10-20 15:12 •5次下载

<b class='flag-5'>一种</b>基于Matlab的DSP开发<b class='flag-5'>思路</b>的研究

基于深度学习的人脸跟踪自动初始化首帧方法

针对机器学习领域的人脸跟踪研究，其人脸首帧初始化由人工手动标注的问题，提出了一种基于深度学习的人脸跟踪

发表于 11-21 09:01 •13次下载

一种改进的CAMShift跟踪算法及人脸检测框架

为充分利用人脸视频图像序列中的时空信息，获得更加准确的人脸比对图像序列，提出一种结合人脸跟踪的人脸检测框架。使用简单快速的正面人脸检测算法对

发表于 11-25 09:32 •0次下载

一种尺度自适应的滤波跟踪器

为了解决核相关滤波（ KCF）跟踪器中目标尺度固定的问题，提出了一种尺度自适应的跟踪方法。首先利用Lucas-Kanade光流法跟踪相邻视频

发表于 12-08 14:32 •4次下载

一种多通道核相关滤波的实时跟踪

现有跟踪算法大都需要构建复杂的外观模型、抽取大量训练样本来实现精确的目标跟踪，会产生庞大的计算量，不利于实时跟踪。鉴于此，提出了一种多通道核

发表于 12-28 10:09 •0次下载

基于SAE的自动图像标注算法

自动编码器（stacked auto-encoder，简称SAE）的自动图像标注算法。提升了标注效率和标注效果．主要针对图像标注数据不平衡问题，提出两

发表于 12-28 10:59 •0次下载

OpenAI公司开发一种人工智能模型读写能力几乎与人类水平相当

近年来，人工智能在人类语言处理中的应用有了重大突破。例如OpenAI公司开发了一种革命性的人工智能模型，可以阅读、理解和书写，几乎与人类的能

发表于 04-15 17:23 •2597次阅读

一种新猜想为黑洞能量的提取提供了一种全新思路

为了“偷”到黑洞的能量，科学家们尽情发挥着奇思妙想。最近，哥伦比亚大学天体物理学家卢卡•科米索（Luca Comisso）与智利阿道夫伊巴涅斯大学物理学家费利佩•A•阿森霍（Felipe A.Asenjo）合作的一项研究，提出了一种新猜想，为黑洞能量的提取

发表于 03-01 14:05 •1861次阅读

一种融合人脸跟踪和聚类的人脸图像去重方法

人脸图像去重处理对智能监控系统中的人脸识别有着重要意义。针对视频中人脸检测环节会产生大量重复的人脸图像的问题，提出了一种融合人脸跟踪和聚类

发表于 04-22 14:34 •7次下载

搜索历史

突破有限的人类标注的限制，提供一种新的训练视频跟踪的思路

评论

基于毫米波的人体跟踪和识别算法

怎样去设计一种基于STM32F407的人脸检测追踪系统

探索一种降低ViT模型训练成本的方法

chatGPT一种生产力的变革

一种基于粒子滤波的自适应相关跟踪算法

一种数字跟踪测距模块的设计与实现

一种基于Matlab的DSP开发思路的研究

基于深度学习的人脸跟踪自动初始化首帧方法

一种改进的CAMShift跟踪算法及人脸检测框架

一种尺度自适应的滤波跟踪器

一种多通道核相关滤波的实时跟踪

基于SAE的自动图像标注算法

OpenAI公司开发一种人工智能模型读写能力几乎与人类水平相当

一种新猜想为黑洞能量的提取提供了一种全新思路

一种融合人脸跟踪和聚类的人脸图像去重方法