谷歌提出了一种称为时间循环一致性学习的自监督方法-电子发烧友网

视频理解是计算机视觉中的重要任务，近年来随着深度学习特别是监督学习的应用视频理解取得了飞速的发展，例如视频行为分类和视频片段总结等任务都取得了令人瞩目的成果。

不过，现实生活中很多场景的应用视频片段需要不止一个标签来提供足够的信息。举个例子，机器人往杯子里倒水，一个简单的“倾倒液体”标签不足以预测出杯子何时倒满，机器人需要逐帧追踪杯中的水量。再比如说，在运动分析领域，棒球教练不仅仅想要看到投球的动作，而是想精确地分析投手投出棒球离手的一瞬间，单一的视频标签不足以完成这样的视频检索任务。这意味着视频理解模型需要逐帧理解视频的能力。

然而如果使用监督学习的方法将会使学习成本变得非常昂贵，这需要针对视频里每一帧的动作进行细粒度的标注，训练不同的动作还需要新的标注来提供监督信号。但从机器人到运动分析等领域，细粒度的视频理解有着很强的需求，那么如何在不需要大量标签的情况下对视频进行学习以理解细粒度的信息呢？

来自谷歌的研究人员们提出了一种称为时间循环一致性学习（Temporal Cycle-Consistency Learning，TCC）的自监督方法。通过学习不同样本相似过程的表示来实现细粒度的时域视频理解，为逐帧视频检索、动作分析、视频同步和多模态迁移提供了新的解决方案。

基于TCC的视频表示学习

世间的万事万物发展的过程都有特定的规律，从嫩芽到参天大树的植物生长到起床上班回家两点一线的996工作，再到简单倒水的动作都在时间上满足一定的顺序。

多个不同实例的相同过程可以从视频捕捉到的信息中找到对应的联系。全世界的人往容器中倒水动作都差不多，无论对象是茶壶、酒瓶、水壶都有着相似的过程。其中倾倒液体的关键时刻在多个不同的视频中都有着相同的特性——都需要举起起一个容器向另一个容器中倾倒，而视频中的其他特性则与拍摄的视角、光照、环境、尺度、容器以及速度有关。TCC的关键在于通过循环一致性的原则，从多个视频中寻找出对应的相同动作。

算法的目标在于训练出一个有效的帧编码器来获取对应动作的表示编码。研究人员首先将两个待配准的视频传入编码器中获取对应的嵌入信息，而后选择两个视频来进行TCC的训练，其中video1作为参考视频，从中取出一帧并利用最邻近方法在嵌入空间中找到video2中最为近似的一帧；而后以video2中找到的这一帧作为输入，从新到嵌入空间中寻找video中对应的帧（circle过程）。如果学习出的嵌入空间具有循环一致性的话，这一帧和先前输入video1的参考帧应该是同一帧。

上图中可以看到，左边的嵌入在循环检索后对应原来的帧，说明循环一致性得到满足；而右边的嵌入在循环检索后获取的帧与输入的帧有差异，则表示这一嵌入的循环一致性没有得到满足，他们在嵌入空间中的差值就表示为循环一致性损失。模型的训练过程通过不断提高对于每个视频帧的语义理解来减小循环一致性误差。充分训练后的TCC可以学习出时域的细粒度理解能力，并能够有效对齐相关的视频。

TCC学习到的表达

研究人员随后验证了TCC学习到的表达，是否有效理解了多个视频中的相似动作。实验在Penn Ac tion数据集上进行，研究人员将多个包含人体深蹲训练的视频利用T后发现了空间可视化学习到的隐含特征。

左图中亮度较高的点是当前帧对应的表示。紫色为输入的参考视频，其余为其他视频中检索到的最邻近帧。可以看到虽然各个视频的角度、场景、主体不同，但对应的嵌入表示和对应的视频帧却以相同的趋势在运动，TCC有效地将深蹲动作的不同过程进行了编码而无需显式的人工标注。

TCC的潜在应用

由于这种方法可以有效学习逐帧视频的迁移表达可广泛应用于小样本视频动作分类、无监督视频对齐、多模态迁移和逐帧视频检索。

小样本动作阶段分类。当只有很少的标注视频样本时，TCC方法可以有效地将不同动作阶段进行分类。研究人员将基于TCC的方法与监督学习方法进行比较，可以发现只用一个完全标记的视频样本训练就可与监督学习需要五十个标注的视频样本训练获得同样的效果。下图中可以看到TCC方法在两种动作识别中小样本学习的良好表现。