背景

声音和图像是视频中最重要的两类基础信息，能反映视频中出现的主要内容。以往大量的视频内容分析研究都是基于声音和视觉特征来展开，其中很多研究工作会基于声音视觉多模态特征来进行语义建模。人们清楚地意识到声音和视觉特征直接存在着某种对应关系，因为当某种语义内容在视频中出现时，其相应的视觉图像和声音必然相伴出现，那么该如何利用这个对应关系来帮助我们进行视频语义内容分析与识别呢？

让我们先来看看当前机器学习与视频分析研究的痛点。机器学习按照对样本的标注要求不同可分为有监督和无监督两大类。随着深度学习的兴起，基于大量标注样本训练的深度网络模型在各领域中都取得了远超其它模型的准确率，确立了主流地位。但是这一方法最大的缺点是需要大量的标注样本，样本标注是一项很高成本的工作，需要耗费大量的人力资源，使人工智能成为真正基于“人工”的智能。在视频内容分析领域，为了达到识别视频内容的目的，也需要对视频进行大量的样本标注，这些标注包括目标、语义在时间空间上出现的位置、类别标签等，非常繁琐。如何能够减少对标注数据的依赖一直是一个机器学习的重要研究方向。

回到先前的问题，既然视频中的视觉和声音之间存在着对应关系，那么是否可以用这个对应关系来解决数据的标注问题，从而减少对人工标注的依赖呢？DeepMind大胆的提出了这一设想，通过视觉和声音的对应实现它们之间的互标注，不需要人工标注，就可以获得大量的带有自标注对应关系的声音视觉样本，提供给深度网络进行训练，从而实现视频中相关事件的检测识别。

方法

1540455999859b7947c71c8

数据

以上网络通过如下的方式产生正负样本对：负样本对来自于两段不同视频中随机选取的图像帧和声音片段，正样本对来自于声音片段和同一视频中对应该声音时间中点处的图像帧。训练数据集规模为40万段时长为10秒的视频，来自于Flickr-SoundNet和Kinetics-Sounds数据集。

实验结果

15404559963591c914eb0d8

154045599801135808fe0c8

作者还给出了训练声音视觉对应网络中得到的视觉子网络和声音子网络模型在视觉分类和声音分类任务中的性能，并与现有算法进行了比较。在声音分类benchmark数据集ESC-50和DCASE上本文的声音子网络取得了最好的结果，如表2所示。图像分类在benchmark数据集ImageNet上本文的视觉子网络取得了与当前最好的自监督学习算法相同的结果，如表3所示。

1540455996666443d1b9635

1540455997609c368b67ebf

通过以上网络和学习方式，究竟学到了什么内容？作者给出了直观的实例，选取视觉子网络pool4层响应最高的各类的5个样本（图3），并将对应的conv_2层响应热力图显示出来（图4），可见网络能够在视觉概念相关区域获得高响应，表明学习是有效的，并且该网络对声音源具有定位能力。

结论与讨论

本文利用声音视觉对应关系提出了一种深度网络，可免除对样本的标注，通过自监督学习，实现视频内容的检测分类。实验表明其在声音分类上的效果超越其他算法，在图像分类上的效果与以往最佳自监督算法持平。

本文算法在声音分类上的优异表现表明，视觉特征在声音特征的相关性使其在描述声音特征中起到了帮助作用。同时本文算法在图像分类上的表现也表明声音特征对图像特征描述也存在有效的帮助。目前视觉特征仅采用了声音片段对应的图像序列中的一个采样帧作为输入，尚无法完全反映声音和图像之间在时间上的对应关系，如能利用声音对应的整个图像序列作为视觉输入，将可能进一步利用声音和视觉之间的并发性，提升模型效果。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉