语言模型的弱监督视频异常检测方法-电子发烧友网

引言

近年来，弱监督视频异常检测（WSVAD，VAD）因其广阔的应用前景而受到越来越多的关注，在WSVAD任务中，期望异常检测器在仅提供视频级注释的情况下生成的精细化帧级异常置信度。然而当前该领域的大多数研究遵循一个系统性的框架，即，首先是使用预先训练的视觉模型来提取帧级特征，例如C3D、I3D和ViT等，然后将这些特征输入到基于多实例学习（MIL）的二分类器中进行训练，最后一步是用预测的异常置信度检测异常事件。尽管这类方案很简单，分类效果也很有效，但这种基于分类的范式未能充分利用跨模态关系，例如视觉语言关联。

在过去的两年里，我们见证了视觉语言预训练（VLP）模型取得了巨大进展，例如CLIP，用于学习具有语义概念的广义视觉表示。CLIP的主要思想是通过对比学习来对齐图像和文本，即将图像和匹配的文本描述在联合特征空间拉近，同时分离不匹配的图文对。鉴于CLIP的突破性的潜力，在CLIP之上构建任务专用模型正成为新兴的研究课题，并应用于广泛的视觉任务，这些模型取得了前所未有的性能。最近，越来越多的视频理解领域的工作利用CLIP构建专用模型并解决各种视频理解任务。基于此，我们认为CLIP对于WSVAD任务同样有巨大的潜力。

为了有效利用广义知识，使CLIP在WSVAD任务中充分发挥其潜力，基于WSVAD的特点，有几个关键的挑战需要解决。（1）首先，如何进行时序关系建模，捕获上下文的依赖关系；（2）其次，如何利用视觉信息和文本信息联系；（3）第三，如何在弱监督下优化基于CLIP的模型。

针对上述的问题，我们提出了一种基于CLIP的WSVAD新范式，称为VadCLIP。VadCLIP由几个组件组成，包括一个局部-全局时序关系适配器(LGT Adapter)，一个由视觉分类器和视觉语言对齐模块组成的双分支异常检测器（Dual Branch）。我们的方法既可以利用传统WSVAD的分类范式，又可以利用CLIP提供的视觉语言对齐功能，从而基于CLIP语义信息和两个分支共同优化以获得更高的异常检测性能。

总的来说，我们工作的主要贡献是：

（1）我们提出了一个新的WSVAD检测方法，即VadCLIP，它涉及双分支网络，分别以视觉分类和语言-视觉对齐的方式检测视频异常。借助双分支的优势，VadCLIP实现了粗粒度（二分类）和细粒度（异常类别多分类）的WSVAD。据我们所知，VadCLIP是第一个将预先训练的语言视觉知识有效地转移到WSVAD的工作。

（2）我们提出的方法包括三个重要的组成部分，以应对新范式带来的新挑战。LGT适配器用于从不同的角度捕获时间依赖关系；设计了两种提示机制来有效地使冻结的预训练模型适应WSVAD任务；MIL对齐实现了在弱监督下对视觉文本对齐范式的优化，从而尽可能地保留预先训练好的知识。

（3）我们在两个大规模公共基准上展示了VadCLIP的性能和有效性，VadCLIP均实现了最先进的性能。例如，它在XD Violence和UCFCrime上分别获得了84.51%的AP和88.02%的AUC分数，大大超过了当前基于分类的方法。

方法

VadCLIP的模型结构如图所示，主要包括了三个部分，分别为局部全局时序关系适配器（LGT Adapter）、视觉二分类分支和视觉文本对齐细粒度分类分支。

LGT Adapter

LGT Adapter由局部关系Transformer和全局关系图卷积串联组成。考虑到常规的Transformer在长时视频时序关系建模时冗余信息较多、计算复杂度较高，我们改进了局部Transformer的mask，从时序上将输入视频帧特征分割为多个等长块，令自注意力计算局限于块内，减少了冗余信息建模，降低计算复杂度。

为了进一步捕获全局时间依赖性，我们在局部模块之后引入了一个轻量级的图卷积模块，由于其在WSVAD任务中得到广泛采用，性能已经被证明，我们采用GCN来捕获全局时间依赖关系。根据之前的工作，我们使用GCN从特征相似性和相对距离的角度对全局时间依赖性进行建模，可以总结如下：

特征相似性分支通过计算两帧之间的特征的余弦相似度生成GCN邻接矩阵：

双分支结构

与之前的其他WSVAD工作不同，我们的VadCLIP包含双分支，除了传统的异常二分类分支之外，我们还引入了一种新颖的视觉-文本对齐分支。二分类分支和传统的WSVAD工作类似，使用一个带有残差连接的FFN和二分类器，直接计算经过时序关系建模的视觉特征的帧级别异常置信度。

而在视觉文本对齐分支中，文本标签，例如虐待、暴乱、打架等，不再被编码为一个one-hot向量，相反，它们被冻结参数的CLIP文本编码器编码为一个类嵌入向量，因为文本编码器可以为视频异常检测提供语言知识。然后，我们计算类嵌入和帧级视觉特征之间的匹配余弦相似度，这类似于CLIP。在视觉文本对齐分支中，每个输入文本标签代表一类异常事件，从而自然地实现了细粒度的WSVAD。

损失函数

实验结果

对比结果

表1和表2展示了在两个常用的WSVAD数据集UCF-Crime和XD-Violence中，我们的方法和之前的工作的对比结果，为了保证公平，上述列出结果的工作均使用CLIP特征进行重新训练，可以看出我们的方法在两个数据集中相较之前的工作有较大的提升。

表3和表4展示了使用了细粒度多类别标签进行异常检测，且计算帧mAP@IOU结果的情况，可以看出我们的方法在进行细粒度多分类异常检测时也有明显的提升。

上图分别展示了帧级别粗粒度异常检测可视化结果和细粒度多分类异常检测结果。

总结

在这项工作中，我们提出了一种新的范式VadCLIP，用于弱监督视频异常检测。为了有效地将预训练的知识和视觉语言关联从冻结的CLIP迁移到WSVAD任务，我们首先设计了一个LGT适配器来增强时间建模的能力，然后设计了一系列提示机制来提高通用知识对特定任务的适应能力。最后，我们设计了MIL对齐操作，以便于在弱监督下优化视觉语言对齐。我们通过和最先进的工作对比和在两个WSVAD基准数据集上的充分消融，验证了VadCLIP的有效性。未来，我们将继续探索视觉语言预训练知识，并进一步致力于开放集VAD任务。

审核编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

适配器

适配器

+关注

关注
8

文章
1978

浏览量
68389
语言模型

语言模型

+关注

关注
0

文章
545

浏览量
10356
Clip

Clip

+关注

关注
0

文章
31

浏览量
6733

原文标题：AAAI 2024 | VadCLIP: 首个基于视觉-语言模型的弱监督视频异常检测方法

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

基于transformer和自监督学习的路面异常检测方法分享

铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法，有助于定位异常区域

发表于 12-06 14:57 •1730次阅读

基于transformer和自<b class='flag-5'>监督</b>学习的路面<b class='flag-5'>异常</b><b class='flag-5'>检测</b><b class='flag-5'>方法</b>分享

基于隐马尔可夫模型的视频异常检测模型

视频技术的广泛应用带来海量的视频数据，仅依靠人力对监控视频中的异常进行检测是不太可能的。异常行为

发表于 11-20 09:37 •8次下载

基于隐马尔可夫<b class='flag-5'>模型</b>的<b class='flag-5'>视频</b><b class='flag-5'>异常</b><b class='flag-5'>检测</b><b class='flag-5'>模型</b>

基于稀疏随机森林模型的用电侧异常行为检测

异常行为模式检测方法。该方法首先利用时间窗函数与Bootstrap重采样，建立用电侧行为模式信息簇。其次，利用基于随机权网络的有监督学习得到

发表于 12-26 10:19 •5次下载

基于稀疏随机森林<b class='flag-5'>模型</b>的用电侧<b class='flag-5'>异常</b>行为<b class='flag-5'>检测</b>

基于健壮多元概率校准模型的全网络异常检测

的。同时，由于网络异常种类繁多、变化快速，且常常隐藏在复杂庞大的背景流量中，给网络异常的检测带来极大的困难。提出了一种基于健壮多元概率校准模型的异

发表于 03-06 10:02 •0次下载

云模型的网络异常流量检测

网络流量的复杂性、难以预测性以及人们主观评测的差异性等不确定因素，使得网络流量的异常检测成为网络安全防护领域研究的难点问题。通过对流量安全特征的分析提取和范围限定，引入云模型理论，提出一种基于云

发表于 03-06 16:44 •1次下载

智能监控视频异常事件检测

的形状、颜色和帧间变化度等特征编码，生成特征向量。训练时将特征向量送入HMM训练得到隐马尔可夫模型需要的参数A和B，检测时将特征向量送入HMM检测系统检测是否有

发表于 03-07 13:35 •2次下载

基于Greenshield模型的异常节点检测机制

面向车辆自组网的安全通信问题，提出一种基于Greenshield模型的异常节点检测机制。结合车辆自组网的特点，构造Greenshield模型，计算车辆速度、车辆密度和车流量参数。在此基

发表于 03-29 09:54 •0次下载

实现强监督和弱监督学习网络的协同增强学习

同时，我们可以从互联网轻松获取海量粗标注的图片，如利用Flickr的标签。因此，研究如何在弱监督条件下，即仅提供粗略图片类别标注，训练目标检测模型，具有重要的意义。已有学者探索了基于多

发表于 05-15 16:51 •1.2w次阅读

集成流挖掘和图挖掘的内网异常检测方法

发挥图挖掘的无监督优势的冋时，融入了流挖掘的良好自适应能力。采用集成的方法，通过集成分类和更新，当出现概念漂移时，保证集成适应当前概念，使之可以检测到内网恶意行为。实验证明基于集成的方法

发表于 04-12 11:29 •7次下载

融合零样本学习和小样本学习的弱监督学习方法综述

融合零样本学习和小样本学习的弱监督学习方法综述来源：《系统工程与电子技术》，作者潘崇煜等摘要: 深度学习模型严重依赖于大量人工标注的数据，使得其在数据缺乏的特殊领域内应用严重受限。面对数据缺乏

发表于 02-09 11:22 •2392次阅读

如何缩小弱监督信号与密集预测之间的差距

导读本文围绕非完全监督下的图像分割方法最新综述，讲述用于解决“如何缩小弱监督信号与密集预测之间的差距”的四种通用的启发式先验。

发表于 07-13 10:51 •1230次阅读

基于视觉Transformer的监督视频异常检测架构进行肠息肉检测的研究

本文提出一种有效的基于视觉Transformer的弱监督视频异常检测架构来实现精准检测结直肠息肉

发表于 09-27 11:15 •1823次阅读

弱监督学习解锁医学影像洞察力

人工智能 (AI) 通过比人类专家更快、更准确地检测和测量异常情况，从图像中进行先进的医学诊断。构建适用于人群的高质量 AI 模型对于改善患者预后和个性化治疗至关重要。然而，人工智能模型

发表于 09-30 18:04 •1532次阅读

使用MATLAB进行异常检测（下）

在使用 MATLAB 进行异常检测（上）中，我们探讨了什么是异常值，简单的一维数据异常检测问题，针对高维数据的有

发表于 11-24 10:46 •2302次阅读

基于视频语言模型LiteVL的无参的特征池化方法

我们提出了LiteVL，这是一种视频语言模型，它无需大量的视频语言预训练或目标检测器。LiteV

发表于 12-05 10:54 •699次阅读