0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于DiAD扩散模型的多类异常检测工作

CVer 来源:CVer 2024-01-08 14:55 次阅读

背景和动机

工业生产过程中,工业异常检测是一个重要的环节,旨在及时发现和排除产品的制造异常,确保产品质量和安全性。近年来,随着计算机视觉和图像处理技术的快速发展,视觉技术被广泛应用于工业异常检测中。一般的单类异常检测算法分别为不同类别的物体训练不同的模型,非常消耗内存,并且也不适用于正常样本表现出大的类内多样性的情况,本文作者致力于用统一的框架从不同的物体类别中检测异常。

现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其强大的生成能力而闻名,因此本文作者希望通过扩散模型将异常区域重构成正常。然而如下图1所示,直接将扩散模型应用于多类异常检测会存在几点问题:对于DDPM来说,应用于多类异常检测会出现类别错误的情况,因为在加入1000步噪声后,图像已变成随机高斯噪声,因为没有其他限制条件,DDPM在去噪过程中从随机高斯噪声中去噪最终获得随机类别的图像。LDM通过交叉注意力引入了条件约束,在多类异常检测应用场景中,LDM可以通过引入类别条件解决了DDPM在多类异常检测任务中类别错误的问题;然而LDM仍然无法解决在随机高斯噪声下去噪并保持图像语义信息一致性的问题,比如钉子的方向、齿轮的方位等。因此,现有的扩散模型尽管展现了其强大的生成能力,但是无法很好的解决多类异常检测的任务。

82b0c1b0-9976-11ee-8b88-92fbcf53809c.png

图1:上图展示了DDPM、LDM和Ours扩散模型去噪网络的框架,下图展示了三种模型对于同样的输入异常图像的重构效果

所以本文作者提出了DiAD来解决多类异常检测任务。在MVTec-AD、VisA等数据集上在图像和像素级别的AUROC、AP、F1max和PRO共七个指标上实现了新的SoTA,超越了UniAD、RD4AD等模型。

网络结构

本文作者提出一种基于扩散模型框架的多类异常检测方法。本方法包含三个空间:Pixel Space、Latent Space和Feature Space。首先输入图像82b895de-9976-11ee-8b88-92fbcf53809c.jpg在Pixel Space中经过预训练的Auto-encoder得到Latent Variable 82c6d9c8-9976-11ee-8b88-92fbcf53809c.jpg,随后Latent Variable 82c6d9c8-9976-11ee-8b88-92fbcf53809c.jpg进入Latent Space经过向82c6d9c8-9976-11ee-8b88-92fbcf53809c.jpg一步步加入随机高斯噪最终得到近随机高斯噪声,加噪后的Latent Variable 82e04c00-9976-11ee-8b88-92fbcf53809c.jpg输入至SD Denoising Network的同时输入图像输入至语义引导网络(Semantic-Guided Network),经过Semantic-Guided Network的输入图像将会加入到SD Denoising Network的Decoder Blocks中,经过大量的去噪过程后得到重构的Latent Variable 82ebb41e-9976-11ee-8b88-92fbcf53809c.jpg,此时再进入Pixel Space中的Auto-decoder得到重构图像82f9de5e-9976-11ee-8b88-92fbcf53809c.jpg,最终输入图像82b895de-9976-11ee-8b88-92fbcf53809c.jpg和重构图像82f9de5e-9976-11ee-8b88-92fbcf53809c.jpg将同时输入到Feature Space中,通过同一个预训练的特征提取网络提取不同尺度的特征,比较不同特征图上的余弦相似度用于异常得分的计算与定位并将不同尺度得到的结果合起来得到最终像素级别的异常定位得分和异常分类得分。本文作者改进了扩散模型的Denoising Network,在Denoising Network的基础上添加了与其结构相似的Semantic-Guided Network来保持输入图像与重构图像语义信息的一致性,使扩散模型能够在高步数加噪下仍保持与原输入图像语义信息的高度一致性并将异常区域重构为正常区域。   

83173a3a-9976-11ee-8b88-92fbcf53809c.png

图2:DiAD模型框架

语义引导网络(Semantic-Guided Network)

语义引导网络首先通过卷积神经网络将输入图像832c0096-9976-11ee-8b88-92fbcf53809c.jpg下采样到与加噪后的隐变量82e04c00-9976-11ee-8b88-92fbcf53809c.jpg经过去噪网络第一层编码块得到的特征图同维度同尺度特征833e81a8-9976-11ee-8b88-92fbcf53809c.jpg,其次复制预训练去噪网络的编码块和解码块的参数用于之后模型的微调,为了保持重构图像与输入图像语义信息的一致性,将语义引导网络的中间层和一层解码块与去噪网络对应模块相连,最终去噪网络的输出为    

834814c0-9976-11ee-8b88-92fbcf53809c.png

其中83594736-9976-11ee-8b88-92fbcf53809c.jpg表示去噪网络解码块、8361541c-9976-11ee-8b88-92fbcf53809c.jpg表示去噪网络中间块、8368b7f2-9976-11ee-8b88-92fbcf53809c.jpg表示去噪网络编码块、83733efc-9976-11ee-8b88-92fbcf53809c.jpg表示语义引导网络中间块、839aa21c-9976-11ee-8b88-92fbcf53809c.jpg表示卷积神经网络层、83a5f194-9976-11ee-8b88-92fbcf53809c.jpg表示语义引导网络解码层。

空间感知特征融合模块(Spatial-aware Feature Fusion Block)

为了将不同空间尺度的信息结合起来,使用空间感知特征融合模块融合在语义引导网络中不同尺度编码块的输出结果, 83acd61c-9976-11ee-8b88-92fbcf53809c.jpg表示编码块四中的低尺度的输出特征图,83b8d9f8-9976-11ee-8b88-92fbcf53809c.jpg表示编码块三中的高尺度的输出特征图,编码块四中的最终的输出特征图为:

83c018da-9976-11ee-8b88-92fbcf53809c.png

83c9ac42-9976-11ee-8b88-92fbcf53809c.jpg表示编码块三中有三层在本次实验中使用,83d6562c-9976-11ee-8b88-92fbcf53809c.jpg表示一个基本的包含一个3×3卷积层、归一化层和激活层的卷积模块。

83e579f4-9976-11ee-8b88-92fbcf53809c.png

图3:空间感知特征融合模块

异常分数计算

将重构图像83f4e736-9976-11ee-8b88-92fbcf53809c.jpg和输入图像82b895de-9976-11ee-8b88-92fbcf53809c.jpg共同输入到特征空间中同一个预训练的卷积神经网络resnet50特征提取器8402dbb6-9976-11ee-8b88-92fbcf53809c.jpg中提取不同尺度的特征840c6190-9976-11ee-8b88-92fbcf53809c.jpg,并通过余弦相似度计算不同尺度的缺陷得分841b59b6-9976-11ee-8b88-92fbcf53809c.jpg,计算方式为:

8427b562-9976-11ee-8b88-92fbcf53809c.png

其中843499da-9976-11ee-8b88-92fbcf53809c.jpg代表第843499da-9976-11ee-8b88-92fbcf53809c.jpg层特征840c6190-9976-11ee-8b88-92fbcf53809c.jpg。最终的缺陷定位得分为:

844feec4-9976-11ee-8b88-92fbcf53809c.png

其中8455c95c-9976-11ee-8b88-92fbcf53809c.jpg表示上采样率、846b8cce-9976-11ee-8b88-92fbcf53809c.jpg表示使用的特征层的数量,缺陷的分类得分为经过全局平均池化后的缺陷定位得分的最大值。

实验结果

MVTec-AD数据集实验结果

84741272-9976-11ee-8b88-92fbcf53809c.png

图4:MVTec-AD数据集上多类异常检测实验结果,对应的指标分别为图像级别AUROC/AP/F1max。

848659d2-9976-11ee-8b88-92fbcf53809c.png

图5:MVTec-AD数据集上多类异常检测实验结果,对应的指标分别为像素级别AUROC/AP/F1max。

VisA数据集实验结果

8498ecd2-9976-11ee-8b88-92fbcf53809c.jpg

图6:VisA数据集上多类异常检测实验结果,cls表示图像级别的结果而seg表示像素级别的结果。

总结

本文作者解决了现有扩散模型框架无法应对多类异常检测任务并提出了DiAD扩散模型框架用于多类异常检测。具体而言,作者在SD去噪网络的基础上引入了语义引导网络(Semantic-Guided Network)保持输入图像和重构图像的语义一致性,并且还提出了空间感知特征融合模块(Spatial-aware Feature Fusion Block)将不同尺度的特征相融合。最终本文实现了在保持与输入图像语义信息一致的前提下将异常区域重构成正常图像,同时实现SoTA。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    46042
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24743
  • 卷积神经网络

    关注

    4

    文章

    367

    浏览量

    11883

原文标题:AAAI 2024 | 浙大&优图提出DiAD:第一个基于扩散模型的多类异常检测工作

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于变分自编码器的异常小区检测

    异常小区 (c)干扰异常小区  图1 异常小区类型  本文只对异常小区进行检测,不对造成
    发表于 12-03 15:06

    基于危险模式的异常检测模型

    阐述了危险模式的概况及运行机制,提出了一种基于危险模式的异常检测模型以及相关的算法。该模型通过分析实时系统调用序列中的危险信号,进而判断是否为入侵事件。实验结
    发表于 07-30 15:04 9次下载

    基于Q-学习算法的异常检测模型

        针对网络入侵的不确定性导致异常检测系统误报率较高的不足,提出一种基于Q-学习算法的异常检测模型(QLA
    发表于 09-02 11:58 7次下载

    基于隐马尔可夫模型的视频异常检测模型

    利用光流纹理图描述移动物体的刚性特征,建立基于隐马尔可夫模型HMM的时间上下文异常检测模型。在此基础上,提取异常目标的Radon特征,以支持
    发表于 11-20 09:37 8次下载
    基于隐马尔可夫<b class='flag-5'>模型</b>的视频<b class='flag-5'>异常</b><b class='flag-5'>检测</b><b class='flag-5'>模型</b>

    基于健壮多元概率校准模型的全网络异常检测

    的。同时,由于网络异常种类繁多、变化快速,且常常隐藏在复杂庞大的背景流量中,给网络异常检测带来极大的困难。 提出了一种基于健壮多元概率校准模型
    发表于 03-06 10:02 0次下载

    模型的网络异常流量检测

    网络流量的复杂性、难以预测性以及人们主观评测的差异性等不确定因素,使得网络流量的异常检测成为网络安全防护领域研究的难点问题。通过对流量安全特征的分析提取和范围限定,引入云模型理论,提出一种基于云
    发表于 03-06 16:44 1次下载
    云<b class='flag-5'>模型</b>的网络<b class='flag-5'>异常</b>流量<b class='flag-5'>检测</b>

    基于Greenshield模型异常节点检测机制

    面向车辆自组网的安全通信问题,提出一种基于Greenshield模型异常节点检测机制。结合车辆自组网的特点,构造Greenshield模型,计算车辆速度、车辆密度和车流量参数。在此基
    发表于 03-29 09:54 0次下载

    基于特征切分和随机森林的异常检测模型

    大数据时代,攻击篡改、设备故障、人为造假等原因导致海量数据中潜藏着许多异常值。准确地检测出数据中的异常点,实现数据清洗,至关重要。文中提出一种结合特征切分与多层级联随杌森林的异常
    发表于 05-13 14:22 0次下载

    一种多维时间序列汽车驾驶异常检测模型

    针对传统异常检测模型难以准确分析汽车驾驶异常行为的情况,建立一种基于自动编码器与孤立森林算法的多维时间序列汽车驾驶异常
    发表于 05-26 16:32 2次下载

    可解决报文激增异常的BGP异常检测方法

     通过将边界网关协议(BGP)更新报文激增异常问题抽象为二分问题,提出一种基于改进高斯核函数的BGP异常检测( IGKAD)方法。采用FMS特征选择算法,选择能同时最大化
    发表于 05-27 14:49 7次下载

    FreeWheel基于机器学习的业务异常检测实践

    本文介绍了 FreeWheel 基于机器学习的业务异常检测实践,提炼了从零开始构建业务异常检测系统面临的问题和解决方案,文章介绍了常用的异常
    的头像 发表于 10-28 14:35 928次阅读

    港大&amp;腾讯提出DiffusionDet:第一个用于目标检测扩散模型

    近日,来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDet,将扩散模型应用于目标检测。据了解,还没有研究可以成功地将扩散
    的头像 发表于 11-22 15:35 1937次阅读

    如何加速生成2 PyTorch扩散模型

    加速生成2 PyTorch扩散模型
    的头像 发表于 09-04 16:09 1114次阅读
    如何加速生成2 PyTorch<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    哈工大提出Myriad:利用视觉专家进行工业异常检测的大型模态模型

    最近,大型模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用
    的头像 发表于 11-21 16:08 2037次阅读
    哈工大提出Myriad:利用视觉专家进行工业<b class='flag-5'>异常</b><b class='flag-5'>检测</b>的大型<b class='flag-5'>多</b>模态<b class='flag-5'>模型</b>

    扩散模型的理论基础

    扩散模型的迅速崛起是过去几年机器学习领域最大的发展之一。在这本简单易懂的指南中,学习你需要知道的关于扩散模型的一切。
    的头像 发表于 10-28 09:30 549次阅读
    <b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的理论基础