0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于transformer和自监督学习的路面异常检测方法分享

冬至子 来源:苏大轨道交通学院研究生 作者:Zijie Lina,b,Hui Wang 2023-12-06 14:57 次阅读

01

文章摘要

铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法,有助于定位异常区域。实验结果显示,自监督学习可以提高在小型未标记图像数据集上的性能。Transformer被证明在路面损坏检测领域是适用的。文章构建的类似于人脸识别的框架可以通过将新的补丁放入图库中来增强性能,而移除相似的补丁不会影响识别结果。该方法足够高效和小型化,以支持实时工作,并且可以直接应用于边缘检测。

02

主要工作与贡献

  1. 该论文提出了一种新颖的方法,将Transformer模型和自监督学习相结合,用于路面异常检测。Transformer是一种强大的神经网络架构,用于处理序列数据,在该研究中被应用于图像数据,并取得了显著的成果。
  2. 监督学习是一种无需人工标注的学习方法,可以从未标记的数据中学习有用的特征。该论文展示了自监督学习在小型未标记图像数据集上的应用,并证明它能够显著提高性能。
  3. 研究人员构建了一个类似于人脸识别的框架,通过将新的图像补丁加入图库中,来增强路面异常检测的性能。这种方法能够在不进行训练的情况下实现性能的提升。
  4. 该方法被证明足够高效和小型化,能够支持实时工作,因此可以在实际应用中进行边缘检测和路面异常监测。

03

所提方法

Transformer可能比CNN更好,因为Transformer天然具有全局感受野,可以捕捉长距离像素之间的关系。自注意力机制可能有助于解决缺乏数据的问题,因为在类似条件下,MAE(掩码自编码器)表现良好。本论文将自监督学习和Transformer应用于路面异常检测。使用ViT-S的自监督学习来重构未标记的路面图像,并提出了一种编码-检索-匹配的路面异常检测方法来解决分类重训练的问题。文章方法的框架如图1所示。主要由两个部分组成:图库和编码器。首先,图像将被划分为几个补丁,并且典型的补丁将被添加到图库中。这将降低分辨率并减少背景像素。在模型训练完成后,将提取编码器部分。所有的补丁都可以被编码成特征向量。一旦向量被编码,计算它们之间的距离得到一个距离向量(一列)。最后,将找到与预测类别最接近的补丁。

图片

图1 论文方法总体架构

01.编码器

图片

图2 ViT架构

ViT是Transformer在计算机视觉领域的第一个成功应用,它简单地将图像划分为补丁作为输入序列,以便Transformer能够处理。参考了BERT,ViT在其中添加了一个[class]标记来融合用于分类的信息。如图2所示,ViT首先通过平均划分输入来获取图像补丁,然后进行线性投影以获取图像标记。一旦生成了标记,将添加位置嵌入以恢复丢失的位置信息。然后,它们将被输入到Transformer编码器中。最后,只有[class]标记将在分类中使用。多头注意力机制可以用公式(1)来描述。

图片

其中,n表示嵌入的数量,Zh是第h个注意头的输出,dk表示K的维度。嵌入E和可学习权重W进行点积运算,以得到查询(Query)Q,键(Key)K和值(Value)V。

最终输出是可学习权重和Z(堆叠Zh)的点生成。不同头部的权重是独立的,以确保从各种表示子空间中提取特征。整个过程可以大致描述为等式(2)-(5)。

图片

其中Z0表示输入向量,Y是用于分类的图像表示。Z0L是Z的位置0上的标记(也称为[class]标记)。LN表示层标准化。

02.Drop path

文章采用“drop path” 作为一种规范化方法来防止过拟合。简单来说,它会根据预先确定的概率随机地禁用每一层之间的路径,至少保留一条路径。在实现中,对于每一层的多个输入,会随机丢弃一些输入。这个效果类似于模型集成,其中不同的路径组合意味着不同的子网络,而在预测时不会丢弃路径来将它们组合起来。

03.监督学习

在实验中,文章使用图像补丁作为输入,输出为正常或异常。因此,这是一个二元分类任务;输出值是介于0到1之间的sigmoid输入得分。数值越接近0,输入越有可能是异常(类别0)。相反,越接近1,输入越有可能是正常的(类别1)。在训练过程中,sigmoid得分(x)与真实值(y)之间的差距越大,二元交叉熵损失就越大。在模型用于推断时,会设置一个阈值(通常为0.5)。当sigmoid得分低于阈值时,输入被视为异常,反之亦然。

04.自监督学习

MAE是一种基于部分掩膜图像的像素级重建任务的方法。编码器仅对可见的补丁进行编码。编码完成后,[mask]标记将添加到相应的位置。解码器将接收所有标记作为输入进行重建。

MAE的关键方面可以分为四个部分:掩膜策略、编码器、解码器和重建目标。掩膜策略通常选择随机掩膜,掩膜比例较大。在这种情况下,被掩膜部分占据了图像的大部分区域,很难找到掩膜周围的未掩膜区域,迫使模型学习不依赖局部信息。文章选择纯粹的ViT作为编码器,因为它没有引入过多的修改,导致对特定领域过拟合,并且重建目标是均方损失。

05.类似面部识别的框架

通常,模型在超出其训练数据分布范围的数据上表现较差。不同地区之间存在明显的道路差异,例如路面分类,将会降低模型的精度。文章从最佳ViT-S模型中提取编码器作为帧中的编码器。选择第11、12、13、10、9、8和6列的图像块作为输入,因为这些位置的异常概率较高。如果Sigmoid输出低于某个阈值,该类别被认为是异常(类别0)。一旦预测为异常,整个输入图像都被视为异常。

04

实验验证

1

监督学习结果

表1 ViT-S在不同DA和drop path下的精度比较

图片

监督学习的结果显示在表格1和图3、图4中。表格1显示数据增强(DAs)比随机删除路径(drop paths)可以带来更多的性能提升。从图3和图4可以看出,两个模型在最后几个周期开始过拟合。Resnet的结果较好,因为它收敛到一个更好的局部最优点。CNN具有局部相关性等先验知识,当数据较少时会导致这样的结果。而Transformer没有这样的知识,因此需要从更多数据中进行学习。

图片

图3 resnet34的学习曲线

图片

图4 ViT–S的学习曲线

2

自我监督学习结果

表2证明,在微调中应用DA对于提高性能是必要的,因为最高精度主要取决于微调,使模型适应二进制分类任务。如果微调数据的数量不足,模型仍然会过拟合。根据有监督和自监督学习图,MAE可以显著加速收敛并提高精度。

表2 在不同位置应用DA的准确性

图片

3

可视化视角讨论

文章使用GradCAM(梯度加权类激活映射)来直观地分析文章的路面异常检测算法。选择了两张分别具有两种类型的明显遇险的测试图像。图5图6显示了结果。混合结果意味着所有头的平均值。图中的响应越高,它与分类的相关性就越大。图6与无MAE的ViT相比,有MAE的ViT在遇险周围有更集中的活动区域。这一事实支持了像MAE这样的自监督学习可以帮助模型在数据集几乎没有标记数据的情况下学习更好的表示。此外,我们可以看到,最后两个区块比其他区块更关注遇险区域。有一些像Block_9这样的块具有统一的响应。这一发现在图5中更为明显。

图片

图5 测试图像A中ViT w/MAE的单独结果

图片

图6 测试图像A中ViT w/MAE和ViT w/o MAE的混合结果

05

结论

研究旨在快速检测道路异常,以减少路面损坏识别、数据存储和标注的工作量。通过验证异常检测任务,自监督学习对这个问题产生了显著影响,其价值比数据增强(准确率为0.9268 vs 0.9183)更为重要。Transformer在道路领域适用,因为它具有捕捉长距离关系的强大能力。第二个重要发现是,通过定制画廊,类似于人脸识别的框架可以快速识别不同的损坏类型。基于ViT(Visual Transformer)和MAE,本研究设计了一种新颖的方法来检测异常的路面部分。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1143

    浏览量

    40718
  • 编码器
    +关注

    关注

    45

    文章

    3638

    浏览量

    134426
  • 人脸识别
    +关注

    关注

    76

    文章

    4011

    浏览量

    81860
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    45976
  • Transformer
    +关注

    关注

    0

    文章

    143

    浏览量

    5995
收藏 人收藏

    评论

    相关推荐

    适用于任意数据模态的监督学习数据增强技术

    模态的。这意味着需要为不同的数据模态开发不同的监督学习算法。为此,本文提出了一种通用的数据增强技术,可以应用于任意数据模态。相较于已有的通用的监督学习,该
    的头像 发表于 09-04 10:07 1106次阅读
    适用于任意数据模态的<b class='flag-5'>自</b><b class='flag-5'>监督学习</b>数据增强技术

    如何用卷积神经网络方法去解决机器监督学习下面的分类问题?

    人工智能下面有哪些机器学习分支?如何用卷积神经网络(CNN)方法去解决机器学习监督学习下面的分类问题?
    发表于 06-16 08:09

    基于半监督学习的跌倒检测系统设计_李仲年

    基于半监督学习的跌倒检测系统设计_李仲年
    发表于 03-19 19:11 4次下载

    基于半监督学习框架的识别算法

    人体行为识别是计算机视觉研究的热点问题,现有的行为识别方法都是基于监督学习框架.为了取得较好的识别效果,通常需要大量的有标记样本来建模.然而,获取有标记样本是一个费时又费力的工作.为了解决这个
    发表于 01-21 10:41 1次下载

    机器学习算法中有监督和无监督学习的区别

    监督学习的好处之一是,它不需要监督学习必须经历的费力的数据标记过程。但是,要权衡的是,评估其性能的有效性也非常困难。相反,通过将监督学习算法的输出与测试数据的实际标签进行比较,可以很容易地衡量
    的头像 发表于 07-07 10:18 5757次阅读

    监督学习Transformer相关论文

    Transformer、图神经网络、自然语言处理、模型压缩等热点领域,将分多期为大家带来系列论文解读。 本期的关注焦点是监督学习
    的头像 发表于 11-02 15:50 2682次阅读
    <b class='flag-5'>自</b><b class='flag-5'>监督学习</b>与<b class='flag-5'>Transformer</b>相关论文

    最基础的半监督学习

    导读 最基础的半监督学习的概念,给大家一个感性的认识。 半监督学习(SSL)是一种机器学习技术,其中任务是从一个小的带标签的数据集和相对较大的未带标签的数据中学习得到的。SSL的目标是
    的头像 发表于 11-02 16:08 2649次阅读

    监督学习最基础的3个概念

    导读 今天给大家介绍半监督学习中的3个最基础的概念:一致性正则化,熵最小化和伪标签,并介绍了两个经典的半监督学习方法。 没看一的点这里哈:半监督学习入门基础(一) 半监督学习 (SSL
    的头像 发表于 11-02 16:14 2956次阅读
    半<b class='flag-5'>监督学习</b>最基础的3个概念

    为什么半监督学习是机器学习的未来?

    为什么半监督学习是机器学习的未来。 监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。 然而
    的头像 发表于 11-27 10:42 3897次阅读

    监督学习:比监督学习做的更好

    监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精...
    的头像 发表于 12-08 23:32 1403次阅读

    基于人工智能的监督学习详解

    监督学习让 AI 系统能够从很少的数据中学习知识,这样才能识别和理解世界上更微妙、更不常见的表示形式。
    的头像 发表于 03-30 17:09 5980次阅读
    基于人工智能的<b class='flag-5'>自</b><b class='flag-5'>监督学习</b>详解

    机器学习中的无监督学习应用在哪些领域

    解决数据中心、云计算、人工智能和边缘计算等各个行业的问题,为人们带来极大便益。 监督学习是什么? 监督学习监督学习和非
    发表于 01-20 10:52 4959次阅读
    机器<b class='flag-5'>学习</b>中的无<b class='flag-5'>监督学习</b>应用在哪些领域

    监督学习的一些思考

    监督学习的流行是势在必然的。在各种主流有监督学习任务都做到很成熟之后,数据成了最重要的瓶颈。从无标注数据中学习有效信息一直是...
    发表于 01-26 18:50 1次下载
    <b class='flag-5'>自</b><b class='flag-5'>监督学习</b>的一些思考

    融合零样本学习和小样本学习的弱监督学习方法综述

    融合零样本学习和小样本学习的弱监督学习方法综述 来源:《系统工程与电子技术》,作者潘崇煜等 摘 要: 深度学习模型严重依赖于大量人工标注的数据,使得其在数据缺乏的特殊领域内应用严重受限
    发表于 02-09 11:22 2301次阅读
    融合零样本<b class='flag-5'>学习</b>和小样本<b class='flag-5'>学习</b>的弱<b class='flag-5'>监督学习方法</b>综述

    深度学习中的无监督学习方法综述

    应用中往往难以实现。因此,无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学习方法,包括自编码器、生成对抗网络、聚类算法等,并分析它们的原理、应用场景以及优
    的头像 发表于 07-09 10:50 683次阅读