0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语义分割方法发展过程

新机器视觉 来源:新机器视觉 作者:新机器视觉 2020-12-28 14:28 次阅读

语义分割

目的:给定一张图像,我们要对这张图像上的每个pixel逐一进行分类,结果展示如下图:

上图中的实例分割是语义分割的延伸,要区别出相同类别的不同个体。

应用场景:无人驾驶、辅助医疗等。

语义分割方法发展过程:

1.灰度分割(Gray Level Segmentation)

语义分割的最简单形式是对一个区域设定必须满足的硬编码规则或属性,进而指定特定类别标签. 编码规则可以根据像素的属性来构建,如灰度级强度(gray level intensity). 基于该技术的一种分割方法是 Split and Merge 算法. 该算法是通过递归地将图像分割为子区域,直到可以分配标签;然后再合并具有相同标签的相邻子区域。

这种方法的问题是规则必须是硬编码的. 而且,仅使用灰度级信息是很难表示比如人类等复杂类别的. 因此,需要特征提取和优化技术来正确地学习复杂类别的特征表示。

2.条件随机场(Conditional Random Fields)

CRFs 是一类用于结构化预测的统计建模方法. 不同于分类算法,CRFs 在进行预测前,会考虑像素的邻近信息(neighboring context),如像素间的关系. 这使得 CRFs 成为语义分割的理想候选者. 这里介绍下 CRFs 在语义分割中的应用.

图像中的每个像素都是与有限的可能状态集相关. 在语义分割中,target 类别标签就是可能状态集. 将一个状态(或,label u) 分配给的单个像素 x 的成本(cost) 被称为一元成本(unary cost). 为了对像素间的关系进行建模, 还进一步考虑将一对标签(labels (u, v)) 分配给一对像素 (x, y),其被成为成对成本(pairwise cost). 可以采用直接相邻的像素对作为像素对(Grid CRF);也可以采用图像中所有的像素构建像素对(Denser CRF)。

图像中所有 unary cost 和 pairwise cost 的相加和作为 CRF 的能量函数(或损失函数,loss). 求解最小化即可得到较好的分割输出。

深度学习极大地简化了语义分割的流程(pipeline),并得到了较高质量的分割结果

3.FCN

FCN方法的提出成功的将深度学习方法成功的引入到了语义分割领域,由于要预测的图像是一个二维的表示,因此提出了全卷积网络用来抽取图像中的特征,将得到的高级语义特征上采样到指定的维度,从而得到了最终的预测结果,从而自然的形成了Encoder-Decoder框架,这也成为了语义分割领域中通用框架之一。

具体的模型图如下:

由于在Encoder中获取到图像的高级语义,但是其并不是最终分割的结果,因此作者采用转置卷积的方法将该高级特征上采样到指定的维度,从而得到最终的分割结果。由于直接上采样之后的结果并不好,因此在改论文中引入了跳跃模型就是将不同卷积层下获取到的特征相融合,从而改善模型的效果,其具体结构如下所示:

4.U-NET, SegNet 等

为了改善FCN中的弊端,随后提出了很多模型最经典的是U-Net,SegNet,但是他们的本质上并没有改变Encoder-Decoder模型的架构。

5.DeepLab系列

DeepLab的出现带来了一个新的方法就是扩展卷积(空洞卷积)方法,卷积层引入了一个称为 “扩张率(dilation rate)”的新参数,该参数定义了卷积核处理数据时各值的间距。其目的是为了扩大模型的感受野,使其能够感受到更大范围下的特征信息。具体的体现如下所示:

扩展卷积方法的提出让人们可以去除Encoder-Decoder框架的限制。随后deeplab算法的改进也提出了例如多尺度学习的通则红描述方法(ASPP等)

6.NOW

面对监督式方法---最近的方法大家更注重于实时的语义分割任务,也就是轻量级的语义分割网络的设计。当然还有一些其他的方法,例如针对不同的领域设计不同的语义分割网络、改进上采样方法等。

面对弱监督方法---目前出现了很多弱监督方法,就是通过学习图像分类的数据集(image-level tag)中的信息,来完成语义分割这种密度预测的任务。当然还有使用框架注释来标注数据(bounding-boxes tag)的。

语义分割领域中困难的地方:

1、数据问题:分割不像检测等任务,只需要标注一个类别就可以拿来使用,分割需要精确的像素级标注,包括每一个目标的轮廓等信息,因此使得制作数据集成本过高;

2、计算资源问题:现在想要得到较高的精度的语义分割模型就需要使用类似于ResNet101等深网络。同时,分割预测了每一个像素,这就要求feature map的分辨率尽可能的高,这都说明了计算资源的问题,虽然也有一些轻量级的网络,但精度还是太低了;

3、精细分割:目前的方法中对于图像中的大体积的东西能够很好的分类,但是对于细小的类别,由于其轮廓太小,从而无法精确的定位轮廓,造成精度较低;

4、上下文信息:分割中上下文信息很重要,否则会造成一个目标被分成多个part,或者不同类别目标分类成相同类别;

评价指标:

1、执行时间:速度或运行时间是一个非常有价值的度量,因为大多数系统需要保证推理时间可以满足硬实时的需求。然而在通常的实验中其影响是很不明显的,并且该指标非常依赖硬件设备及后台实现,致使一些比较是无用的。

2、内存占用:在运行时间相同的情况下,记录系统运行状态下内存占用的极值和均值是及其有价值的。

3、精确度:这里指的是逐像素标记的精度测量,假设共有k个类(从l0到lk其中有一个类别是属于背景的。),Pij表示本属于i类但是被预测为j类的像素个数,Pii表示为真正分对类的数量,而Pij与Pji分别被称为假正样本和假负样本。

1)Pixel Accuracy(PA,像素精度):标记正确的像素占总像素的比例

0c3ae84c-29d7-11eb-a64d-12bb97331649.jpg

2)Mean Pixel Accuracy(MPA,平均像素精度):计算每个类内被正确分类像素数比例,之后求所有类的平均数。

0c5ff542-29d7-11eb-a64d-12bb97331649.jpg

3)Mean Intersection over Union(MIoU,均交并比):为语义分割的标准度量,其计算两个集合的交集和并集之比,这两个集合分别为ground truth 与predicted segmentation,在每个类上计算IoU,之后将其求平均。

-----IoU即真正样本数量/(真正样本数量+假正样本数量+假负样本数量)

0c815476-29d7-11eb-a64d-12bb97331649.jpg

4)Frequency weighted Intersection over Union(FWIoU,频权交并):是MIoU的一种提升,这种方法根据每个类出现的频率为期设置权重。

0ca6d228-29d7-11eb-a64d-12bb97331649.jpg

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1090

    浏览量

    40607
  • 函数
    +关注

    关注

    3

    文章

    4350

    浏览量

    63090
  • 分割
    +关注

    关注

    0

    文章

    17

    浏览量

    11930

原文标题:语义分割入门的总结

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

    (IML)都遵循“语义分割主干网络”与“精心制作的手工制作非语义特征提取”相结合的设计,这种方法严重限制了模型在未知场景的伪影提取能力。 论文标题: Can We Get Rid
    的头像 发表于 01-15 09:30 142次阅读
    SparseViT:以非<b class='flag-5'>语义</b>为中心、参数高效的稀疏化视觉Transformer

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    目前高速发展的大模型能给具身智能带来一些突破性的进展。 对于感知系统,要做的主要任务是物体检测,语义分割,立体视觉,鸟瞰视角感知。 有很多算法都可以实现物体检测,比如文章提到的HOG + SVM算法
    发表于 01-04 19:22

    利用VLM和MLLMs实现SLAM语义增强

    语义同步定位与建图(SLAM)系统在对邻近的语义相似物体进行建图时面临困境,特别是在复杂的室内环境中。本文提出了一种面向对象SLAM的语义增强(SEO-SLAM)的新型SLAM系统,借助视觉语言模型
    的头像 发表于 12-05 10:00 355次阅读
    利用VLM和MLLMs实现SLAM<b class='flag-5'>语义</b>增强

    语义分割25种损失函数综述和展望

    语义图像分割,即将图像中的每个像素分类到特定的类别中,是许多视觉理解系统中的重要组成部分。作为评估统计模型性能的主要标准,损失函数对于塑造基于深度学习的分割算法的发
    的头像 发表于 10-22 08:04 920次阅读
    <b class='flag-5'>语义</b><b class='flag-5'>分割</b>25种损失函数综述和展望

    画面分割器怎么调试

    画面分割器,通常指的是视频画面分割器,它是一种可以将一个视频信号分割成多个小画面的设备。这种设备广泛应用于监控系统、视频会议、多画面显示等场景。调试画面分割器是一个技术性很强的工作,需
    的头像 发表于 10-17 09:32 572次阅读

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义
    的头像 发表于 07-17 09:56 572次阅读

    图像分割语义分割的区别与联系

    图像分割语义分割是计算机视觉领域中两个重要的概念,它们在图像处理和分析中发挥着关键作用。 1. 图像分割简介 图像分割是将图像划分为多个区
    的头像 发表于 07-17 09:55 1241次阅读

    图像分割与目标检测的区别是什么

    图像分割与目标检测是计算机视觉领域的两个重要任务,它们在许多应用场景中都发挥着关键作用。然而,尽管它们在某些方面有相似之处,但它们的目标、方法和应用场景有很大的不同。本文将介绍图像分割与目标检测
    的头像 发表于 07-17 09:53 1610次阅读

    机器学习中的数据分割方法

    在机器学习中,数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据分割方法,包括常见的分割
    的头像 发表于 07-10 16:10 2265次阅读

    图像分割语义分割中的CNN模型综述

    图像分割语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型,在图像
    的头像 发表于 07-09 11:51 1233次阅读

    机器人视觉技术中常见的图像分割方法

    机器人视觉技术中的图像分割方法是一个广泛且深入的研究领域。图像分割是将图像划分为多个区域或对象的过程,这些区域或对象具有某种共同的特征,如颜色、纹理、形状等。在机器人视觉中,图像
    的头像 发表于 07-09 09:31 934次阅读

    人工智能的定义和发展过程

    人工智能(Artificial Intelligence,简称AI)是计算机科学的一个分支,旨在通过计算机程序或机器来模拟、实现人类智能的技术和方法。它使计算机能够具备感知、理解、判断、推理、学习
    的头像 发表于 07-04 14:05 1641次阅读

    机器人视觉技术中图像分割方法有哪些

    和分析。本文将详细介绍图像分割的各种方法,包括传统的图像处理方法和基于深度学习的方法。 阈值分割法 阈值
    的头像 发表于 07-04 11:34 1197次阅读

    如何应对PCB设计中信号线的跨分割呢?

    在PCB设计过程中经常会遇到高多层、高密度的设计,那么这种情况下就难免出现跨分割的情况
    的头像 发表于 05-27 09:34 1209次阅读
    如何应对PCB设计中信号线的跨<b class='flag-5'>分割</b>呢?

    陶瓷电熔炉启动过程中升温停止问题的原因及解决办法分析

    放射性废物的处置问题一直是核工业发展过程中不可忽视的关键环节。核燃料后处理循环过程中产生的高放废液的安全处置是放射性废物处理的关键,国际上比较成熟的高放废液处理方法是玻璃固化[1]。
    的头像 发表于 03-12 16:43 614次阅读
    陶瓷电熔炉启动<b class='flag-5'>过程</b>中升温停止问题的原因及解决办法分析