0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GMMSeg:生成式语义分割新范式!可同时处理闭集和开集识别

CVer 来源:机器之心 2023-01-04 10:17 次阅读

GMMSeg 同时具备判别式与生成式模型的优势,在语义分割领域,首次实现使用单一的模型实例,在闭集 (closed-set) 及开放世界 (open-world) 分割任务中同时取得先进性能。

当前主流语义分割算法本质上是基于 softmax 分类器的判别式分类模型,直接对 p (class|pixel feature) 进行建模,而完全忽略了潜在的像素数据分布,即 p (class|pixel feature)。这限制了模型的表达能力以及在 OOD (out-of-distribution) 数据上的泛化性。 在最近的一项研究中,来自浙江大学、悉尼科技大学、百度研究院的研究者们提出了一种全新的语义分割范式 —— 基于高斯混合模型(GMM)的生成式语义分割模型 GMMSeg。

e4d47962-8b95-11ed-bfe3-dac502259ad0.png

GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models

论文链接:https://arxiv.org/abs/2210.02025

代码链接:https://github.com/leonnnop/GMMSeg

GMMSeg 对像素与类别的联合分布进行建模,通过 EM 算法在像素特征空间学习高斯混合分类器 (GMM Classifier),以生成式范式对每一个类别的像素特征分布进行精细捕捉。与此同时,GMMSeg 采用判别式损失来端到端的优化深度特征提取器。这使得 GMMSeg 同时具备判别式与生成式模型的优势。 实验结果表明,GMMSeg 在多种分割网络架构 (segmentation architecture) 及骨干网络 (backbone network) 上都获得了性能提升;同时,无需任何后处理或微调,GMMSeg 可以直接被应用到异常分割 (anomaly segmentation) 任务。 迄今为止,这是第一次有语义分割方法能够使用单一的模型实例,在闭集 (closed-set) 及开放世界 (open-world) 条件下同时取得先进性能。这也是生成式分类器第一次在大规模视觉任务中展示出优势。 判别式 v.s. 生成式分类器

e4e7ddfe-8b95-11ed-bfe3-dac502259ad0.png

在深入探讨现有分割范式以及所提方法之前,这里简略引入判别式以及生成式分类器的概念。 假设有数据集合 D,其包含成对的样本 - 标签对 (x, y);分类器的最终目标是预测样本分类概率 p (y|x)。分类方法可以被分为两类:判别式分类器以及生成式分类器。

判别式分类器:直接建模条件概率 p (y|x);其仅仅学习分类的最优决策边界,而完全不考虑样本本身的分布,也因此无法反映样本的特性。

生成式分类器:首先建模联合概率分布 p (x, y),而后通过贝叶斯定理推导出分类条件概率;其显式地对数据本身的分布进行建模,往往针对每一个类别都会建立对应的模型。相比于判别式分类器,其充分考虑了样本的特征信息

e5148534-8b95-11ed-bfe3-dac502259ad0.png

主流语义分割范式:判别式 Softmax 分类器 目前主流的逐像素分割模型大多使用深度网络抽取像素特征,而后使用 softmax 分类器进行像素特征分类。其网络架构由两部分组成: 第一部分为像素特征提取器,其典型架构为编码器 - 解码器对,通过将 RGB 空间的像素输入映射到 D - 维度的高维空间获取像素特征。 第二部分为像素分类器,即主流的 softmax 分类器;其将输入的像素特征编码为 C - 类实数输出(logits),而后利用 softmax 函数对输出(logits)归一化并赋予概率意义,即利用 logits 计算像素分类的后验概率:

e54644de-8b95-11ed-bfe3-dac502259ad0.png

最终,由两个部分构成的完整模型将通过 cross-entropy 损失进行端到端的优化:

e56b21a0-8b95-11ed-bfe3-dac502259ad0.png

在此过程中,模型忽略了像素本身的分布,而直接对像素分类预测的条件概率 p (c|x) 进行估计。由此可见,主流的 softmax 分类器本质为判别式分类器。 判别式分类器结构简单,并因其优化目标直接针对于缩小判别误差,往往能够取得优异的判别性能。然而与此同时,其有一些尚未引起已有工作重视的致命缺点,极大的影响了 softmax 分类器的分类性能及泛化性:

首先,其仅仅对决策边界进行建模;完全忽视了像素特征的分布,也因而无法对每一个类别的具体特性进行建模与利用;削弱了其泛化性以及表达能力。

其次,其使用单一的参数对 (w,b) 建模一个类别;换言之,softmax 分类器依赖于单模分布 (unimodality) 假设;这种极强且过于简化的假设在实际应用往往不能成立,这导致其只能够取得次优的性能。

最后,softmax 分类器的输出无法准确反映真实的概率意义;其最终的预测只能作为与其他类别进行比较时的参考。这也正是大量主流分割模型较难检测出 OOD 输入的根本原因。

针对这些问题,作者认为应该对目前主流的判别式范式进行重新思考,并在本文中给出了对应的方案:生成式语义分割模型 ——GMMSeg。 生成式语义分割模型:GMMSeg 作者从生成式模型的角度重新梳理了语义分割过程。相较于直接建模分类概率 p (c|x),生成式分类器对联合分布 p (x, c) 进行建模,而后使用贝叶斯定理推导出分类概率:

e59857ba-8b95-11ed-bfe3-dac502259ad0.png

其中,出于泛化性考虑,类别先验 p (c) 往往被设置为 uniform 分布,而如何对像素特征的类别条件分布 p (x|c) 进行建模,就成为了当前的首要问题。 在本文中,即 GMMSeg 中,采用高斯混合模型对 p (x|c) 进行建模,其形式如下:

e5b8748c-8b95-11ed-bfe3-dac502259ad0.png

在分模型 (component) 数目不受限的情况下,高斯混合模型理论上能够拟合任意的分布,因而十分优雅且强大;同时,其混合模型的本质也使得建模多模分布 (multimodality),即建模类内变化,变得可行。基于此,本文采用极大似然估计来优化模型的参数:

e5d9e180-8b95-11ed-bfe3-dac502259ad0.png

其经典的解法为 EM 算法,即通过交替执行 E-M - 两步逐步优化 F - 函数:

e5fb511c-8b95-11ed-bfe3-dac502259ad0.png

e61a92c0-8b95-11ed-bfe3-dac502259ad0.png

具体到高斯混合模型的优化;EM 算法实际上在 E - 步中,对数据点属于每一个分模型的概率进行了重新估计。换言之,其相当于在 E - 步中对像素点进行了软聚类 (soft clustering);而后,在 M - 步,即可利用聚类结果,再次更新模型参数。

e63940da-8b95-11ed-bfe3-dac502259ad0.png

然而在实际应用中,作者发现标准的 EM 算法收敛缓慢,且最终结果较差。作者怀疑是由于 EM 算法对参数优化初始值过于敏感,导致其难以收敛到更优的局部极值点。受到近期一系列基于最优传输理论 (optimal transport) 的聚类算法的启发,作者对混合分模型分布额外引入了一个 uniform 先验:

e688662e-8b95-11ed-bfe3-dac502259ad0.png

相应的,参数优化过程中的 E - 步骤被转化为约束优化问题,如下:

e6b895ce-8b95-11ed-bfe3-dac502259ad0.png

这个过程可以被直观的理解成,对聚类过程引入了一个均分的约束:在聚类过程中,数据点能够被一定程度上均匀的分配给每一个分模型。引入此约束之后,此优化过程就等价于下式列出的最优传输问题:

e6d5c608-8b95-11ed-bfe3-dac502259ad0.png

此式可以利用 Sinkhorn-Knopp 算法快速求解。而整个改进过后的优化过程被命名为 Sinkhorn EM,其被一些理论工作证明,具有与标准 EM 算法相同的全局最优解,且更不容易陷入局部最优解。 在线混合 (Online Hybrid) 优化 之后,在完整的优化过程中,文章中使用了一种在线混合 (online hybrid) 的优化模式:通过生成式 Sinkhorn EM,在逐渐更新的特征空间中,不断对高斯混合分类器进行优化;而对于完整框架中另一个部分,即像素特征提取器部分,则基于生成式分类器的预测结果,使用判别式 cross-entropy 损失进行优化。两个部分交替优化,互相对齐,使得整个模型紧密耦合,并且能够进行端到端的训练:

e6ebedde-8b95-11ed-bfe3-dac502259ad0.png

在此过程中,特征提取部分只通过梯度反向传播优化;而生成式分类器部分,则只通过 SinkhornEM 进行优化。正是这种交替式优化的设计,使得整个模型能够紧凑的融合在一起,并同时继承来自判别式以及生成式模型的优势。 最终,GMMSeg 受益于其生成式分类的架构以及在线混合的训练策略,展示出了判别式 softmax 分类器所不具有的优势:

其一,受益于其通用的架构,GMMSeg 与大部分主流分割模型兼容,即与使用 softmax 进行分类的模型兼容:只需要替换掉判别式 softmax 分类器,即可无痛增强现有模型的性能。

其二,由于 hybrid 训练模式的应用,GMMSeg 兼并了生成式以及判别式分类器的优点,且一定程度上解决了 softmax 无法建模类内变化的问题;使得其判别性能大大提升。

其三,GMMSeg 显式建模了像素特征的分布,即 p (x|c);GMMSeg 能够直接给出样本属于各个类别的概率,这使得其能够自然的处理未曾见过的 OOD 数据。

实验结果 实验结果表明,不论是基于 CNN 架构或者是基于 Transformer 架构,在广泛使用的语义分割数据集 (ADE20K, Cityscapes, COCO-Stuff) 上,GMMSeg 都能够取得稳定且明显的性能提升。

e71ae648-8b95-11ed-bfe3-dac502259ad0.png

e75c2e78-8b95-11ed-bfe3-dac502259ad0.png

除此之外,在异常分割任务中,无需对在闭集任务,即常规语义分割任务中训练完毕的模型做任何的修改,GMMSeg 即可在所有通用评价指标上,超越其他需要特殊后处理的方法。

e795a428-8b95-11ed-bfe3-dac502259ad0.png

e7cdbe26-8b95-11ed-bfe3-dac502259ad0.png

e7ff9a2c-8b95-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4484

    浏览量

    91353
  • 分类器
    +关注

    关注

    0

    文章

    152

    浏览量

    13141

原文标题:NeurIPS 2022 | GMMSeg:生成式语义分割新范式!可同时处理闭集和开集识别

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪
    发表于 05-28 07:27

    语音数据:智能驾驶中车内语音识别技术的基石

    一、引言 在智能驾驶中,车内语音识别技术发挥着越来越重要的作用。语音数据作为这一技术的基石,其质量和规模对语音识别的性能有着至关重要的影响。本文将深入探讨语音数据在智能驾驶中的应用
    的头像 发表于 01-31 16:07 307次阅读

    Harvard FairSeg:第一个用于医学分割的公平性数据

    为了解决这些挑战,我们提出了第一个大规模医学分割领域的公平性数据, Harvard-FairSeg。该数据旨在用于研究公平性的cup-disc segmentation,从SLO眼底图像中诊断青光眼,如图1所示。
    的头像 发表于 01-25 16:52 324次阅读
    Harvard FairSeg:第一个用于医学<b class='flag-5'>分割</b>的公平性数据<b class='flag-5'>集</b>

    自动驾驶数据生成模型之WoVoGen框架原理

    生成多摄像头的街景视频对于增加自动驾驶数据至关重要,解决了对广泛而多样的数据的迫切需求。由于多样性的限制和处理光照条件的挑战,传统的基于渲染的方法越来越多的被基于扩散的方法所取代。
    发表于 01-25 15:26 337次阅读
    自动驾驶数据<b class='flag-5'>集</b>的<b class='flag-5'>生成</b>模型之WoVoGen框架原理

    语音数据:开启智能语音技术的新篇章

    。 一、语音数据的重要性 语音数据是智能语音技术的基石。通过收集大量的语音数据,可以训练出更加准确和高效的语音识别模型。同时,语音数据
    的头像 发表于 12-29 11:06 297次阅读

    语音数据:AI语音技术的灵魂

    提升语音识别生成能力:语音数据为AI模型提供了丰富的语音样本,通过训练和学习这些数据,AI可以更好地理解和模拟人类的语音特征,从而提高语音识别的准确性和语音
    的头像 发表于 12-14 14:33 523次阅读

    语音数据:推动AI语音技术的核心力量

    的发展趋势。 二、语音数据的重要性 提高语音识别生成能力:语音数据包含大量的语音样本,可以为模型提供充足的训练数据,从而提高语音识别
    的头像 发表于 12-12 11:32 399次阅读

    现代处理器的主要指令架构

    ​ ​现代处理器的主要指令架构(ISA)包括:x86指令架构、RISC指令架构。
    的头像 发表于 12-11 09:55 1742次阅读
    现代<b class='flag-5'>处理</b>器的主要指令<b class='flag-5'>集</b>架构

    大模型数据:力量的源泉,进步的阶梯

    的舞台 大模型数据如广袤的舞台,为AI技术的展现提供了广阔的空间。这些数据规模庞大,包容万象,它们是AI进步的基石。无论是自然语言处理、图像识别,还是语音合成,都离不开大模型数据
    的头像 发表于 12-07 17:18 428次阅读

    深度学习图像语义分割指标介绍

    深度学习在图像语义分割上已经取得了重大进展与明显的效果,产生了很多专注于图像语义分割的模型与基准数据,这些基准数据
    发表于 10-09 15:26 243次阅读
    深度学习图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b>指标介绍

    使用NIST统计测试验证STM32微控制器随机数生成

    电子发烧友网站提供《使用NIST统计测试验证STM32微控制器随机数生成.pdf》资料免费下载
    发表于 09-20 11:24 0次下载
    使用NIST统计测试<b class='flag-5'>集</b>验证STM32微控制器随机数<b class='flag-5'>生成</b>

    Yonghong Desktop端Excel 数据的优化

    优化,提升Excel 数据使用体验。赶快来试试看有没有你想要的功能吧。 01 Excel 数据支持同时上传多个文件,多个文件可以“合并为一个数据”,也可以“
    的头像 发表于 09-08 11:13 366次阅读
    Yonghong Desktop端Excel 数据<b class='flag-5'>集</b>的优化

    复旦开源LVOS:面向真实场景的长时视频目标分割数据

    现有的视频目标分割(VOS)数据主要关注于短时视频,平均时长在3-5秒左右,并且视频中的物体大部分时间都是可见的。然而在实际应用过程中,用户所需要分割的视频往往时长更长,并且目标物体常常会消失。现有的VOS数据
    的头像 发表于 09-04 16:33 669次阅读
    复旦开源LVOS:面向真实场景的长时视频目标<b class='flag-5'>分割</b>数据<b class='flag-5'>集</b>

    深度学习在医学图像分割与病变识别中的应用实战

    技术中,卷积神经网络(Convolutional Neural Networks, CNNs)在医学图像处理中得到了广泛应用。其能够自动从图像中学习到特征表示,从而在医学图像分割与病变识别任务中取得了
    发表于 09-04 11:11

    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

    Adapter Network (SAN)的新框架,用于基于预训练的视觉语言模型进行开放语义分割。该方法将语义分割任务建模为区域
    的头像 发表于 07-10 10:05 732次阅读
    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇<b class='flag-5'>语义</b><b class='flag-5'>分割</b>架构