0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Discrete Diffusion的模型不可知分割细化

jf_pmFSk4VX 来源:GiantPandaCV 2024-01-19 15:14 次阅读

这次这篇文章介绍一篇很有意思的工作:SegRefiner,来自 NeurIPS, 2023,目前代码已开源。

SegRefiner 提出一种新的的任务解释,将分割细化视为一个数据生成过程。因此,细化可以通过一系列去噪扩散步骤来实现,其中 Coarse Mask 是 Ground Truth 的噪声版本。此外,为了处理二值掩模,进一步设计了一种新颖的离散扩散过程,在该过程中,每个像素执行单向随机状态转换。所提出的过程可以在训练期间逐渐将 Ground Truth 转换为 Coarse Mask,并在推理期间使用 Coarse Mask 作为采样起点。换句话说,SegRefiner 将掩模细化任务表述为一个条件生成问题,其中输入图像(指原图)作为条件,用于迭代更新/细化 Coarse Mask 中的错误预测。

SegRefiner 是模型不可知的,因此适用于不同的分割模型和任务。SegRefiner 验证的任务包括:语义分割,实例分割和二分图像分割。

相关工作

分割细化的目标是提高现有分割模型中掩模的质量。一些工作专注于增强特定的分割模型。还有一些模型不可知方法的细化方法,这些策略强调使用多种形式的输入,包括整个图像、边界补丁和边缘条带等。尽管这些技术可以细化来自不同模型的粗糙掩模,但它们的适用性仍然局限于特定的分割任务。

扩散模型在检测和分割任务中的应用也成为越来越多研究的焦点,这些研究主要遵循 DDPM 的高斯扩散过程,并利用额外的图像编码器来提取图像特征作为生成掩模的条件。SegRefiner 是第一个将扩散模型应用于图像分割细化任务的工作,它还在基于扩散的分割任务中首次放弃连续的高斯假设,转而采用新设计的离散扩散过程。

Forward diffusion process

在介绍前向过程之前,先看一下整体框架的实现:

158fc404-b2e0-11ee-8b88-92fbcf53809c.png请添加图片描述

右侧是提出的 transition sample 模块,它基于输入状态转换概率从当前掩模中随机采样像素,并改变它们的值以匹配目标掩模中的值(也就是完成我们在引言中提到的“每个像素执行单向随机状态转换”)。看这张框架图的时候,注意区分不同 pipeline 的颜色区分,这里吐槽一下,我第一看 transition sample 没有清楚的看到三种输入。

在训练期间,转换样本模块将 Ground Truth 转换为 Coarse Mask,因此 Coarse Mask 是目标掩模。在推理过程中,目标掩模指的是预测的细致掩模,这个模块根据预测的细致掩模和转换概率在每个时间步中更新 Coarse Mask 中的值。

接下来仔细介绍下前向过程:

这种方法涉及将一个精细的 mask 逐渐转变为一个更粗糙的 mask,包含以下关键要素:

起始状态 (mo):与 ground truth 的精细 mask 相对应。

目标状态 (mr):一个粗糙的 mask。

中间状态 (mt):随着时间步 t 的增加,逐渐从 mo 向 mr 演变的中间状态。

转移采样模块

引入了“转移采样”模块,该模块负责根据当前 mask mt、粗 mask mr 以及状态转移概率来进行状态的转移。状态的转移是单向的,保证了最终会收敛到粗糙 mask mr。

参数技巧

此外,SegRefiner 还提到了重参数技巧(reparameterization trick),通过引入二元随机变量 x 来描述这一过程。该过程允许直接获取任何中间时间步的 mask mt,而无需逐步采样。具体表述为:

定义 x 表示为一个 one-hot 向量,表示中间掩模 mt 中像素 (i, j) 的状态。

设置 xi = [1, 0] 和 xi = [0, 1] 分别表示精细状态和粗糙状态。

因此,前向过程可以表示为公式:

where

为超参数,而 对应了上述的状态转移概率。状态转移矩阵 的边缘分布可以表示为:

整体上还是遵循 DDPM,但是引入 二元随机变量 x 。

Reverse diffusion process

将粗糙 mask mr 逐渐修正为精细 mask mo。

由于此时精细 mask mo 和状态转移概率未知,对照着 SegRefiner 框架图来看,训练一个神经网络 来预测精细 ,表示为:

其中 I 是相应的图像。

和 分别表示预测的精细 mask 和其置信度分数。相应的, 可视作 中每个像素处于“精细状态”的概率。

反向状态转移概率

根据前向过程的设定和贝叶斯定理,延续 DDPM 的方法,我们可以由前向过程的后验概率和预测的 得到反向过程的概率分布,表示为:

where

其中 为反向过程的状态转移概率。

迭代修正过程

给定粗糙 mask mr 以及相应的图像 I,首先将所有像素初始化为粗糙状态 xi = [1, 0]。通过不断迭代地状态转移,逐渐修正 m_T 中的预测值。

推理过程

给定一个粗糙的掩模和其对应的图像,我们首先初始化所有像素为粗糙状态。我们在以下步骤之间迭代:

前向过程:以获取 和 。

计算反向状态转移矩阵: 并得到 。

计算精细化的掩模:基于 , 和 计算精细化的掩模 。

这个过程(1)-(3)迭代进行,直到获得精细的掩模。

实验

分别训练了 LR-SegRefiner 和 HR-SegRefiner,数据集和具体的 settings 在上 。

定性对比其他方法,觉得对比 U-Net 和 ISNet 的效果的确很明显。

总结

SegRefiner 是首个基于扩散的图像分割细化方法,采用了离散扩散过程。SegRefiner 执行模型不可知的分割细化,并在各种分割任务的细化中取得了强有力的实证结果。虽然它在准确度上取得了显著的提升,但其局限性在于扩散过程由于多步迭代策略而导致推理速度变慢。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3039

    浏览量

    41829
  • 模型
    +关注

    关注

    1

    文章

    2822

    浏览量

    48038
  • 代码
    +关注

    关注

    30

    文章

    4596

    浏览量

    67327

原文标题:基于 Discrete Diffusion 的模型不可知分割细化

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    异构信号驱动下小样本跨域轴承故障诊断的GMAML算法

    论文提出了一种通用的模型不可知元学习(GMAML)方法,用于在异质信号驱动的不同工况下,进行轴承的少样本故障诊断。
    的头像 发表于 12-06 15:07 681次阅读
    异构信号驱动下小样本跨域轴承故障诊断的GMAML算法

    使用全卷积网络模型实现图像分割

    OpenCv-C++-深度神经网络(DNN)模块-使用FCN模型实现图像分割
    发表于 05-28 07:33

    基于多尺度局部特征的图像分割模型_李军

    基于多尺度局部特征的图像分割模型_李军
    发表于 03-19 19:19 0次下载

    基于三维模型球型分割的信息隐藏算法

    对于基于三维模型信息隐藏算法在几何攻击中鲁棒性差的问题,提出一种基于三维模型球型分割的信息隐藏算法。首先,利用主元分析、球面坐标转换、球型分割、分区排序等对三维
    发表于 11-28 11:10 0次下载

    物联网对保险业的影响

    总之,来自设备的所有数据将让企业有能力了解以前“未知”或 “不可知”的东西。典型的“未知”应该包括电表读数,典型的“不可知”应该是某人的驾驶风格。这个名单还在继续,可以达到210亿!
    发表于 07-16 09:24 3690次阅读

    电磁屏蔽知识,必不可知!

    电磁屏蔽一般可分为三种:静电屏蔽、静磁屏蔽和高频电磁场屏蔽。三种屏蔽的目的都是防止外界的电磁场进入到某个需要保护的区域中,原理都是利用屏蔽对外场的感应产生的效应来抵消外场的影响。但是由于所要屏蔽的场的特性不同,因而对屏蔽壳材料的要求和屏蔽效果也就不相同。 一、 静电屏蔽 静电屏蔽的目的是防止外界的静电场进入需要保护的某个区域。静电屏蔽依据的原理是:在外界静电场的作用下导体表面电荷将重新分布,直到导体内部
    的头像 发表于 10-30 18:43 1354次阅读

    基于遥感数据的海岛边界快速分割模型

    基于遥感数据的海岛边界快速分割模型
    发表于 06-11 15:32 4次下载

    关于宽禁带生态系统的仿真模型验证

      满足客户多样化的仿真平台需求对我们很重要。因此,SPICE不可知论的方法至关重要。不可知论法意思是在行业标准仿真软件中只使用最小公分母结构,避免依赖仿真器的专有方案。
    的头像 发表于 05-09 14:43 561次阅读
    关于宽禁带生态系统的仿真<b class='flag-5'>模型</b>验证

    基于深度学习下的稳定学习究竟是什么?因果学习?迁移学习?

    稳定学习不是单纯地对观测到的训练数据进行拟合,而是试图在非平稳和不可知的测试数据下学习一个性能一致的良好模型
    的头像 发表于 12-29 13:30 495次阅读

    使用OpenVINO™在算力魔方上加速stable diffusion模型

    Stable Diffusion 是 stability.ai 开源的 AI 图像生成模型,实现输入文字,生成图像的功能。Stable Diffusion 将 AI 图像生成提升到了全新高度,将引发媒体创作领域的革命。
    的头像 发表于 05-12 09:10 1119次阅读
    使用OpenVINO™在算力魔方上加速stable <b class='flag-5'>diffusion</b><b class='flag-5'>模型</b>

    SAM分割模型是什么?

    SAM是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。
    的头像 发表于 05-20 09:30 1813次阅读

    近期分割模型发展情况

    SAM(Segment Anything Model)Meta 的 FAIR 实验室发布的一种最先进的图像分割模型,该模型将自然语言处理领域的prompt范式引入计算机视觉领域,可以通过点击、框选和自动识别三种交互方式,实现精准
    的头像 发表于 05-22 16:26 613次阅读
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>发展情况

    优化 Stable Diffusion 在 GKE 上的启动体验

    Diffusion 等应运而生。Stable Diffusion 是一个文字生成图像的 Diffusion 模型,它能够根据给定任何文本输入生成逼真的图像。我们在 GitHub Re
    的头像 发表于 06-03 08:35 647次阅读

    iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了

    近日,Snap 研究院推出最新高性能 Stable Diffusion 模型,通过对网络结构、训练流程、损失函数全方位进行优化,在 iPhone 14 Pro 上实现 2 秒出图(512x512
    的头像 发表于 06-12 15:25 596次阅读
    iPhone两秒出图,目前已知的最快移动端Stable <b class='flag-5'>Diffusion</b><b class='flag-5'>模型</b>来了

    CLE Diffusion:可控光照增强扩散模型

    本文提出了新型的可控光照增强框架,主要采用了条件扩散模型来控制任意区域的任意亮度增强。通过亮度控制模块(Brightness Control Module)将亮度信息信息融入Diffusion网络中,并且设计了和任务适配的条件控制信息和损失函数来增强
    的头像 发表于 09-11 17:20 581次阅读
    CLE <b class='flag-5'>Diffusion</b>:可控光照增强扩散<b class='flag-5'>模型</b>