0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

涨点!FreeMask:用密集标注的合成图像提升分割模型性能

CVer 来源:CVer 2023-11-01 16:09 次阅读

在这里分享一下我们NeurIPS 2023的工作"FreeMask: Synthetic Images with Dense Annotations Make Stronger Segmentation Models"。在本工作中,我们从语义分割的mask产生大量的合成图像,并利用这些合成的训练图像以及他们对应的mask提升在全量真实数据上训练的语义分割模型的性能, e.g., 在ADE20K上,可以将Mask2Former-Swin-T从48.7提升至52.0(+3.3 mIoU)。

583392b0-7882-11ee-939d-92fbcf53809c.png

代码:github.com/LiheYoung/FreeMask 论文:https://arxiv.org/abs/2310.15160

在上面的repo中我们也提供了处理过后的ADE20K-Synthetic数据集(包含ADE20K的20倍的训练图像)和COCO-Synthetic数据集(包含COCO-Stuff-164K的6倍的训练图像),以及结合合成数据训练后更好的Mask2Former、SegFormer、Segmenter模型的checkpoints。

TL;DR

不同于以往的一些工作利用合成数据提升few-shot performance(只用少量的真实数据),我们希望利用合成数据直接提升fully-supervised performance(用全量的真实数据),这更有挑战性。

我们利用semantic image synthesis模型来从semantic mask产生diverse的合成图像。然而,直接将这些合成图像加入训练,其实并不能提升real-image baseline,反而会损害性能。

因此,我们设计了一个noise filtering策略以及一个image re-sampling策略来更有效地学习合成数据,最终在ADE20K(20,210张真实图像)和COCO-Stuff(164K张真实图像)的各种模型上都能取得提升。此外,我们发现结合我们的策略后,只利用合成数据也可以取得和真实数据comparable的效果。

Take-home Messages

在全量真实数据的基础上,有效地利用合成数据并不容易,需要生成模型足够好以及设计合适的学习合成数据策略。

在初始阶段我们尝试了多个GAN-based从mask生成image的模型 (e.g., OASIS[1]),尽管他们的FID指标还不错,但迁移到真实数据集上的表现很差(这里的迁移性能,指在合成数据集上训练但在真实验证集上测试,ADE20K上的mIoU只有~30%)。

基于Stable Diffusion的mask-to-image synthesis model是更好的选择,如FreestyleNet[2]。

在生成质量比较高以及筛选策略比较合理的情况下,joint train合成数据和真实数据会优于先用合成数据pre-train再用真实数据fine-tune的效果。

Introduction

584a7c50-7882-11ee-939d-92fbcf53809c.png

FreestyleNet基于semantic mask产生的合成图像,非常diverse以及逼真

Stable Diffusion (SD)等模型已经取得了非常好的text-to-image生成效果,过去一年里,semantic image synthesis领域的工作也开始结合SD的预训练来从semantic mask生成对应的image。其中,我们发现FreestyleNet[2]的生成效果非常好,如上图所示。因此,我们希望用这些合成图像以及他们condition on的semantic mask组成新的合成训练样本对,加入到原有的真实训练集中,进一步提升模型的性能。

简单的失败尝试

我们首先检查了这些合成图像到真实图像的迁移性能,即用合成图像训练但在真实图像的验证集上测试。我们用SegFormer-B4在真实图像上训练可以取得48.5的测试mIoU,然而用比真实训练集大20倍的合成数据训练后,只得到了43.3 mIoU。此外,我们也尝试混合真实数据和合成数据(会对真实数据上采样到和合成数据一样多,因为其质量更高),然而也只取得了48.2 mIoU,依然落后于仅用真实图像训练的结果。

因此,我们希望能更有效地从这些合成数据中进行学习。

Motivation

由于上述合成数据的结果并不好,我们更仔细地观察了一下合成数据集,发现其中存在着很多合成错误的区域,如下图所示的红色框区域。这些合成错误的区域加入到训练集中后会严重损害模型的性能。

5859cfe8-7882-11ee-939d-92fbcf53809c.png

红色框内的合成结果是错误的

此外,不同的semantic mask对应着不同的场景,不同的场景的学习难度其实是不一样的,因此它们所需的合成训练图像的数量也是不一样的。如下图所示,大体上来看,从左至右semantic mask对应的场景的难度是逐渐增加的,如果对每张mask产生同样数量的合成图像去学习的话,那么这些简单的mask对应的图像就可能会主导模型的学习,模型的学习效率就会很低。

586e2e66-7882-11ee-939d-92fbcf53809c.png

不同的semantic mask对应的场景的难度是不一样的,大体上来看,从左至右难度逐渐增加

Method

5876431c-7882-11ee-939d-92fbcf53809c.png

有了上述的两个motivation,具体的做法是非常简单的。

Filtering Noisy Synthetic Regions

针对第一点motivation,我们设计了一个noise filtering的策略,来忽略掉合成错误的区域。具体来说,我们利用一个在真实图像上训练好的模型去计算每张合成图像和它对应的semantic mask之间的pixel-wise loss,直观来看,合成错误的区域 (pixels)会呈现比较大的loss。此外,loss的大小也跟不同类别本身的难度有关。

58949b14-7882-11ee-939d-92fbcf53809c.png

Hardness-aware Re-sampling

针对第二点motivation,我们设计了一个hardness-aware re-sampling策略,来让我们的数据合成以及训练更加偏向比较难的场景 (semantic mask),如下图所示。

58a42390-7882-11ee-939d-92fbcf53809c.png

为harder的semantic mask产生更多的合成图像,而减少简单的mask的合成图像

58b0980a-7882-11ee-939d-92fbcf53809c.png

Learning Paradigms

我们探讨了两种从合成图像中进行学习的范式,分别是:

Pre-training: 用合成图像pre-training,然后用真实图像进一步fine-tuning

Joint training: 混合真实图像和合成图像(会对真实图像上采样到与合成图像同样的数量)一起训练

简单来说,我们发现在生成质量比较高以及筛选策略比较合理的情况下,joint training的表现会更好一些。

Experiment

对比合成图像和真实图像迁移到真实测试集的性能

58c69be6-7882-11ee-939d-92fbcf53809c.png

用真实图像或合成图像进行训练,并在真实验证集上测试

可以看到,在多种模型上,用合成图像迁移到真实验证集都可以取得和真实训练集comparable的效果。

用合成图像进一步提升全监督的分割模型性能

Joint training on ADE20K

58d35926-7882-11ee-939d-92fbcf53809c.png

当加入了合成数据后,真实图像的全监督性能获得了显著的提升,特别是对于Mask2Former-Swin-T,我们将mIoU从48.7提升至了52.0(+3.3);对于SegFormer-B4,从48.5提升至了50.6 (+2.1)。

Joint training on COCO-Stuff-164K

58e92832-7882-11ee-939d-92fbcf53809c.png

COCO-Stuff-164K由于原本的真实数据量很大,所以更难提升,但我们在Mask2Former-Swi-T上仍然取得了+1.9 mIoU的提升。

Pre-training with synthetic images on ADE20K

58f10cbe-7882-11ee-939d-92fbcf53809c.png

Ablation Studies

我们的noise filtering和hardness-aware re-sampling的必要性

5939d552-7882-11ee-939d-92fbcf53809c.png

在没有filtering和re-sampling的情况下,FreestyleNet产生的合成图像在ADE20K和COCO的真实集上只能得到43.3和48.0的迁移性能,远远劣于真实训练图像的迁移性能(ADE20K: 48.5和COCO: 50.5),而应用我们的策略后,纯合成图像的迁移性能可以提升至48.3 (ADE20K)和49.3 (COCO),十分接近真实训练图像的表现。

5948279c-7882-11ee-939d-92fbcf53809c.png

在joint training下,我们的两项策略也是十分有效的,如果没有这两个策略,混合合成图像和真实图像只能取得48.2的mIoU (真实图像:48.5),而加入我们的策略后,可以将真实图像48.5的baseline提升至50.6。

合成图像的数量

594f78c6-7882-11ee-939d-92fbcf53809c.png

Nmax 控制单张mask最多产生多少张合成图像,在没有filtering和re-sampling的情况下,增加合成图像的数量反而带来了更差的迁移性能;而在经过filtering和re-sampling后,Nmax从6增加到20可以带来稳定的迁移性能的提升。

更多的ablation studies请参考我们的文章。

Conclusion

在本工作中,我们通过从semantic mask产生合成图像,组成大量的合成训练数据对,在ADE20K和COCO-Stuff-164K上显著提升了多种语义分割模型在全监督设定下的性能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7077

    浏览量

    89158
  • 图像
    +关注

    关注

    2

    文章

    1086

    浏览量

    40496
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24730

原文标题:NeurIPS 2023 | 涨点!FreeMask:用密集标注的合成图像提升分割模型性能

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI自动图像标注工具SpeedDP将是数据标注行业发展的重要引擎

    利用AI模型训练打造的深度学习算法开发平台SpeedDP,就可以替代人工进行海量的图像数据标注。相比于人工,SpeedDP具有多个优势。更快熟练的人工标注一张简单
    的头像 发表于 01-02 17:53 121次阅读
    AI自动<b class='flag-5'>图像</b><b class='flag-5'>标注</b>工具SpeedDP将是数据<b class='flag-5'>标注</b>行业发展的重要引擎

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    某些类型模型的训练过程。 保留稀疏激活:与ReLU类似,Leaky ReLU仍然能够促进稀疏激活,这对模型的学习是有利的。 缺点: 性能提升有限:尽管Leaky ReLU解决了ReLU
    发表于 12-19 14:33

    语义分割25种损失函数综述和展望

    语义图像分割,即将图像中的每个像素分类到特定的类别中,是许多视觉理解系统中的重要组成部分。作为评估统计模型性能的主要标准,损失函数对于塑造基
    的头像 发表于 10-22 08:04 644次阅读
    语义<b class='flag-5'>分割</b>25种损失函数综述和展望

    图像语义分割的实用性是什么

    什么是图像语义分割 图像语义分割是一种将图像中的所有像素点按照其语义类别进行分类的任务。与传统的图像
    的头像 发表于 07-17 09:56 453次阅读

    图像分割和语义分割的区别与联系

    图像分割和语义分割是计算机视觉领域中两个重要的概念,它们在图像处理和分析中发挥着关键作用。 1. 图像
    的头像 发表于 07-17 09:55 1042次阅读

    图像分割与目标检测的区别是什么

    图像分割与目标检测是计算机视觉领域的两个重要任务,它们在许多应用场景中都发挥着关键作用。然而,尽管它们在某些方面有相似之处,但它们的目标、方法和应用场景有很大的不同。本文将介绍图像分割
    的头像 发表于 07-17 09:53 1388次阅读

    图像识别算法的提升有哪些

    引言 图像识别是计算机视觉领域的核心任务之一,旨在使计算机能够自动地识别和理解图像中的内容。随着计算机硬件的发展和深度学习技术的突破,图像识别算法的性能得到了显著
    的头像 发表于 07-16 11:12 668次阅读

    图像分割与语义分割中的CNN模型综述

    图像分割与语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型
    的头像 发表于 07-09 11:51 986次阅读

    机器人视觉技术中常见的图像分割方法

    机器人视觉技术中的图像分割方法是一个广泛且深入的研究领域。图像分割是将图像划分为多个区域或对象的过程,这些区域或对象具有某种共同的特征,如颜
    的头像 发表于 07-09 09:31 761次阅读

    机器人视觉技术中图像分割方法有哪些

    机器人视觉技术是人工智能领域的一个重要分支,它涉及到图像处理、模式识别、机器学习等多个学科。图像分割是机器人视觉技术中的一个重要环节,它的目标是从一幅图像中将目标物体与背景分离出来,以
    的头像 发表于 07-04 11:34 1038次阅读

    慧视SpeedDP大模型打造图像标注新时代

    在人工智能时代,图像标注不仅能够反哺AI的发展,还能进一步降低项目成本。传统的图像标注需要人工采用文本或者相应工具机械式的进行图像标签分配,
    的头像 发表于 05-24 08:29 576次阅读
    慧视SpeedDP大<b class='flag-5'>模型</b>打造<b class='flag-5'>图像</b><b class='flag-5'>标注</b>新时代

    谷歌模型合成软件有哪些

    谷歌模型合成软件通常指的是谷歌提供的用于创建、修改和共享3D模型的软件。目前,谷歌推出的模型合成软件中最知名的是Google SketchU
    的头像 发表于 02-29 18:20 1412次阅读

    谷歌模型合成工具怎么

    谷歌模型合成工具主要是指Dreamfusion,这是Google的大型AI图像模型Imagen与NeRF的3D功能相结合的一种技术。Dreamfusion是Dream Fields的演
    的头像 发表于 02-29 17:33 821次阅读

    谷歌发布基础世界模型Genie,世界模型领域竞争升温

    继OpenAI和Meta之后,谷歌也在世界模型领域公布了其最新进展。据谷歌官网介绍,Genie是一个基于互联网视频训练的基础世界模型,能够从合成图像、照片、草图等多种来源生成多种动作可控的环境。
    的头像 发表于 02-28 18:20 1442次阅读

    改进棉花根系图像分割方法

    棉花是锦葵科棉属植物,棉花生产的纤维是我国各类衣服、家具布和工业用布的材料,目前我国的棉花产量也非常高,主要以新疆地区为主。根系是植物组成的重要部分,其生长发育至关重要。 根系图像分割是根系表型分析
    的头像 发表于 01-18 16:18 308次阅读