0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 2023-04-17 11:40 次阅读

前几日,Meta 推出了「分割一切」AI模型Segment Anything,令网友直呼 CV 不存在了?!而在另一篇被CVPR 2023 收录的论文中,Meta、UTAustin 联合提出了新的开放语言风格模型(open-vocabulary segmentation, OVSeg),它能让 Segment Anything 模型知道所要分隔的类别。

从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的开放语言分割。比如下图 1 中识别花朵的种类:sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

42988964-dc61-11ed-bfe3-dac502259ad0.jpg

即刻体验:https://huggingface.co/spaces/facebook/ov-seg

项目地址:https://jeff-liangf.github.io/projects/ovseg/

研究背景

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案,然后利用预训练的视觉-语言模型(例如 CLIP)对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型,因为它在掩膜图像上表现不佳。

为了解决这个问题,研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配,从而收集训练数据。与具有固定类别的更精确和手动注释的分割标签(例如 COCO-Stuff)相比,研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型进行微调之外,研究者还使用了被掩膜图像中的「空白」区域,使用了他们称之为掩膜提示微调的方法。

实验表明,掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进,并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时,研究者的最佳模型实现了 29.6%的 mIoU,比先前的最先进技术高出 8.5%。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配,而不需要特定于数据集的适应。

42cad0f4-dc61-11ed-bfe3-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2210.04150.pdf

论文解读

动机

研究者的分析表明,预训练的 CLIP 在掩膜建议上表现不佳,成为两阶段方法的性能瓶颈。

42d9c4e2-dc61-11ed-bfe3-dac502259ad0.png

CLIP 是使用很少的数据增强在自然图像上进行预训练的。

两阶段的开放词汇语义分割方法首先生成类别不可知的掩膜建议,然后利用预训练的 CLIP 进行开放词汇分类。CLIP 模型的输入是裁剪的掩膜图像,与自然图像存在巨大的领域差距。

我们的分析表明,预训练的 CLIP 在掩膜图像上表现不佳。

方法

研究者的模型包括一个分割模型(例如 MaskFormer)和一个 CLIP 模型。

42fbbe8a-dc61-11ed-bfe3-dac502259ad0.png

他们首先训练修改后的 MaskFormer 作为开放词汇分割的基线(第 3.1 节),然后从图像标题中收集多样的掩膜-类别对(第 3.2 节),并适应 CLIP 用于掩膜图像(第 3.3 节)。

结果

研究者首次展示开放词汇的通用模型可以在没有数据集特定调整的情况下与受监督的专业模型的性能相匹配。

432f4890-dc61-11ed-bfe3-dac502259ad0.png

更多分类示例如下所示。

435ced18-dc61-11ed-bfe3-dac502259ad0.jpg

438a02d0-dc61-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1083

    浏览量

    40417
  • AI
    AI
    +关注

    关注

    87

    文章

    30146

    浏览量

    268411
  • 模型
    +关注

    关注

    1

    文章

    3172

    浏览量

    48713

原文标题:分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何在SAM时代下打造高效的高性能计算大模型训练平台

    Segment Anything Model (SAM)是Meta 公司最近推出的一个创新AI 模型,专门用于计算机视觉领域图像分割任务。借
    的头像 发表于 08-21 04:02 1761次阅读
    如何在SAM时代下打造高效的高性能计算大<b class='flag-5'>模型</b>训练平台

    基于像素聚进行图像分割的算法

    B型心脏超声图像分割是计算心功能参数前重要的一步。针对超声图像的低分辨率影响分割精度及基于模型分割算法需要大样本训练集的问题,结合B型心脏
    发表于 12-06 16:44 0次下载
    基于像素聚<b class='flag-5'>类</b>进行图像<b class='flag-5'>分割</b>的算法

    通用AI大模型Segment Anything在医学影像分割的性能究竟如何?

    为了全面评估分析SAM在医学影像分割上的表现,团队收集并标准化了52个公共数据集,最终整理构建了一个包含16种影像模态和68种生物医学领域分割目标(表1)的大型医学影像分割数据集COSMOS 553K,数据集的展示见图1,统计信
    的头像 发表于 05-06 09:57 1707次阅读
    通用AI大<b class='flag-5'>模型</b><b class='flag-5'>Segment</b> <b class='flag-5'>Anything</b>在医学影像<b class='flag-5'>分割</b>的性能究竟如何?

    AI+制造业:机器视觉开启掘金新大陆

    4月6日,Meta官方博客宣布推出新AI模型 Segment Anything Model(SAM)分割一切
    的头像 发表于 05-15 16:32 1314次阅读
    AI+制造业:机器视觉开启掘金新大陆

    SAM分割模型是什么?

    SAM是一处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。
    的头像 发表于 05-20 09:30 2204次阅读

    近期分割模型发展情况

    SAM(Segment Anything Model)Meta 的 FAIR 实验室发布的一种最先进的图像分割模型,该
    的头像 发表于 05-22 16:26 837次阅读
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>发展情况

    Segment Anything量化加速有多强!

    分割一切,大家一起失业!”——近期,这样一句话在社交媒体上大火!这讲的就是 Segment Anything Model(简称 “SAM” )。
    的头像 发表于 06-11 14:24 1072次阅读
    <b class='flag-5'>Segment</b> <b class='flag-5'>Anything</b>量化加速有多强!

    分割一切?Segment Anything量化加速实战

    SAM 是一个由 Meta AI 实验室推出的强大人工智能图像分割应用,可以自动识别哪些图像像素属于一个对象,并且对图像中各个对象进行自动风格处理,可广泛用于分析科学图像、编辑照片等。
    的头像 发表于 06-16 16:47 1026次阅读
    <b class='flag-5'>分割</b>一切?<b class='flag-5'>Segment</b> <b class='flag-5'>Anything</b>量化加速实战

    YOLOv8最新版本支持SAM分割一切

    分割任何模型Segment Anything Model - SAM) 是一种突破性的图像分割模型
    的头像 发表于 06-18 11:42 1573次阅读
    YOLOv8最新版本支持SAM<b class='flag-5'>分割</b>一切

    Meta开源I-JEPA,“人”AI模型

    Meta 宣布推出一个全新的 AI 模型 Image Joint Embedding Predictive Architecture (I-JEPA),可通过对图像的自我监督学习来学习世界的抽象表征
    的头像 发表于 06-18 17:47 1064次阅读
    <b class='flag-5'>Meta</b>开源I-JEPA,“<b class='flag-5'>类</b>人”AI<b class='flag-5'>模型</b>

    基于AX650N部署视觉大模型DINOv2

    最近一段时间,基于Transformer网络结构的视觉大模型呈现出爆发式增长,继Segment Anything(SAM)之后,Meta AI再次发布重量级开源项目——DINOv2。D
    的头像 发表于 06-30 10:07 2820次阅读

    基于 Transformer 的分割与检测方法

    来源:机器之心 SAM (Segment Anything )作为一个视觉的分割基础模型,在短短的 3 个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解 SAM 背后的技术,并
    的头像 发表于 07-05 10:18 924次阅读
    基于 Transformer 的<b class='flag-5'>分割</b>与检测方法

    ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量

    ,需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量下都能够保持鲁棒性。为了解决这个问题,早在 SAM[6] 模型一年之前,一种不考虑类别的实体
    的头像 发表于 10-02 10:40 765次阅读
    ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的<b class='flag-5'>分割</b>质量

    Meta发布全新开源大模型Llama 3.1

    科技巨头Meta近期震撼发布了其最新的开源人工智能(AI)模型——Llama 3.1,这一举措标志着Meta在AI领域的又一重大突破。Meta创始人马克·扎克伯格亲自站台,盛赞Llam
    的头像 发表于 07-24 18:25 1398次阅读

    Meta Llama 3.1系列模型可在Google Cloud上使用

    我们很高兴宣布,Llama 3.1 系列模型已添加到 Vertex AI Model Garden,这包括全新的 405B,即 Meta 迄今为止功能最强大、用途最广泛的模型。这些
    的头像 发表于 08-02 15:42 354次阅读