0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 2023-04-17 11:40 次阅读

前几日,Meta 推出了「分割一切」AI模型Segment Anything,令网友直呼 CV 不存在了?!而在另一篇被CVPR 2023 收录的论文中,Meta、UTAustin 联合提出了新的开放语言风格模型(open-vocabulary segmentation, OVSeg),它能让 Segment Anything 模型知道所要分隔的类别。

从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的开放语言分割。比如下图 1 中识别花朵的种类:sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

42988964-dc61-11ed-bfe3-dac502259ad0.jpg

即刻体验:https://huggingface.co/spaces/facebook/ov-seg

项目地址:https://jeff-liangf.github.io/projects/ovseg/

研究背景

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案,然后利用预训练的视觉-语言模型(例如 CLIP)对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型,因为它在掩膜图像上表现不佳。

为了解决这个问题,研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配,从而收集训练数据。与具有固定类别的更精确和手动注释的分割标签(例如 COCO-Stuff)相比,研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型进行微调之外,研究者还使用了被掩膜图像中的「空白」区域,使用了他们称之为掩膜提示微调的方法。

实验表明,掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进,并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时,研究者的最佳模型实现了 29.6%的 mIoU,比先前的最先进技术高出 8.5%。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配,而不需要特定于数据集的适应。

42cad0f4-dc61-11ed-bfe3-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2210.04150.pdf

论文解读

动机

研究者的分析表明,预训练的 CLIP 在掩膜建议上表现不佳,成为两阶段方法的性能瓶颈。

42d9c4e2-dc61-11ed-bfe3-dac502259ad0.png

CLIP 是使用很少的数据增强在自然图像上进行预训练的。

两阶段的开放词汇语义分割方法首先生成类别不可知的掩膜建议,然后利用预训练的 CLIP 进行开放词汇分类。CLIP 模型的输入是裁剪的掩膜图像,与自然图像存在巨大的领域差距。

我们的分析表明,预训练的 CLIP 在掩膜图像上表现不佳。

方法

研究者的模型包括一个分割模型(例如 MaskFormer)和一个 CLIP 模型。

42fbbe8a-dc61-11ed-bfe3-dac502259ad0.png

他们首先训练修改后的 MaskFormer 作为开放词汇分割的基线(第 3.1 节),然后从图像标题中收集多样的掩膜-类别对(第 3.2 节),并适应 CLIP 用于掩膜图像(第 3.3 节)。

结果

研究者首次展示开放词汇的通用模型可以在没有数据集特定调整的情况下与受监督的专业模型的性能相匹配。

432f4890-dc61-11ed-bfe3-dac502259ad0.png

更多分类示例如下所示。

435ced18-dc61-11ed-bfe3-dac502259ad0.jpg

438a02d0-dc61-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1071

    浏览量

    40129
  • AI
    AI
    +关注

    关注

    87

    文章

    27461

    浏览量

    265130
  • 模型
    +关注

    关注

    1

    文章

    2823

    浏览量

    48053

原文标题:分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AVX发布全新开放式边缘卡片连接器 专为LED微型条形灯设计

    近日,被动元件与连接器领先厂商AVX公司发布了全新开发式边缘卡片连接器,专门为LED条形照明灯设计的微型。该全新开放式边缘卡片连接器增加了插针数密度与减少已有9159系列连接器尺寸。
    发表于 04-27 10:23 1409次阅读

    如何在SAM时代下打造高效的高性能计算大模型训练平台

    Segment Anything Model (SAM)是Meta 公司最近推出的一个创新AI 模型,专门用于计算机视觉领域图像分割任务。借
    的头像 发表于 08-21 04:02 1468次阅读
    如何在SAM时代下打造高效的高性能计算大<b class='flag-5'>模型</b>训练平台

    【爱芯派 Pro 开发板试用体验】+ 图像分割和填充的Demo测试

    框架SAM 这个例子使用了Meta AI发布的图像识别和分割框架SAM(Segment Anything分割一切对象
    发表于 12-26 11:22

    结合遗传分割的多分辨率预测匹配算法

    【作者】:王燕妮;樊养余;【来源】:《小型微型计算机系统》2010年03期【摘要】:为了减小视频压缩算法的计算复杂度和提高恢复图像的准确性,提出一种新的多分辨率预测搜索匹配算法.利用遗传算法首先对视
    发表于 04-24 09:53

    AI分割一切——用OpenVINO™加速Meta SAM大模型

    物体分割是计算机视觉中的核心任务之一,旨在识别图像中属于特定对象的像素。通常实现图像分割的方法有两种,即交互式分割和自动分割。交互式分割可以
    的头像 发表于 04-23 11:16 1004次阅读
    AI<b class='flag-5'>分割</b>一切——用OpenVINO™加速<b class='flag-5'>Meta</b> SAM大<b class='flag-5'>模型</b>

    通用AI大模型Segment Anything在医学影像分割的性能究竟如何?

    为了全面评估分析SAM在医学影像分割上的表现,团队收集并标准化了52个公共数据集,最终整理构建了一个包含16种影像模态和68种生物医学领域分割目标(表1)的大型医学影像分割数据集COSMOS 553K,数据集的展示见图1,统计信
    的头像 发表于 05-06 09:57 1352次阅读
    通用AI大<b class='flag-5'>模型</b><b class='flag-5'>Segment</b> <b class='flag-5'>Anything</b>在医学影像<b class='flag-5'>分割</b>的性能究竟如何?

    AI+制造业:机器视觉开启掘金新大陆

    4月6日,Meta官方博客宣布推出新AI模型 Segment Anything Model(SAM)分割一切
    的头像 发表于 05-15 16:32 1190次阅读
    AI+制造业:机器视觉开启掘金新大陆

    近期分割模型发展情况

    SAM(Segment Anything Model)Meta 的 FAIR 实验室发布的一种最先进的图像分割模型,该
    的头像 发表于 05-22 16:26 616次阅读
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>发展情况

    Segment Anything量化加速有多强!

    分割一切,大家一起失业!”——近期,这样一句话在社交媒体上大火!这讲的就是 Segment Anything Model(简称 “SAM” )。
    的头像 发表于 06-11 14:24 844次阅读
    <b class='flag-5'>Segment</b> <b class='flag-5'>Anything</b>量化加速有多强!

    分割一切?Segment Anything量化加速实战

    SAM 是一个由 Meta AI 实验室推出的强大人工智能图像分割应用,可以自动识别哪些图像像素属于一个对象,并且对图像中各个对象进行自动风格处理,可广泛用于分析科学图像、编辑照片等。
    的头像 发表于 06-16 16:47 821次阅读
    <b class='flag-5'>分割</b>一切?<b class='flag-5'>Segment</b> <b class='flag-5'>Anything</b>量化加速实战

    YOLOv8最新版本支持SAM分割一切

    分割任何模型Segment Anything Model - SAM) 是一种突破性的图像分割模型
    的头像 发表于 06-18 11:42 1298次阅读
    YOLOv8最新版本支持SAM<b class='flag-5'>分割</b>一切

    中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

    通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务,⽤带实例分割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度实现了与SAM⽅法相当的性能,是⾸个实时分割⼀切的基础
    的头像 发表于 06-28 14:33 1357次阅读
    中科院<b class='flag-5'>提出</b>FastSAM快速<b class='flag-5'>分割</b>一切<b class='flag-5'>模型</b>!比<b class='flag-5'>Meta</b>原版提速50倍!

    基于 Transformer 的分割与检测方法

    来源:机器之心 SAM (Segment Anything )作为一个视觉的分割基础模型,在短短的 3 个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解 SAM 背后的技术,并
    的头像 发表于 07-05 10:18 622次阅读
    基于 Transformer 的<b class='flag-5'>分割</b>与检测方法

    ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量

    ,需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量下都能够保持鲁棒性。为了解决这个问题,早在 SAM[6] 模型一年之前,一种不考虑类别的实体
    的头像 发表于 10-02 10:40 589次阅读
    ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的<b class='flag-5'>分割</b>质量

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。
    的头像 发表于 04-23 09:52 230次阅读