Segment Anything又能分辨类别了：Meta/UTAustin提出全新开放类分割模型-电子发烧友网

前几日，Meta 推出了「分割一切」AI模型Segment Anything，令网友直呼 CV 不存在了？！而在另一篇被CVPR 2023 收录的论文中，Meta、UTAustin 联合提出了新的开放语言风格模型（open-vocabulary segmentation, OVSeg），它能让 Segment Anything 模型知道所要分隔的类别。

从效果上来看，OVSeg 可以与 Segment Anything 结合，完成细粒度的开放语言分割。比如下图 1 中识别花朵的种类：sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

即刻体验：https://huggingface.co/spaces/facebook/ov-seg

项目地址：https://jeff-liangf.github.io/projects/ovseg/

研究背景

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域，这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案，然后利用预训练的视觉-语言模型（例如 CLIP）对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型，因为它在掩膜图像上表现不佳。

为了解决这个问题，研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配，从而收集训练数据。与具有固定类别的更精确和手动注释的分割标签（例如 COCO-Stuff）相比，研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型进行微调之外，研究者还使用了被掩膜图像中的「空白」区域，使用了他们称之为掩膜提示微调的方法。

实验表明，掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进，并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时，研究者的最佳模型实现了 29.6％的 mIoU，比先前的最先进技术高出 8.5％。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配，而不需要特定于数据集的适应。

论文地址：https://arxiv.org/pdf/2210.04150.pdf

论文解读

动机

研究者的分析表明，预训练的 CLIP 在掩膜建议上表现不佳，成为两阶段方法的性能瓶颈。

CLIP 是使用很少的数据增强在自然图像上进行预训练的。

两阶段的开放词汇语义分割方法首先生成类别不可知的掩膜建议，然后利用预训练的 CLIP 进行开放词汇分类。CLIP 模型的输入是裁剪的掩膜图像，与自然图像存在巨大的领域差距。

我们的分析表明，预训练的 CLIP 在掩膜图像上表现不佳。

方法

研究者的模型包括一个分割模型（例如 MaskFormer）和一个 CLIP 模型。

他们首先训练修改后的 MaskFormer 作为开放词汇分割的基线（第 3.1 节），然后从图像标题中收集多样的掩膜-类别对（第 3.2 节），并适应 CLIP 用于掩膜图像（第 3.3 节）。

结果

研究者首次展示开放词汇的通用模型可以在没有数据集特定调整的情况下与受监督的专业模型的性能相匹配。

更多分类示例如下所示。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1084

浏览量
40461
AI

AI

+关注

关注
87

文章
30887

浏览量
269080
模型

模型

+关注

关注
1

文章
3243

浏览量
48838

原文标题：分割一切后，Segment Anything又能分辨类别了：Meta/UTAustin提出全新开放类分割模型

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

如何在SAM时代下打造高效的高性能计算大模型训练平台

Segment Anything Model (SAM)是Meta 公司最近推出的一个创新AI 模型，专门用于计算机视觉领域图像分割任务。借

发表于 08-21 04:02 •2266次阅读

如何在SAM时代下打造高效的高性能计算大<b class='flag-5'>模型</b>训练平台

基于像素聚类进行图像分割的算法

B型心脏超声图像分割是计算心功能参数前重要的一步。针对超声图像的低分辨率影响分割精度及基于模型的分割算法需要大样本训练集的问题，结合B型心脏

发表于 12-06 16:44 •0次下载

基于像素聚<b class='flag-5'>类</b>进行图像<b class='flag-5'>分割</b>的算法

通用AI大模型Segment Anything在医学影像分割的性能究竟如何？

为了全面评估分析SAM在医学影像分割上的表现，团队收集并标准化了52个公共数据集，最终整理构建了一个包含16种影像模态和68种生物医学领域分割目标（表1）的大型医学影像分割数据集COSMOS 553K，数据集的展示见图1，统计信

发表于 05-06 09:57 •1776次阅读

通用AI大<b class='flag-5'>模型</b><b class='flag-5'>Segment</b> <b class='flag-5'>Anything</b>在医学影像<b class='flag-5'>分割</b>的性能究竟如何？

AI+制造业：机器视觉开启掘金新大陆

4月6日，Meta官方博客宣布推出新AI模型 Segment Anything Model（SAM）分割一切

发表于 05-15 16:32 •1339次阅读

SAM分割模型是什么？

SAM是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同，SAM可以处理所有类型的图像。

发表于 05-20 09:30 •2253次阅读

近期分割大模型发展情况

SAM（Segment Anything Model）Meta 的 FAIR 实验室发布的一种最先进的图像分割模型，该

发表于 05-22 16:26 •878次阅读

近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>发展情况

Segment Anything量化加速有多强！

分割一切,大家一起失业！”——近期，这样一句话在社交媒体上大火！这讲的就是 Segment Anything Model（简称 “SAM” ）。

发表于 06-11 14:24 •1119次阅读

<b class='flag-5'>Segment</b> <b class='flag-5'>Anything</b>量化加速有多强！

分割一切？Segment Anything量化加速实战

SAM 是一个由 Meta AI 实验室推出的强大人工智能图像分割应用，可以自动识别哪些图像像素属于一个对象，并且对图像中各个对象进行自动风格处理，可广泛用于分析科学图像、编辑照片等。

发表于 06-16 16:47 •1060次阅读

<b class='flag-5'>分割</b>一切？<b class='flag-5'>Segment</b> <b class='flag-5'>Anything</b>量化加速实战

YOLOv8最新版本支持SAM分割一切

分割任何模型（Segment Anything Model - SAM）是一种突破性的图像分割模型

发表于 06-18 11:42 •1622次阅读

Meta开源I-JEPA，“类人”AI模型

Meta 宣布推出一个全新的 AI 模型 Image Joint Embedding Predictive Architecture (I-JEPA)，可通过对图像的自我监督学习来学习世界的抽象表征

发表于 06-18 17:47 •1088次阅读

基于 Transformer 的分割与检测方法

来源：机器之心 SAM （Segment Anything ）作为一个视觉的分割基础模型，在短短的 3 个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解 SAM 背后的技术，并

发表于 07-05 10:18 •995次阅读

ICCV 2023 | 超越SAM！EntitySeg：更少的数据，更高的分割质量

，需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量下都能够保持鲁棒性。为了解决这个问题，早在 SAM[6] 模型一年之前，一种不考虑类别的实体

发表于 10-02 10:40 •823次阅读

Meta发布全新开源大模型Llama 3.1

科技巨头Meta近期震撼发布了其最新的开源人工智能（AI）模型——Llama 3.1，这一举措标志着Meta在AI领域的又一重大突破。Meta创始人马克·扎克伯格亲自站台，盛赞Llam

发表于 07-24 18:25 •1440次阅读

Meta Llama 3.1系列模型可在Google Cloud上使用

我们很高兴宣布，Llama 3.1 系列模型已添加到 Vertex AI Model Garden，这包括全新的 405B，即 Meta 迄今为止功能最强大、用途最广泛的模型。这些

发表于 08-02 15:42 •395次阅读

Meta发布新AI模型Meta Motivo，旨在提升元宇宙体验

Meta公司近日宣布，将推出一款名为Meta Motivo的全新人工智能模型。该模型具备控制类似人类的数字代理动作的能力，有望为元宇宙的用户

发表于 12-16 10:34 •298次阅读

搜索历史

Segment Anything又能分辨类别了：Meta/UTAustin提出全新开放类分割模型

评论

如何在SAM时代下打造高效的高性能计算大模型训练平台

基于像素聚类进行图像分割的算法

通用AI大模型Segment Anything在医学影像分割的性能究竟如何？

AI+制造业：机器视觉开启掘金新大陆

SAM分割模型是什么？

近期分割大模型发展情况

Segment Anything量化加速有多强！

分割一切？Segment Anything量化加速实战

YOLOv8最新版本支持SAM分割一切

Meta开源I-JEPA，“类人”AI模型

基于 Transformer 的分割与检测方法

ICCV 2023 | 超越SAM！EntitySeg：更少的数据，更高的分割质量

Meta发布全新开源大模型Llama 3.1

Meta Llama 3.1系列模型可在Google Cloud上使用

Meta发布新AI模型Meta Motivo，旨在提升元宇宙体验