通用视觉GPT时刻来临？智源推出通用分割模型SegGPT-电子发烧友网

ChatGPT 引发了语言大模型狂潮，AI 另一个重大领域 —— 视觉 —— 的 GPT 时刻何时到来？

前两天，机器之心介绍了Meta 最新研究成果Segment Anything Model (SAM)。该研究引起了AI社区广泛讨论。

而据我们所知，几乎同一时间，智源研究院视觉团队也推出通用分割模型 SegGPT（Segment Everything In Context）—— 利用视觉提示（prompt）完成任意分割任务的通用视觉模型。

论文地址：https://arxiv.org/abs/2304.03284

代码地址：https://github.com/baaivision/Painter

Demo：https://huggingface.co/spaces/BAAI/SegGPT

SegGPT 与 Meta AI 图像分割基础模型 SAM 同时发布，两者的差异在于：

SegGPT “一通百通”：给出一个或几个示例图像和意图掩码，模型就能 get 用户意图，“有样学样” 地完成类似分割任务。用户在画面上标注识别一类物体，即可批量化识别分割同类物体，无论是在当前画面还是其他画面或视频环境中。

SAM “一触即通”：通过一个点或边界框，在待预测图片上给出交互提示，识别分割画面上的指定物体。

无论是 “一触即通” 还是 “一通百通”，都意味着视觉模型已经 “理解” 了图像结构。SAM 精细标注能力与 SegGPT 的通用分割标注能力相结合，能把任意图像从像素阵列解析为视觉结构单元，像生物视觉那样理解任意场景，通用视觉 GPT 曙光乍现。

SegGPT 是智源通用视觉模型 Painter（CVPR 2023）的衍生模型，针对分割一切物体的目标做出优化。SegGPT 训练完成后无需微调，只需提供示例即可自动推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

该模型具有以下优势能力：

1. 通用能力：SegGPT 具有上下文推理能力，模型能够根据提供的分割示例（prompt），对预测进行自适应的调整，实现对 “everything” 的分割，包括实例、类别、零部件、轮廓、文本、人脸、医学图像、遥感图像等。

2. 灵活推理能力：支持任意数量的 prompt；支持针对特定场景的 tuned prompt；可以用不同颜色的 mask 表示不同目标，实现并行分割推理。

3. 自动视频分割和追踪能力：以第一帧图像和对应的物体掩码作为上下文示例，SegGPT 能够自动对后续视频帧进行分割，并且可以用掩码的颜色作为物体的 ID，实现自动追踪。

案例展示

1. 作者在广泛的任务上对 SegGPT 进行了评估，包括少样本语义分割、视频对象分割、语义分割和全景分割。下图中具体展示了 SegGPT 在实例、类别、零部件、轮廓、文本和任意形状物体上的分割结果。

2. 标注出一个画面中的彩虹（上图），可批量化分割其他画面中的彩虹（下图）

3. 用画笔大致圈出行星环带（上图），在预测图中准确输出目标图像中的行星环带（下图）。

4. SegGPT 能够根据用户提供的宇航员头盔掩码这一上下文（左图），在新的图片中预测出对应的宇航员头盔区域（右图）。

训练方法

SegGPT 将不同的分割任务统一到一个通用的上下文学习框架中，通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。

具体来说，SegGPT 的训练被定义为一个上下文着色问题，对于每个数据样本都有随机的颜色映射。目标是根据上下文完成各种任务，而不是依赖于特定的颜色。训练后，SegGPT 可以通过上下文推理在图像或视频中执行任意分割任务，例如实例、类别、零部件、轮廓、文本等。

Test-time techniques

如何通过 test-time techniques 解锁各种能力是通用模型的一大亮点。SegGPT 论文中提出了多个技术来解锁和增强各类分割能力，比如下图所示的不同的 context ensemble 方法。所提出的 Feature Ensemble 方法可以支持任意数量的 prompt 示例，实现丰俭由人的推理效果。

此外，SegGPT 还支持对特定场景优化专用 prompt 提示。对于针对性的使用场景，SegGPT 可以通过 prompt tuning 得到对应 prompt，无需更新模型参数来适用于特定场景。比如，针对某一数据集自动构建一个对应的 prompt，或者针对一个房间来构建专用 prompt。如下图所示：

结果展示

模型只需少数 prompt 示例，在 COCO 和 PASCAL 数据集上取得最优性能。SegGPT 显示出强大的零样本场景迁移能力，比如在少样本语义分割测试集 FSS-1000 上，在无需训练的情况下取得 state-of-the-art 性能。

无需视频训练数据，SegGPT 可直接进行视频物体分割，并取得和针对视频物体分割专门优化的模型相当的性能。

以下是基于 tuned prompt 在语义分割和实例分割任务上的效果展示：

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31097

浏览量
269433
GPT

GPT

+关注

关注
0

文章
354

浏览量
15431

原文标题：通用视觉GPT时刻来临？智源推出通用分割模型SegGPT

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

通用大模型评测标准正式发布

近日，在2024中国移动全球合作伙伴大会上，一项关于大模型评测体系建设的新成果——《通用大模型评测标准》正式发布。这一标准由中国移动携手工信部中国电子技术标准化研究院、中国电信、国家电网、中国石油以及科大讯飞等产业各方共同

发表于 10-14 15:52 •516次阅读

英伟达预测机器人领域或迎“GPT-3时刻”

未来2-3年内，机器人基础模型的研究将迎来重大突破，这一时刻被形象地比喻为机器人领域的“GPT-3时刻”。

发表于 09-20 17:05 •812次阅读

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

OpenAI推出了GPT-4o mini模型，用来取代GPT-3.5.这是目前市场上最具成本效益的小模型。该

发表于 07-21 10:20 •1085次阅读

OpenAI <b class='flag-5'>推出</b> <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜

图像分割与语义分割中的CNN模型综述

图像分割与语义分割是计算机视觉领域的重要任务，旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络（CNN）作为深度学习的一种核心模型，在图像

发表于 07-09 11:51 •1003次阅读

机器人视觉技术中常见的图像分割方法

机器人视觉技术中的图像分割方法是一个广泛且深入的研究领域。图像分割是将图像划分为多个区域或对象的过程，这些区域或对象具有某种共同的特征，如颜色、纹理、形状等。在机器人视觉中，图像

发表于 07-09 09:31 •764次阅读

OpenAI推出新模型CriticGPT，用GPT-4自我纠错

基于GPT-4的模型——CriticGPT，这款模型专为捕获ChatGPT代码输出中的错误而设计，其独特的作用在于，让人们能够用GPT-4来查找GP

发表于 06-29 09:55 •559次阅读

OpenAI发布全新GPT-4o模型

近日，OpenAI宣布推出全新的GPT-4o模型，标志着人工智能领域的一大技术飞跃。这款模型不仅具备强大的生成能力，还能精准理解用户意图，提供智能化的回答。

发表于 05-17 11:48 •664次阅读

OpenAI推出面向所有用户的AI模型GPT-4o

在周一的直播盛会上，OpenAI揭开了其最新的人工智能模型GPT-4o的神秘面纱。这款新模型旨在为其著名的聊天机器人ChatGPT提供更强大、更经济的支持。GPT-4o是此前备受瞩目的

发表于 05-15 09:23 •411次阅读

【大语言模型：原理与工程实践】大语言模型的基础技术

下游任务提供丰富的文本表示,如谷歌公司推出的BERT。（2) Decoder-Only 预训练语言模型：这类模型一般使用单向的 Decoder 结构，通常擅长生成任务，如OpenAI 推出

发表于 05-05 12:17

讯飞星火大模型V3.5春季升级，多领域知识问答超越GPT-4 Turbo

刘庆峰指出，现如今，星火大模型在通用长文本处理能力方面已相当成熟，覆盖长文档信息抽取、知识问答、归纳总结、文本生成等诸多领域，整体表现已达GPT-4 Turbo今年4月最新版的97%水准；

发表于 04-26 14:26 •1077次阅读

OpenAI推出Vision模型版GPT-4 Turbo，融合文本与图像理解

据悉，此模型沿用GPT-4 Turbo系列特有的12.8万token窗口规模及截至2023年12月的知识库架构，其创新亮点则是强大的视觉理解功能。

发表于 04-10 10:49 •421次阅读

苹果ReALM模型在实体识别测试中超越OpenAI GPT-4.0

“我们的模型在识别各种类型实体方面都有显著提升，即使是小尺寸模型，在屏幕实体识别准确性上也已超过原有的系统5%以上。在与GPT-3.5和GPT-4.0的比较中，小型

发表于 04-02 11:23 •495次阅读

OpenAI有望在年中推出全新GPT-5模型

近日，人工智能领域的领军企业OpenAI传来了令人振奋的消息。据悉，他们有望在今年的年中，大约是夏季时分，推出全新的GPT-5模型。这一消息引发了业界的广泛关注与期待。

发表于 03-22 11:29 •796次阅读

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

起初，Copilot作为Bing Chat AI助手推出，初期采用GPT-3.5模型，随后升级至GPT-4取得显著进步，如今再次更新至性能卓越的GP

发表于 03-13 13:42 •750次阅读

全球最强大模型易主，GPT-4被超越

近日，AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型，其中包括最强版Claude 3 Opus。据该公司称，Claude 3系列在推理、数学、编码、多语言理解和视觉方面全面超越了包括

发表于 03-05 09:58 •676次阅读

搜索历史

通用视觉GPT时刻来临？智源推出通用分割模型SegGPT

评论

通用大模型评测标准正式发布

英伟达预测机器人领域或迎“GPT-3时刻”

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

图像分割与语义分割中的CNN模型综述

机器人视觉技术中常见的图像分割方法

OpenAI推出新模型CriticGPT，用GPT-4自我纠错

OpenAI发布全新GPT-4o模型

OpenAI推出面向所有用户的AI模型GPT-4o

【大语言模型：原理与工程实践】大语言模型的基础技术

讯飞星火大模型V3.5春季升级，多领域知识问答超越GPT-4 Turbo

OpenAI推出Vision模型版GPT-4 Turbo，融合文本与图像理解

苹果ReALM模型在实体识别测试中超越OpenAI GPT-4.0

OpenAI有望在年中推出全新GPT-5模型

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

全球最强大模型易主，GPT-4被超越