中科院提出FastSAM快速分割一切模型！比Meta原版提速50倍！-电子发烧友网

比Meta的「分割一切模型」(SAM)更快的图像分割工具，来了！

最近中科院团队开源了FastSAM模型，能以50倍的速度达到与原始SAM相近的效果，并实现25FPS的实时推理。

该成果在Github已经获得2.4K+次星标，在Twitter、PaperswithCode等平台也受到了广泛关注。

相关论文预印本现已发表。

以下内容由投稿者提供

《Fast Segment Anything》

代码：https://github.com/CASIA-IVA-Lab/FastSAM

论文：https://arxiv.org/abs/2306.12156

视觉基础模型 SAM[1]在许多计算机视觉任务中产⽣了重⼤影响。它已经成为图像分割、图像描述和图像编辑等任务的基础。

然⽽，其巨⼤的计算成本阻碍了它在实际场景中的⼴泛应⽤。

最近，中科院⾃动化所提出并开源了⼀种加速替代⽅案 FastSAM。

通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务，⽤带实例分割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度实现了与SAM⽅法相当的性能，是⾸个实时分割⼀切的基础模型。

意义与动机

SAM 的出现带动了 “分割⼀切”（Segment Anything）任务的发展。这⼀任务由于其泛化性和可扩展性，有很⼤可能成为未来⼴泛视觉任务的基础。

FastSAM 为该任务提供了⼀套实时解决⽅案，进⼀步推动了分割⼀切模型的实际应⽤和发展。

本⽂将“分割⼀切”任务解耦为全实例分割和提⽰引导选择两阶段，通过引⼊⼈⼯先验结构，在提速 50 倍的情况下实现了与 SAM 相近的表现。

FastSAM 的优秀表现为视觉任务的架构选择提供了新的视角——对于特定任务，专用模型结构或许在计算效率和精确度上仍具有优势。

从模型压缩的⾓度看，FastSAM 也证明了基于大模型产生高质量数据，通过引⼊⼈⼯先验结构大幅降低计算复杂度的路径的可⾏性。

示例

Web DEMO

在 HuggingFace 的 Space 中，你可以快速体验 FastSAM 的分割效果。

你可以上传一张自定义的图片，选择模式并设置参数，点击分割按钮，就可以得到一个满意的分割结果。

现在支持一切模式和点模式的交互，其他模式将在未来尝试支持。在 Replicate 上已支持所有模式的在线体验。

多种交互⽅式

FastSAM目前共支持三种交互方式。

多点交互模式

FastSAM ⽀持多个带有前景/背景标签的点交互模式，可以很好地适应不同场景的应⽤需求。

以缺陷检测场景为例，只需对缺陷部位添加前景点，对正常药丸部分添加背景点，即可准确地检测出物体缺陷。

框交互模式

FastSAM 也⽀持框交互模式。也以缺陷检测为例，只需对缺陷⼤致位置进⾏框选，即可准确检测出物体缺陷。

⽂本交互模式

FastSAM 也⽀持并开源了⽂本交互模式。通过不同的⽂本提示，FastSAM可以准确分割出不同颜⾊的⼩狗。

工作原理

如下图所示，FastSAM 的网络架构可分为两个阶段：全实例分割和提示引导选择。

在全实例分割阶段，FastSAM 使用卷积神经网络来对图像中的所有对象或区域进行划分。

在提示引导选择阶段，它采用包括点提示、框提示和文本提示的各种提示来选出关注对象。

与基于Transformer的方法不同，FastSAM融合了与视觉分割任务紧密相关的先验知识，例如局部连接和对象分配策略。这使得它以更低地参数量和计算量下更快地收敛。

定性与定量分析

测试结果表明，FastSAM各方面的表现完全不输于Meta的原始版本。

速度

从表中可以看出，FastSAM 取得了远超 SAM 的速度表现，在「分割⼀切」模式下，SAM的速度会受到均匀点提⽰数量的影响，⽽ FastSAM 由于结构的特点，运⾏时间不随点提⽰数量的增加⽽增加，这使得它成为「分割⼀切」模式的更好选择。

同时，由于 FastSAM 在结构设计中利⽤了⼈的先验知识，使得它在实时推理的同时也具备了与 SAM 相当的性能。

边缘检测

下图展⽰了具有代表性的边缘检测结果。经过定性观察可以看出，尽管FastSAM的参数明显较少（只有68M），但它也能产⽣很⾼质量的边缘检测结果。

从下表可以看出，FastSAM 取得了与 SAM 类似的性能。与 Ground Truth 相⽐，FastSAM和 SAM 都倾向于预测更多的边缘，这种偏差在表中得到了定量的反映。

物体候选

从下表可以看出，FastSAM 在 bbox AR@1000 的表现上超过了计算量最⼤的 SAM 模型（SAM-H E64），仅次于在 LVIS 数据集上监督训练的 ViTDet-H[2]。

可视化结果

SA-1B 分割结果：下图展⽰了 FastSAM 在 SA-1B 数据集上不同场景和掩码数量时的分割结果。

下游应⽤对⽐：下⾯三张图对⽐了 FastSAM 和 SAM 在异常检测、显著物体分割和建筑物提取三个下游任务的效果，FastSAM 在不同模式下均取得了和 SAM 相当的表现。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3261

浏览量
48914
SAM

SAM

+关注

关注
0

文章
112

浏览量
33545
计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
46030

原文标题：中科院提出FastSAM快速分割一切模型！比Meta原版提速50倍！

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

Meta发布新AI模型Meta Motivo，旨在提升元宇宙体验

Meta公司近日宣布，将推出一款名为Meta Motivo的全新人工智能模型。该模型具备控制类似人类的数字代理动作的能力，有望为元宇宙的用户

发表于 12-16 10:34 •350次阅读

Meta发布Llama 3.2量化版模型

近日，Meta在开源Llama 3.2的1B与3B模型后，再次为人工智能领域带来了新进展。10月24日，Meta正式推出了这两个模型的量化版本，旨在进

发表于 10-29 11:05 •419次阅读

Meta推出可自我评估AI模型

Meta近期宣布了一项重要的人工智能进展，即将发布一系列全新的人工智能模型。其中，一款能够自我评估的模型

发表于 10-22 17:07 •325次阅读

亚马逊云科技上线Meta Llama 3.2模型

亚马逊云科技近日宣布，Meta公司的新一代模型Llama 3.2已在其平台上正式上线。该模型包括Meta首款多模态

发表于 10-11 18:08 •466次阅读

亚马逊云科技正式上线Meta Llama 3.2模型

亚马逊云科技宣布，Meta的新一代模型Llama 3.2，包括其首款多模态模型，现已在Amazon Bedrock和Amazon SageMaker中正式可用。

发表于 10-11 09:20 •529次阅读

Meta发布全新开源大模型Llama 3.1

科技巨头Meta近期震撼发布了其最新的开源人工智能（AI）模型——Llama 3.1，这一举措标志着Meta在AI领域的又一重大突破。

发表于 07-24 18:25 •1459次阅读

Meta不会在欧盟提供新的多模态AI模型

科技巨头Meta近日宣布了一项重要决策，其即将推出的创新多模态Llama模型将不会在欧盟地区发布。这一决定背后，是Meta对欧洲复杂且不可预

发表于 07-19 16:04 •494次阅读

图像分割与语义分割中的CNN模型综述

图像分割与语义分割是计算机视觉领域的重要任务，旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络（CNN）作为深度学习的一种核心模型，在图像

发表于 07-09 11:51 •1003次阅读

中科院重庆研究院在势垒可光调谐新型肖特基红外探测器研究获进展

传统肖特基探测器和势垒可光调谐的肖特基红外探测器的对比近日，中科院重庆绿色智能技术研究院微纳制造与系统集成研究中心在《创新》(The Innovation)上发表了题为Schottky

发表于 06-25 06:27 •304次阅读

阿里达摩院提出“知识链”框架，降低大模型幻觉

近日，阿里巴巴达摩院（湖畔实验室）携手新加坡南洋理工大学等研究机构，共同推出了大模型知识链（CoK）框架。该框架不仅可实时检索异构知识源，还能逐步纠正推理错误，有效提高了大模型在回答知识型问题时的准确率，并显著降低了所谓的“幻觉

发表于 05-10 11:46 •706次阅读

英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

英特尔丰富的AI产品——面向数据中心的至强处理器，边缘处理器及AI PC等产品为开发者提供最新的优化，助力其运行Meta新一代大语言模型Meta Llama 3

发表于 04-28 11:16 •652次阅读

Meta推出最强开源模型Llama 3 要挑战GPT

公司这次开源了Llama 3 8B与70B两款不同规模的模型，开发者可以免费使用，而Meta公司还将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。据悉

发表于 04-19 17:00 •851次阅读

中科加禾完成天使轮数千万元融资，专注编译技术，推动国产算力和大数据发展

创办于2023年的中科加禾，依托中科院计算所的雄厚科技实力，倾心于编译技术，旨在填补国产芯片生态系统的空缺，助力国产算力和大模型应用推广，推动我国人工智能产业的快速发展。其主营业务涵盖

发表于 03-19 16:49 •1131次阅读

Meta发布CodeLlama70B开源大模型

Meta发布CodeLlama70B开源大模型 Meta发布了开源大模型CodeLlama70B，号称是CodeLlama系列体量最大、性能最强的大

发表于 01-31 10:30 •1438次阅读

龙芯中科与中科信息签订合作框架协议

1月24日，龙芯中科技术股份有限公司与中科院成都信息技术股份有限公司（以下简称“中科信息”）合作框架签约仪式在成都兴隆湖畔科学城园区举行。

发表于 01-26 11:44 •835次阅读

搜索历史

中科院提出FastSAM快速分割一切模型！比Meta原版提速50倍！

评论

Meta发布新AI模型Meta Motivo，旨在提升元宇宙体验

Meta发布Llama 3.2量化版模型

Meta推出可自我评估AI模型

亚马逊云科技上线Meta Llama 3.2模型

亚马逊云科技正式上线Meta Llama 3.2模型

Meta发布全新开源大模型Llama 3.1

Meta不会在欧盟提供新的多模态AI模型

图像分割与语义分割中的CNN模型综述

中科院重庆研究院在势垒可光调谐新型肖特基红外探测器研究获进展

阿里达摩院提出“知识链”框架，降低大模型幻觉

英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

Meta推出最强开源模型Llama 3 要挑战GPT

中科加禾完成天使轮数千万元融资，专注编译技术，推动国产算力和大数据发展

Meta发布CodeLlama70B开源大模型

龙芯中科与中科信息签订合作框架协议