0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

CVer 来源:量子位(QbitAI) 2023-06-28 14:33 次阅读

比Meta的「分割一切模型」(SAM)更快的图像分割工具,来了!

最近中科院团队开源了FastSAM模型,能以50倍的速度达到与原始SAM相近的效果,并实现25FPS的实时推理。

该成果在Github已经获得2.4K+次星标,在Twitter、PaperswithCode等平台也受到了广泛关注。

da955e1a-1571-11ee-962d-dac502259ad0.png

相关论文预印本现已发表。

以下内容由投稿者提供

daa417ca-1571-11ee-962d-dac502259ad0.png

《Fast Segment Anything》

代码:https://github.com/CASIA-IVA-Lab/FastSAM

论文:https://arxiv.org/abs/2306.12156

视觉基础模型 SAM[1]在许多计算机视觉任务中产⽣了重⼤影响。它已经成为图像分割、图像描述和图像编辑等任务的基础。

然⽽,其巨⼤的计算成本阻碍了它在实际场景中的⼴泛应⽤。

最近,中科院⾃动化所提出并开源了⼀种加速替代⽅案 FastSAM。

通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务,⽤带实例分割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度实现了与SAM⽅法相当的性能,是⾸个实时分割⼀切的基础模型。

dab8fe6a-1571-11ee-962d-dac502259ad0.png

意义与动机

SAM 的出现带动了 “分割⼀切”(Segment Anything)任务的发展。这⼀任务由于其泛化性和可扩展性,有很⼤可能成为未来⼴泛视觉任务的基础。

FastSAM 为该任务提供了⼀套实时解决⽅案,进⼀步推动了分割⼀切模型的实际应⽤和发展。

本⽂将“分割⼀切”任务解耦为全实例分割和提⽰引导选择两阶段,通过引⼊⼈⼯先验结构,在提速 50 倍的情况下实现了与 SAM 相近的表现。

FastSAM 的优秀表现为视觉任务的架构选择提供了新的视角——对于特定任务,专用模型结构或许在计算效率和精确度上仍具有优势。

从模型压缩的⾓度看,FastSAM 也证明了基于大模型产生高质量数据,通过引⼊⼈⼯先验结构大幅降低计算复杂度的路径的可⾏性。

示例

Web DEMO

在 HuggingFace 的 Space 中,你可以快速体验 FastSAM 的分割效果。

你可以上传一张自定义的图片,选择模式并设置参数,点击分割按钮,就可以得到一个满意的分割结果。

现在支持一切模式和点模式的交互,其他模式将在未来尝试支持。在 Replicate 上已支持所有模式的在线体验。

dad56e74-1571-11ee-962d-dac502259ad0.jpg

dae83266-1571-11ee-962d-dac502259ad0.jpg

多种交互⽅式

FastSAM目前共支持三种交互方式。

dafa74bc-1571-11ee-962d-dac502259ad0.png

多点交互模式

FastSAM ⽀持多个带有前景/背景标签的点交互模式,可以很好地适应不同场景的应⽤需求。

以缺陷检测场景为例,只需对缺陷部位添加前景点,对正常药丸部分添加背景点,即可准确地检测出物体缺陷。

db2819e4-1571-11ee-962d-dac502259ad0.png

框交互模式

FastSAM 也⽀持框交互模式。也以缺陷检测为例,只需对缺陷⼤致位置进⾏框选,即可准确检测出物体缺陷。

db3f0136-1571-11ee-962d-dac502259ad0.png

⽂本交互模式

FastSAM 也⽀持并开源了⽂本交互模式。通过不同的⽂本提示,FastSAM可以准确分割出不同颜⾊的⼩狗。

db55dc62-1571-11ee-962d-dac502259ad0.png

工作原理

如下图所示,FastSAM 的网络架构可分为两个阶段:全实例分割和提示引导选择。

db6da3f6-1571-11ee-962d-dac502259ad0.png

在全实例分割阶段,FastSAM 使用卷积神经网络来对图像中的所有对象或区域进行划分。

在提示引导选择阶段,它采用包括点提示、框提示和文本提示的各种提示来选出关注对象。

与基于Transformer的方法不同,FastSAM融合了与视觉分割任务紧密相关的先验知识,例如局部连接和对象分配策略。这使得它以更低地参数量和计算量下更快地收敛。

定性与定量分析

测试结果表明,FastSAM各方面的表现完全不输于Meta的原始版本。

速度

从表中可以看出,FastSAM 取得了远超 SAM 的速度表现,在「分割⼀切」模式下,SAM的速度会受到均匀点提⽰数量的影响,⽽ FastSAM 由于结构的特点,运⾏时间不随点提⽰数量的增加⽽增加,这使得它成为「分割⼀切」模式的更好选择。

db7aa2cc-1571-11ee-962d-dac502259ad0.png

同时,由于 FastSAM 在结构设计中利⽤了⼈的先验知识,使得它在实时推理的同时也具备了与 SAM 相当的性能。

边缘检测

下图展⽰了具有代表性的边缘检测结果。经过定性观察可以看出,尽管FastSAM的参数明显较少(只有68M),但它也能产⽣很⾼质量的边缘检测结果。

db8b8a6a-1571-11ee-962d-dac502259ad0.png

从下表可以看出,FastSAM 取得了与 SAM 类似的性能。与 Ground Truth 相⽐,FastSAM和 SAM 都倾向于预测更多的边缘,这种偏差在表中得到了定量的反映。

db9c7e10-1571-11ee-962d-dac502259ad0.png

物体候选

从下表可以看出,FastSAM 在 bbox AR@1000 的表现上超过了计算量最⼤的 SAM 模型(SAM-H E64),仅次于在 LVIS 数据集上监督训练的 ViTDet-H[2]。

dbb0244c-1571-11ee-962d-dac502259ad0.png

可视化结果

SA-1B 分割结果:下图展⽰了 FastSAM 在 SA-1B 数据集上不同场景和掩码数量时的分割结果。

dbc02c2a-1571-11ee-962d-dac502259ad0.png

下游应⽤对⽐:下⾯三张图对⽐了 FastSAM 和 SAM 在异常检测、显著物体分割和建筑物提取三个下游任务的效果,FastSAM 在不同模式下均取得了和 SAM 相当的表现。

dbd40254-1571-11ee-962d-dac502259ad0.png

dbeaa428-1571-11ee-962d-dac502259ad0.png

dc072a26-1571-11ee-962d-dac502259ad0.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3160

    浏览量

    48703
  • SAM
    SAM
    +关注

    关注

    0

    文章

    112

    浏览量

    33498
  • 计算机视觉
    +关注

    关注

    8

    文章

    1696

    浏览量

    45925

原文标题:中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Meta发布Llama 3.2量化版模型

    近日,Meta在开源Llama 3.2的1B与3B模型后,再次为人工智能领域带来了新进展。10月24日,Meta正式推出了这两个模型的量化版本,旨在进
    的头像 发表于 10-29 11:05 303次阅读

    亚马逊云科技上线Meta Llama 3.2模型

    亚马逊云科技近日宣布,Meta公司的新模型Llama 3.2已在其平台上正式上线。该模型包括Meta首款多模态
    的头像 发表于 10-11 18:08 417次阅读

    亚马逊云科技正式上线Meta Llama 3.2模型

    亚马逊云科技宣布,Meta的新模型Llama 3.2,包括其首款多模态模型,现已在Amazon Bedrock和Amazon SageMaker中正式可用。
    的头像 发表于 10-11 09:20 447次阅读

    Meta发布全新开源大模型Llama 3.1

    科技巨头Meta近期震撼发布了其最新的开源人工智能(AI)模型——Llama 3.1,这举措标志着Meta在AI领域的又重大突破。
    的头像 发表于 07-24 18:25 1392次阅读

    Meta不会在欧盟提供新的多模态AI模型

    科技巨头Meta近日宣布了项重要决策,其即将推出的创新多模态Llama模型将不会在欧盟地区发布。这决定背后,是Meta对欧洲复杂且不可预
    的头像 发表于 07-19 16:04 456次阅读

    图像分割与语义分割中的CNN模型综述

    图像分割与语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的种核心模型,在图像
    的头像 发表于 07-09 11:51 666次阅读

    中科院重庆研究在势垒可光调谐新型肖特基红外探测器研究获进展

    传统肖特基探测器和势垒可光调谐的肖特基红外探测器的对比 近日,中科院重庆绿色智能技术研究微纳制造与系统集成研究中心在《创新》(The Innovation)上发表了题为Schottky
    的头像 发表于 06-25 06:27 262次阅读
    <b class='flag-5'>中科院</b>重庆研究<b class='flag-5'>院</b>在势垒可光调谐新型肖特基红外探测器研究获进展

    英特尔AI产品助力其运行Meta代大语言模型Meta Llama 3

    英特尔丰富的AI产品——面向数据中心的至强处理器,边缘处理器及AI PC等产品为开发者提供最新的优化,助力其运行Meta代大语言模型Meta Llama 3
    的头像 发表于 04-28 11:16 580次阅读

    Meta推出最强开源模型Llama 3 要挑战GPT

    公司这次开源了Llama 3 8B与70B两款不同规模的模型,开发者可以免费使用,而Meta公司还将陆续推出系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。 据悉
    的头像 发表于 04-19 17:00 798次阅读

    中科加禾完成天使轮数千万元融资,专注编译技术,推动国产算力和大数据发展

    创办于2023年的中科加禾,依托中科院计算所的雄厚科技实力,倾心于编译技术,旨在填补国产芯片生态系统的空缺,助力国产算力和大模型应用推广,推动我国人工智能产业的快速发展。其主营业务涵盖
    的头像 发表于 03-19 16:49 1047次阅读

    Meta发布CodeLlama70B开源大模型

    Meta发布CodeLlama70B开源大模型 Meta发布了开源大模型CodeLlama70B,号称是CodeLlama系列体量最大、性能最强的大
    的头像 发表于 01-31 10:30 1360次阅读

    龙芯中科中科信息签订合作框架协议

    1月24日,龙芯中科技术股份有限公司与中科院成都信息技术股份有限公司(以下简称“中科信息”)合作框架签约仪式在成都兴隆湖畔科学城园区举行。
    的头像 发表于 01-26 11:44 790次阅读

    产学研三界顶级大咖分享:RISC-V场景Show暨开源生态高级别论坛定档12/19

    中科院软件研究所高级工程师于佳耕出席,现场为大家分享新轮处理器技术突破、RISC-V架构生态建设以及开源操作系统教学。同时,现场嘉宾还将分享勘智AI芯片的性能展示及其在开源操作系统的构建
    发表于 12-15 18:36

    中科亿海微荣登中国科学院优秀科创企业榜

    近日中科院科技创新投资产业联盟2023年会上,中科院科技创新投资产业联盟发布中国科学院科创企业先锋榜单,中科亿海微电子科技(苏州)有限公司(简称中科亿海微)位列“优秀科创企业”TOP1
    的头像 发表于 12-14 08:11 676次阅读
    <b class='flag-5'>中科</b>亿海微荣登中国科学院优秀科创企业榜

    META认为RISC-V定制加速器的风险很小

    换句话说,Meta个模板可以快速将任何此类新芯片投入生产,这对于那些寻求大规模 RISC-V 成功案例的人来说是件大事。所有这一切
    的头像 发表于 12-04 17:13 922次阅读
    <b class='flag-5'>META</b>认为RISC-V定制加速器的风险很小