0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FastSAM模型可实现25FPS的实时推理

OpenCV学堂 来源:OpenCV学堂 2023-07-03 17:06 次阅读

比Meta的「分割一切模型」(SAM)更快的图像分割工具,来了!

最近中科院团队开源了FastSAM模型,能以50倍的速度达到与原始SAM相近的效果,并实现25FPS的实时推理。

该成果在Github已经获得2.4K+次星标,在Twitter、PaperswithCode等平台也受到了广泛关注。

df2d47bc-1756-11ee-962d-dac502259ad0.png

相关论文预印本现已发表。

以下内容由投稿者提供

视觉基础模型 SAM[1]在许多计算机视觉任务中产⽣了重⼤影响。它已经成为图像分割、图像描述和图像编辑等任务的基础。

然⽽,其巨⼤的计算成本阻碍了它在实际场景中的⼴泛应⽤。

最近,中科院⾃动化所提出并开源了⼀种加速替代⽅案 FastSAM。

通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务,⽤带实例分割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度实现了与SAM⽅法相当的性能,是⾸个实时分割⼀切的基础模型。

df4ab45a-1756-11ee-962d-dac502259ad0.png

意义与动机

SAM 的出现带动了 “分割⼀切”(Segment Anything)任务的发展。这⼀任务由于其泛化性和可扩展性,有很⼤可能成为未来⼴泛视觉任务的基础。

FastSAM 为该任务提供了⼀套实时解决⽅案,进⼀步推动了分割⼀切模型的实际应⽤和发展。

本⽂将“分割⼀切”任务解耦为全实例分割和提⽰引导选择两阶段,通过引⼊⼈⼯先验结构,在提速 50 倍的情况下实现了与 SAM 相近的表现。

FastSAM 的优秀表现为视觉任务的架构选择提供了新的视角——对于特定任务,专用模型结构或许在计算效率和精确度上仍具有优势。

从模型压缩的⾓度看,FastSAM 也证明了基于大模型产生高质量数据,通过引⼊⼈⼯先验结构大幅降低计算复杂度的路径的可⾏性。

示例

Web DEMO

在 HuggingFace 的 Space 中,你可以快速体验 FastSAM 的分割效果。

你可以上传一张自定义的图片,选择模式并设置参数,点击分割按钮,就可以得到一个满意的分割结果。

现在支持一切模式和点模式的交互,其他模式将在未来尝试支持。在 Replicate 上已支持所有模式的在线体验。

df7845aa-1756-11ee-962d-dac502259ad0.jpg

df959a24-1756-11ee-962d-dac502259ad0.jpg

多种交互⽅式

FastSAM目前共支持三种交互方式。

dfa20b42-1756-11ee-962d-dac502259ad0.png

多点交互模式

FastSAM ⽀持多个带有前景/背景标签的点交互模式,可以很好地适应不同场景的应⽤需求。

以缺陷检测场景为例,只需对缺陷部位添加前景点,对正常药丸部分添加背景点,即可准确地检测出物体缺陷。

dfcbebce-1756-11ee-962d-dac502259ad0.png

框交互模式

FastSAM 也⽀持框交互模式。也以缺陷检测为例,只需对缺陷⼤致位置进⾏框选,即可准确检测出物体缺陷。

dff718bc-1756-11ee-962d-dac502259ad0.png

⽂本交互模式

FastSAM 也⽀持并开源了⽂本交互模式。通过不同的⽂本提示,FastSAM可以准确分割出不同颜⾊的⼩狗。

e0340ec0-1756-11ee-962d-dac502259ad0.png

工作原理

如下图所示,FastSAM 的网络架构可分为两个阶段:全实例分割和提示引导选择。

e061fa24-1756-11ee-962d-dac502259ad0.png

在全实例分割阶段,FastSAM 使用卷积神经网络来对图像中的所有对象或区域进行划分。

在提示引导选择阶段,它采用包括点提示、框提示和文本提示的各种提示来选出关注对象。

与基于Transformer的方法不同,FastSAM融合了与视觉分割任务紧密相关的先验知识,例如局部连接和对象分配策略。这使得它以更低地参数量和计算量下更快地收敛。

定性与定量分析

测试结果表明,FastSAM各方面的表现完全不输于Meta的原始版本。

速度

从表中可以看出,FastSAM 取得了远超 SAM 的速度表现,在「分割⼀切」模式下,SAM的速度会受到均匀点提⽰数量的影响,⽽ FastSAM 由于结构的特点,运⾏时间不随点提⽰数量的增加⽽增加,这使得它成为「分割⼀切」模式的更好选择。

e0885caa-1756-11ee-962d-dac502259ad0.png

同时,由于 FastSAM 在结构设计中利⽤了⼈的先验知识,使得它在实时推理的同时也具备了与 SAM 相当的性能

边缘检测

下图展⽰了具有代表性的边缘检测结果。经过定性观察可以看出,尽管FastSAM的参数明显较少(只有68M),但它也能产⽣很⾼质量的边缘检测结果

e094daa2-1756-11ee-962d-dac502259ad0.png

从下表可以看出,FastSAM 取得了与 SAM 类似的性能。与 Ground Truth 相⽐,FastSAM和 SAM 都倾向于预测更多的边缘,这种偏差在表中得到了定量的反映。

e0c0d42c-1756-11ee-962d-dac502259ad0.png

物体候选

从下表可以看出,FastSAM 在 bbox AR@1000 的表现上超过了计算量最⼤的 SAM 模型(SAM-H E64),仅次于在 LVIS 数据集上监督训练的 ViTDet-H[2]。

e0e144d2-1756-11ee-962d-dac502259ad0.png

可视化结果

SA-1B 分割结果:下图展⽰了 FastSAM 在 SA-1B 数据集上不同场景和掩码数量时的分割结果。

下游应⽤对⽐:下⾯三张图对⽐了 FastSAM 和 SAM 在异常检测、显著物体分割和建筑物提取三个下游任务的效果,FastSAM 在不同模式下均取得了和 SAM 相当的表现。

e1392d28-1756-11ee-962d-dac502259ad0.png

e1572968-1756-11ee-962d-dac502259ad0.png

e164b290-1756-11ee-962d-dac502259ad0.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3268

    浏览量

    48929
  • Meta
    +关注

    关注

    0

    文章

    272

    浏览量

    11408
  • SAM
    SAM
    +关注

    关注

    0

    文章

    112

    浏览量

    33546

原文标题:FastSAM模型来了,比SAM原版提速50倍

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何使用OpenVINO C++ API部署FastSAM模型

    象的位置和边界。本文将介绍如何使用 OpenVINO C++ API 部署 FastSAM 模型,以实现快速高效的语义分割。在前文中我们发表了《基于 OpenVINO Python API 部署
    的头像 发表于 11-17 09:53 948次阅读
    如何使用OpenVINO C++ API部署<b class='flag-5'>FastSAM</b><b class='flag-5'>模型</b>

    请问dm8147是否可以使用两路BT1120传输一路sensor高分辨率数据?

    162MPix/s,实测约500W像素25fps。 如果要实时采集更大分辨率图像,如600w 25fps或800w 25fps,请问是否可以使用两路BT1120采集,进入dm8147后
    发表于 05-28 12:49

    dm8168 encode fps error

    dvi过来的视频,采集60fps,nsf后设置输出帧率25fps,编码帧率设置为25fps,用视频软件看记录的h264码流,他的i帧不对,有时25帧一个,有时20帧,有时两个i帧挨着来
    发表于 06-21 00:09

    HiSpark_IPC_DIY摄像头开发套件介绍

    HiSpark_IPC_DIY摄像头开发套件采用海思 3518EV300 系列 AI DSP,F23 1/2.9 2MP 高清图像传感器,1920*1080 分辨率/25fps实时高清监控。支持标准 UVC/UVA 协议做 U
    发表于 09-10 14:20

    用tflite接口调用tensorflow模型进行推理

    摘要本文为系列博客tensorflow模型部署系列的一部分,用于实现通用模型的部署。本文主要实现用tflite接口调用tensorflow模型
    发表于 12-22 06:51

    请问imx6dl做编码输出1080p图像能达到25fps吗?

    想用IMX6DL做摄像头硬件编码,发现1080P最大只能到7.5fps。咨询一下imx6dl做编码输出1080p图像能达到25fps吗另 720P可达到25fps
    发表于 01-11 06:58

    压缩模型会加速推理吗?

    你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 将简单的 CNN 导入到 STM32L462RCT我发现压缩模型推理时间没有影响。aiRun 程序在 8
    发表于 01-29 06:24

    求助,为什么将不同的权重应用于模型会影响推理性能?

    生成两个 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的类似模型,以不同的 fps (27fps 和 6fps) 运行 更多样化的权重是否会影响 Myr
    发表于 08-15 07:00

    AscendCL快速入门——模型推理篇(上)

    一、概述本文介绍了AscendCL模型推理相关知识,介绍了AscendCL接口加载离线模型,为离线模型准备数据结构以及调用离线模型进行
    发表于 08-24 11:04

    使用rk3588多npu推理模型模型推理时间还增加了,这怎么解释

    使用rk3588多npu推理模型模型推理时间还增加了,这怎么解释
    发表于 11-05 18:22

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    场景介绍 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件设备 AI 模型推理的功能,目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。 本文介绍
    发表于 12-14 11:41

    DeepStream如何实现“组合信息”

    前面已经介绍过关于 DeepStream 各种输入源的使用方式,而且 Jetson Nano 2GB 上开启 4 路输入(两个摄像头+两个视频文件),都能得到 25FPS 以上的实时性能,但毕竟
    的头像 发表于 08-04 09:41 1505次阅读

    BK7256-音视频SOC芯片功能应用简介

    BK7256-Wi-Fi 6视频SoC 可视门铃应用:DVP接口支持720p 25fps图像采集; MJPEG编码支持720p 25fps实时传输 ;双麦克风支持环境噪声抑制 点读笔应用:DVP接口
    的头像 发表于 07-06 09:15 2877次阅读
    BK7256-音视频SOC芯片功能应用简介

    如何使用OpenVINO Python API部署FastSAM模型

    象的位置和边界。本文将介绍如何使用 OpenVINO Python API 部署 FastSAM 模型,以实现快速高效的语义分割。
    的头像 发表于 10-27 11:04 766次阅读

    高效大模型推理综述

    模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型
    的头像 发表于 11-15 11:45 458次阅读
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>综述