0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型案例之帐篷检测模型

柴火创客空间 来源:未知 2024-12-06 11:10 次阅读

导读

2023年以ChatGPT为代表的大语言模型横空出世,它的出现标志着自然语言处理领域取得了重大突破。它在文本生成、对话系统和语言理解等方面展现出了强大的能力,为人工智能技术的发展开辟了新的可能性。同时,人工智能技术正在进入各种应用领域,在智慧城市、智能制造、智慧医疗、智慧农业等领域发挥着重要作用。

柴火创客2024年将依托母公司Seeed矽递科技在人工智能领域的创新硬件,与全球创客爱好者共建“模型仓”,通过“SenseCraft AI”平台可以让使用者快速部署应用体验人工智能技术!

RT-DETR

目标检测一直面临着一个重大挑战-平衡速度和准确性。像YOLO这样的传统模型速度很快,但需要一个名为非极大值抑制(NMS)的后处理步骤,这会减慢检测速度。NMS过滤重叠的边界框,但这会引入额外的计算时间,影响整体速度。

RT-DETR 实时端到端目标检测器,旨在解决现有目标检测方法在速度和精度上的问题。该方法在保持较高检测精度的同时,显著提升了推理速度,为实时目标检测提供了新的解决方案。

0213c752-b228-11ef-93f3-92fbcf53809c.png

RT-DETR是基于DETR架构的端到端对象检测器,完全消除了对NMS的需求。通过这样做,RT-DETR显着减少了之前基于卷积神经网络(CNN)的对象检测器(如YOLO系列)的延迟。它结合了强大的主干、混合编码器和独特的查询选择器,可以快速准确地处理特征。

0238daba-b228-11ef-93f3-92fbcf53809c.png

RT-DETR 架构的关键组成

骨干网络:提取特征,文中实验了 ResNet 和可缩放的 HgNetV2 两种骨干网络,选择其最后三个阶段的特征输入到编码器。

高效混合编码器:通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征,它由两部分组成:

·AIFI(Attention-based Intra-scale Feature Interaction):仅在上使用单尺度 Transformer 编码器进行层内特征交互,以捕获更丰富的语义概念,降低复杂度并提高整体精度。

·CCFF(CNN-based Cross-scale Feature Fusion):基于跨尺度融合模块进行优化,在融合路径中插入多个由卷积层组成的融合块,用于融合相邻尺度的特征。融合块包含两个 1×1 卷积调整通道数,使用 RepConv 组成的 N 个 RepBlocks 进行特征融合,通过元素相加融合两条路径的输出。

Transformer 解码器:解码器通过不确定性最小查询选择模块,从编码器输出的特征序列中选择固定数量的特征作为初始对象查询,然后利用辅助预测头迭代优化对象查询,生成类别和边界框。

此外,RT-DETR 支持灵活调整推理速度,通过调整解码器层数实现,而无需重新训练。同时,它还支持通过控制编码器和解码器的参数来实现模型的缩放。

024a685c-b228-11ef-93f3-92fbcf53809c.png

RT-DETR特点

高效混合编码器:采用高效混合编码器,通过解耦尺度内交互和跨尺度融合来处理多尺度特征。这种基于 Vision Transformers 的独特设计降低了计算成本,允许实时物体检测。

IoU 感知查询选择:利用 IoU 感知查询选择改进了对象查询初始化,使模型能够专注于场景中最相关的对象,从而提高检测准确性。

推理速度可调:支持通过使用不同的解码器层灵活调整推理速度,无需重新训练。这种适应性有助于在各种实时目标检测场景中的实际应用。

025fb158-b228-11ef-93f3-92fbcf53809c.png

实时性能:实现了实时目标检测速度,相比许多基于 Transformer 的模型,其推理速度更快。

无锚框设计:不依赖于锚框,直接预测物体的边界框和类别,提高了模型的灵活性和检测效率,减少了超参数调优的工作量,提升了小目标检测的性能。

端到端训练:采用端到端的训练方式,不需要像传统的检测方法那样经过复杂的后处理步骤,如非极大值抑制(NMS),提高了训练效率并减少了推理的复杂度。

0272d90e-b228-11ef-93f3-92fbcf53809c.png

高精度:在速度和精度方面均超过了 YOLO 系列等其他实时检测器,例如 RT-DETR-R50 在 COCO val2017 上达到 53.1% 的 AP 和 108 FPS,RT-DETR-R101 达到 54.3% 的 AP 和 74 FPS。

可扩展性:支持模型的缩放,通过控制编码器和解码器的参数,如调整宽度(嵌入尺寸和通道数)和深度(Transformer 层数和 RepBlocks),以适应不同场景的需求。

高效处理多尺度特征:集成了多尺度特征融合模块,能够同时处理大中小不同尺寸的目标,在检测小目标时表现优异。

帐篷检测模型

027fac74-b228-11ef-93f3-92fbcf53809c.png

该 AI 模型利用先进的 Swift yolo 算法,专注于帐篷识别,可以在实时视频流中准确检测和标记帐篷。它特别适用于 Seeed Studio Grove Vision AI (V2) 设备,提供高兼容性和稳定性。

露营场景应用

0290f25e-b228-11ef-93f3-92fbcf53809c.png

营地管理与布局优化:

- 帮助营地主动监控帐篷的分布情况,可以分析不同区域的帐篷数量,优化露营地的布局,确保合理利用空间,避免拥堵。

安全与防灾:

- 在天气突变或出现自然灾害时(如暴风雨、洪水等),可以实时检测帐篷所在地的环境变化,警告营地管理者采取相应措施,保障露营者的安全。

资源分配与监控:

- 管理者可以根据检测到的帐篷数量和分布,合理分配营地的水、电及其他资源,更高效地满足露营者的需求。

数据收集与分析:

- 通过持续监测帐篷的数量和动态变化,营地管理者可以收集露营高峰期的数据,从而为未来的活动策划和资源配置提供参考。

客户体验提升:

- 通过分析帐篷的分布及活动情况,管理者可以为露营者提供个性化的建议,如推荐适合的露营区域、活动和服务,提升整体体验。

野生动物监测与管理:

- 利用帐篷检测技术,营地管理人员可以监控露营区域对当地生态环境的影响,合理安排活动,以保护野生动物栖息环境。

应急响应:

- 在紧急情况下,例如露营者的失踪或事故发生时,模型可以帮助定位帐篷位置,快速调派救援力量。

智能化露营服务:

- 在自动化和智能化露营平台中,帐篷检测模型可以与其他智能设备和系统集成,为露营者提供实时信息和服务,如天气预报、急救指引等。

在Grove-VisionAIV2上部署模型

1、打开SenseCraft AI平台,如果第一次使用请先注册一个会员账号,还可以设置语言为中文。

平台地址:https://sensecraft.seeed.cc/ai/#/model

02b842be-b228-11ef-93f3-92fbcf53809c.png

2、在顶部单击【预训练模型】菜单,在公共AI模型列表9中找到【帐篷检测】模型,单击此模型图片,如下图所示。

02d8a428-b228-11ef-93f3-92fbcf53809c.png

3、进入【帐篷检测】模型介绍页面,单击右侧的“部署模型”按钮,如下图所示。

02ef4dc2-b228-11ef-93f3-92fbcf53809c.png

4、进入部署帐篷检测模型页面,按提示步骤先连接摄像头,再连接设备到电脑USB接口上,最后单击【连接设备】按钮,如下图所示。

030b6020-b228-11ef-93f3-92fbcf53809c.png

5、弹出部署模型窗口,单击“确定”按钮,如下图所示。

0329ec34-b228-11ef-93f3-92fbcf53809c.png

6、弹出连接到串行端口窗口,选择端口号后单击“连接”按钮,如下图所示。

0334f5e8-b228-11ef-93f3-92fbcf53809c.png

7、开始进行模型部署、固件下载、设备重启等过程,完成后在预览中即可看到当前摄像头视频内容,将摄像头对准露营中的帐篷图片查看预测效果,如下图所示。

033c72aa-b228-11ef-93f3-92fbcf53809c.png

预测效果视频演示

Grove Al视觉模块 V2套装介绍

0357d824-b228-11ef-93f3-92fbcf53809c.png

Grove Al视觉模块 V2

036e9e24-b228-11ef-93f3-92fbcf53809c.png

OV5647-62摄像头

Grove - Vision Al Module V2是一款拇指大小的人工智能视觉模块, 配备Himax WiseEye2 HX6538处理器, 该处理器采用 ArmCortex-M55双核架构。

它具有标准的CSI接口, 并与树莓派相机兼容。它有一个内置的数字麦克风和SD卡插槽。它非常适用于各种嵌入式视觉项目。

有了SenseCraft Al算法平台, 经过训练的ML模型可以部署到传感器, 而不需要编码。它兼容XIAO系列和Arduino生态系统, 是各种物体检测应用的理想选择。

Arm Ethos-U55 嵌入式神经网络处理器(NPU)

嵌入式神经网络处理器(NPU)是一种特别设计用于执行神经网络计算的高效率处理器。它主要基于数据驱动并行计算架构,特别擅长处理视频、图像等大量的多媒体数据。NPU模仿了生物神经网络的架构,与CPUGPU相比,它能够通过更少的指令(一条或几条)完成神经元的处理,因此在深度学习的处理效率方面具有明显优势。

它具有标准的CSI接口, 并与树莓派相机兼容。它有一个内置的数字麦克风和SD卡插槽。它非常适用于各种嵌入式视觉项目。

有了SenseCraft Al算法平台, 经过训练的ML模型可以部署到传感器, 而不需要编码。它兼容XIAO系列和Arduino生态系统, 是各种物体检测应用的理想选择。

主要硬件配置

- 板卡基于WiseEye2 HX6538处理器, 采用双核ARM Cortex-M55架构 。

- 配备集成Arm Ethos-U55微神经网络加速单元, 兼容的树莓派相机

- 板载PDM麦克风, SD卡插槽, Type-C, Grove接口, 丰富的外设支持样机开发 。

- Seeed Studio XIAO的可扩展性, SenseCraft Al的现成AI模型用于无代码部署。

- 支持各种有效的模型, 包括MobilenetV1、MobilenetV2、 Eficientnet-Lite、Yolov5和Yolov8。

写在最后

SenseCraft-AI平台的模型仓数量还很少,但是好消息是它支持自定义模型上传并输出推理结果,平台会逐渐增加模型仓的数量和分享有爱好者设计的模型仓原型,敬请关注!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1140

    浏览量

    40709
  • 人工智能
    +关注

    关注

    1791

    文章

    47085

    浏览量

    238054
  • 目标检测
    +关注

    关注

    0

    文章

    208

    浏览量

    15602

原文标题:模型案例:| 帐篷检测模型!

文章出处:【微信号:ChaiHuoMakerSpace,微信公众号:柴火创客空间】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是大模型、大模型是怎么训练出来的及大模型作用

    本文通俗简单地介绍了什么是大模型、大模型是怎么训练出来的和大模型的作用。   什么是大模型模型,英文名叫Large Model,大型
    的头像 发表于 11-25 09:29 383次阅读
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么训练出来的及大<b class='flag-5'>模型</b>作用

    模型动态测试工具TPT的软件集成与测试支持#Siumlink模型测试 #TPT

    模型
    北汇信息POLELINK
    发布于 :2024年11月07日 11:20:29

    将amc1200 SPICE模型转成PSPICE模型后 无法在ORCAD16.5中使用,为什么?

    我按TI提供文件 [ 在PSpice中使用Spice模型 ]将amc1200SPICE模型转成PSPICE模型后却无法在ORCAD16
    发表于 08-29 07:25

    基于MATLAB 的质量守恒空化模型(JFO 模型

    可有大佬会基于MATLAB 的质量守恒空化模型(JFO 模型
    发表于 07-05 23:32

    人脸检测模型的精确度怎么算

    人脸检测模型的精确度评估是一个复杂的过程,涉及到多个方面的因素。本文将从以下几个方面进行介绍:人脸检测模型的基本概念、评估指标、评估方法、影响因素以及提高精确度的策略。 人脸
    的头像 发表于 07-04 09:14 481次阅读

    人脸检测模型有哪些

    人脸检测是计算机视觉领域的一个重要研究方向,它涉及到从图像或视频中检测出人脸的位置和大小。随着深度学习技术的发展,人脸检测模型的性能得到了显著提升。以下是一些常见的人脸
    的头像 发表于 07-03 17:05 981次阅读

    【大语言模型:原理与工程实践】大语言模型的应用

    ,它通过抽象思考和逻辑推理,协助我们应对复杂的决策。 相应地,我们设计了两类任务来检验大语言模型的能力。一类是感性的、无需理性能力的任务,类似于人类的系统1,如情感分析和抽取式问答等。大语言模型在这
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的评测

    大语言模型的评测是确保模型性能和应用适应性的关键环节。从基座模型到微调模型,再到行业模型和整体能力,每个阶段都需要精确的评测来指导
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的预训练

    大语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对预训练数据的需求也相应
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    全面剖析大语言模型的核心技术与基础知识。首先,概述自然语言的基本表示,这是理解大语言模型技术的前提。接着,详细介绍自然语言处理预训练的经典结构Transformer,以及其工作原理,为构建大语言
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    大语言模型(LLM)是人工智能领域的尖端技术,凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习,利用神经网络框架来理解和生成自然语言文本。这些模型通过训练海量的文本数据集,如
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    《大语言模型》是一本深入探讨人工智能领域中语言模型的著作。作者通过对语言模型的基本概念、基础技术、应用场景分析,为读者揭开了这一领域的神秘面纱。本书不仅深入讨论了语言模型的理论基础,还
    发表于 04-30 15:35

    基于DiAD扩散模型的多类异常检测工作

    现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其强大的生成能力而闻名,因此本文作者希望通过扩散模型将异常区域重构成正常。
    的头像 发表于 01-08 14:55 1347次阅读
    基于DiAD扩散<b class='flag-5'>模型</b>的多类异常<b class='flag-5'>检测</b>工作

    如何基于深度学习模型训练实现圆检测与圆心位置预测

    Hello大家好,今天给大家分享一下如何基于深度学习模型训练实现圆检测与圆心位置预测,主要是通过对YOLOv8姿态评估模型在自定义的数据集上训练,生成一个自定义的圆检测与圆心定位预测
    的头像 发表于 12-21 10:50 1869次阅读
    如何基于深度学习<b class='flag-5'>模型</b>训练实现圆<b class='flag-5'>检测</b>与圆心位置预测

    大信号模型和小信号模型的区别

    大信号模型和小信号模型是电子工程和通信领域中常用的两种模型,它们在描述和分析电子电路或系统时具有不同的特点和应用范围。以下是关于大信号模型和小信号
    的头像 发表于 12-19 11:35 9837次阅读