开放词汇检测新晋SOTA：地瓜机器人开源DOSOD实时检测算法-电子发烧友网

在计算机视觉领域，目标检测是一项关键技术，旨在识别图像或视频中感兴趣物体的位置与类别。传统的闭集检测长期占据主导地位，但近年来，开放词汇检测（Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD）崭露头角，为目标检测带来了新的活力与可能性。与闭集检测相比，开放词汇检测打破了检测类别固定的“枷锁”，它在训练时利用丰富多样的文本 - 区域对（text-region pairs）数据，将文本作为类别标签，大大拓宽了可检测的范围。尤其是在机器人感受周围环境的任务中，能够起到极大的帮助。

目前主流的开放词汇检测算法有Grounding-DINO系列和YOLO-World。在海量的私有数据集的加持下，前者具有非常强大的检测能力，精度遥遥领先，其模型依赖参数量较大的Transformer结构，实时性较弱。后者依赖轻量级的Convolution结构，能够达到实时推理的效率，精度上依然不错。

DOSOD（Decoupled Open-Set Object Detection）是地瓜机器人最新发布的开放词汇目标检测算法，力求在低算力边缘端实现更高的推理效率，同时带来比YOLO-World更具竞争力的精度表现。在算法上，DOSOD采用了独特的解耦特征对齐策略，摒弃了传统的图像-文本交互方式，通过基于MLPs的特征适配模块对图像与文本的特征进行优化与对齐，进一步提升了模型的推理效率和精度。

实验结果显示，DOSOD在多个公开数据集（如LVIS）上的表现超越了YOLO-World-v2，并在边缘AI计算平台上展现了压倒性的效率优势。

文章开源地址：https://arxiv.org/abs/2412.14680

代码开源地址：https://github.com/D-Robotics-AI-Lab/DOSOD

文章由地瓜机器人应用算法部，中科院自动化所多模态人工智能系统全国重点实验室，苏州大学未来学院，上海科技大学信息科学技术学院联合出品。

DOSOD的基本原理

目前主流的开放词汇检测对齐策略主要分为以下三种：

(a) 教师 - 学生蒸馏方法

描述：利用 VLM（视觉语言模型）的文本编码器生成的文本嵌入来监督图像特征和检测器特征的对齐。也可以通过裁剪图像区域来对齐特征。
总结：通过 VLM 的文本编码器来指导图像和检测器特征的对齐。

(b) 基于交互的对齐策略

描述：文本嵌入与检测器骨干网络提取的图像特征进行交互，以实现对齐。
总结：通过文本嵌入与图像特征的交互来实现特征对齐。

(c) 提出的解耦对齐策略

描述：在不进行交互的情况下对齐特征，通过视觉 - 语言特征适配来实现。
总结：采用解耦方式，不依赖交互来进行特征对齐。

DOSOD（Decoupled Open-Set Object Detection）属于第三种开放词汇检测对齐策略——解耦对齐策略。该方法的核心思想是通过将文本和图像模态的特征解耦，以实现更高效的对齐过程，从而在保证检测精度的同时大幅提升推理速度。

在此基础上，DOSOD洞察到了闭集检测与开放词汇检测之间的本质联系，提出了全新的结构框架（如上图所示）。具体来说，DOSOD将传统分类分支最后的卷积操作等价地解构为两个模态的特征对齐操作，从而激发出解耦的特征学习和共同空间对齐的结构。

在该框架中，类别标签文本首先通过一个文本编码器（来自VLM）生成初步的Text Embedding，然后经过一个基于MLPs的特征适应模块，对Text Embedding进行特征优化，为Joint Space中的对齐操作做准备。

在图像侧，DOSOD使用经典的单阶段目标检测器（文中使用了YOLOv8）来提取图像的多尺度特征图。每个特征点表示图像中的一个区域特征。最后，在Joint Space中，通过计算Text Embedding与Region Feature之间的相似度，从而完成特征对齐。

DOSOD的实验结果

在实验部分，DOSOD在公开数据集上进行了预训练，并在LVIS和COCO数据集上进行了Zero-shot验证。DOSOD均拥有优秀的精度表现：

在LVIS数据集上，相较于YOLO-World-v2，DOSOD精度全面领先，并与YOLO-World-v1不分伯仲。

在COCO数据集上，DOSOD整体精度要略低于YOLO-World，但YOLO-World-v2的精度微高于YOLO-World-v1，也一定程度上说明，COCO由于词汇丰富程度较低，不太适用于开放词汇检测任务评测。

在推理速度上，通过将DOSOD与YOLO-World在NVIDIA RTX 4090和D-Robotics RDK X5上进行全面对比，我们可以看到：

DOSOD在主流的服务器级别的芯片上，推理效率是显著高于YOLO-World。

在边缘侧的AI计算平台上，DOSOD以碾压式的效率提升，远远超越YOLO-World。

DOSOD的应用效果

DOSOD开放词汇检测算法有着广泛的应用场景，既能用于常规检测任务里的目标检测，也可以应用在特殊场景下长尾目标类型的检测任务当中。针对某些极端长尾的目标类型，只需收集少量相关数据进行微调，就能显著提高模型的稳定性和检测效果。

DOSOD 在常规目标检测上的检测效果

在闭集目标检测任务中，COCO数据集预先定义了80个固定类别。我们可以看到，在经过大数据量的开放词汇数据集预训练后，DOSOD能够检测出诸多长尾类别，如图2左下角的“heater”，图4中的“shoe”和“wheel”，而这些词汇并未包含在COCO数据集的80个类别之内。

DOSOD 在特殊场景的长尾类别上的检测效果

以下展示的是扫地机视角下的图像，任务要求是检测出地面上的各类污渍或障碍物，这些类别并不是常规目标检测任务中的标准类别。通过少量数据的微调，DOSOD成功识别了这些特殊类别，为在该场景中准确检测出多样化的长尾类别发挥了关键作用。

DOSOD作为一款新兴的开放词汇检测算法，凭借创新的解耦特征对齐策略，在提升推理效率的同时，成功地保证了精度，展示出了极强的应用潜力。未来，随着计算资源的提升与算法的不断优化，DOSOD有望在机器人、自动驾驶、智能家居等领域提供更加高效精准的目标检测解决方案。

作为地瓜机器人前沿算法研究的最新成果，DOSOD不仅在精度上超越了对标方法，更成功解决了推理效率与低算力设备适应性之间的挑战，为智能机器人技术的普及与发展提供了有力支持。

未来，地瓜机器人将秉承“成为机器人时代的Wintel”的品牌初心，持续与客户一同深入应用场景，在提供拥有极致性能表现的硬件的同时，为行业客户和开发者提供丰富的具有实用价值的算法，加速机器人技术的落地和广泛应用。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28512

浏览量
207499
算法

算法

+关注

关注
23

文章
4622

浏览量
93055
人工智能

人工智能

+关注

关注
1792

文章
47425

浏览量
238955
RDK

RDK

+关注

关注
0

文章
8

浏览量
9054

【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

具身智能机器人的基础模块，这个是本书的第二部分内容，主要分为四个部分：机器人计算系统，自主机器人的感知系统，自主机器人的定位系统，自主机器人

发表于 01-04 19:22

ROSCon China 2024 | RDK第一本教材来了！地瓜机器人与古月居发布新书《ROS 2智能机器人开发实践》

12月7日-8日，为期两天的ROSCon China 2024在上海圆满落幕，来自全球的ROS专家学者、开发者、企业代表齐聚一堂，共享机器人前沿技术成果。地瓜机器人携手众多RDK生态产品亮相，并联手古月居共同推出首本基于RDK

发表于 12-10 18:48 •436次阅读

ROSCon China 2024 | RDK第一本教材来了！<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>与古月居发布新书《ROS 2智能<b class='flag-5'>机器人</b>开发实践》

兆易创新亮相2024地平线地瓜机器人开发者日

日前，以“加速智能生长”为主题的“2024地瓜机器人开发者日暨新品发布”活动在深圳成功举办。兆易创新作为地瓜机器人优质生态合作伙伴，受邀出席大会。中央市场部王霄受邀参加议程中的DUP教

发表于 10-17 09:47 •416次阅读

地瓜机器人发布一系列通用机器人套件

在“机器人+”浪潮的推动下，地瓜机器人近日隆重推出了一系列面向未来的软硬件产品组合，旨在赋能新一代通用机器人的发展。此次发布的亮点包括旭日5智能计算芯片、RDK X5

发表于 09-25 15:56 •358次阅读

地瓜机器人与广和通深度合作，共驱智能机器人商用落地

9月20日，2024地瓜机器人开发者日暨新品发布在深圳顺利举办。广和通作为地瓜机器人官方授权硬件IDH合作伙伴，受邀出席大会并展示了一系列基于地瓜

发表于 09-23 16:27 •303次阅读

地瓜机器人与广和通深度合作，共驱智能机器人商用落地

9月20日，2024地瓜机器人开发者日暨新品发布在深圳顺利举办。广和通作为地瓜机器人官方授权硬件IDH合作伙伴，受邀出席大会并展示了一系列基于地瓜

发表于 09-23 16:27 •506次阅读

地瓜机器人携手广和通共推智能机器人新纪元

2024年9月20日，深圳迎来了科技界的一场盛会——地瓜机器人开发者日暨新品发布会圆满举行。此次活动不仅见证了地瓜机器人在智能计算领域的又一里程碑，还深化了其与广和通作为官方授权硬件I

发表于 09-23 13:03 •661次阅读

使用OpenVINO C# API部署YOLO-World实现实时开放词汇对象检测

的快速准确识别，并通过AR技术将虚拟元素与真实场景相结合，为用户带来沉浸式的交互体验。在本文中，我们将结合OpenVINO C# API使用最新发布的OpenVINO 2024.0部署 YOLO-World实现实时开放词汇对象

发表于 08-30 16:27 •720次阅读

地瓜机器人全新亮相:引领机器人时代"母生态"的革新

在科技日新月异的今天，每一个细微的创新都可能成为推动行业变革的关键力量。地平线旗下的“地瓜机器人”官方公众号正式揭晓了其历经九年精心打磨的全新面貌，标志着这家企业在机器人领域的深度布局与远大愿景正式启航。

发表于 08-21 16:40 •1096次阅读

旗晟机器人环境检测算法有哪些？

硬件支撑，更离不开强大的算法库作为软件核心，二者相辅相成，缺一不可。今天就来了解旗晟机器人环境检测算法。 1、设施异常监测通过集成高精度传感器与智能图像识别技术。它不仅能检测A字梯是

发表于 07-19 17:54 •549次阅读

ROS让机器人开发更便捷，基于RK3568J+Debian系统发布！

，简单快捷地调用合适的算法库，以提高开发效率，加快开发进程。 (2) 开源免费，架构精简 ROS系统是一个开源免费，架构精简的机器人操作系统。ROS被设计为尽可能精简，以便为ROS

发表于 07-09 11:38

口罩佩戴检测算法

口罩佩戴检测算法基于YOLOv5在图像识别检测领域的优异性能，本文研究基于基于YOLOv5的口罩佩自动戴检测方法。首先从网络和真实生活中中寻找并采集不同场景人群口罩佩戴的图片约500张并自建数据集

发表于 07-01 20:20 •332次阅读

人员跌倒识别检测算法

人员跌倒识别检测算法是基于视频的检测方法，通过对目标人体监测，当目标人体出现突然倒地行为时，自动监测并触发报警。人员跌倒识别检测算法基于计算机识别技术，配合现场摄像头，自动识别如地铁手扶梯/楼梯

发表于 06-30 11:47 •472次阅读

安全帽佩戴检测算法

安全帽佩戴监控是铁路工程施工人员安全管理中的重点和难点，它对检测算法的准确率与检测速度都有较高的要求。本文提出一种基于神经网络架构搜索的安全帽佩戴检测算法 NAS-YOLO。该神经网络架构由上

发表于 06-26 22:22 •418次阅读

基于FPGA EtherCAT的六自由度机器人视觉伺服控制设计

机器人视觉伺服中有着广阔的应用，本实验将集成摄像头的伊瑟特主站应用在自主研发的六自由度串联机器人上，将机器人运动学算法编写入伊瑟特主站，使得机器

发表于 05-29 16:17