0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用TRansformer进行端到端的目标检测及跟踪

3D视觉工坊 来源:计算机视觉研究院 2023-04-18 09:12 次阅读

现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。

1

简要

多目标跟踪(MOT)任务的关键挑战是跟踪目标下的时间建模。现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。所以现有的方法缺乏从数据中学习时间变化的能力。

ddad6866-dd74-11ed-bfe3-dac502259ad0.png

在今天分享中,研究者提出了第一个完全端到端多目标跟踪框架MOTR。它学习了模拟目标的长距离时间变化。它隐式地执行时间关联,并避免了以前的显式启发式方法。MOTR建立在TRansformer和DETR之上,引入了“跟踪查询”的概念。每个跟踪查询都会模拟一个目标的整个跟踪。逐帧传输和更新,以无缝地执行目标检测和跟踪。提出了时间聚合网络Temporal aggregation network)结合多框架训练来建模长期时间关系。实验结果表明,MOTR达到了最先进的性能

2

简单背景

多目标跟踪(MOT)是一种视觉目标检测,其任务不仅是定位每一帧中的所有目标,而且还可以预测这些目标在整个视频序列中的运动轨迹。这个问题具有挑战性,因为每一帧中的目标可能会在pool environment中被遮挡,而开发的跟踪器可能会受到长期和低速率跟踪的影响。这些复杂而多样的跟踪方案在设计MOT解决方案时带来了重大挑战。

ddb96274-dd74-11ed-bfe3-dac502259ad0.png

对于基于IoU的方法,计算从两个相邻帧检测到的检测框的IoU矩阵,重叠高于给定阈值的边界框与相同的身份相关联(见上图(a))。类似地,基于Re-ID的方法计算相邻帧的特征相似性,并将目标对与高相似性相关起来。此外,最近的一些工作还尝试了目标检测和重识别特征学习的联合训练(见上图(b))。

由于DETR的巨大成功,这项工作将“目标查询”的概念扩展到目标跟踪模型,在新框架中被称为跟踪查询。每个跟踪查询都负责预测一个目标的整个跟踪。如上图(c),与分类和框回归分支并行,MOTR预测每一帧的跟踪查询集。

3

新框架分析

最近,DETR通过采用TRansformer成功地进行了目标检测。在DETR中,目标查询,一个固定数量的学习位置嵌入,表示一些可能的实例的建议。一个目标查询只对应于一个使用bipartite matching的对象。考虑到DETR中存在的高复杂性和慢收敛问题,Deformable DETR用多尺度deformable attention取代了self-attention。为了展示目标查询如何通过解码器与特征交互,研究者重新制定了Deformable DETR的解码器。

ddbfda64-dd74-11ed-bfe3-dac502259ad0.png

MOTR

在MOTR中,研究者引入了跟踪查询和连续查询传递,以完全端到端的方式执行跟踪预测。进一步提出了时间聚合网络来增强多帧的时间信息

ddc6430e-dd74-11ed-bfe3-dac502259ad0.png

DETR中引入的目标(检测)查询不负责对特定目标的预测。因此,一个目标查询可以随着输入图像的变化而预测不同的目标。当在MOT数据集的示例上使用DETR检测器时,如上图(a),相同检测查询(绿色目标查询)预测两个不同帧预测两个不同的目标。因此,很难通过目标查询的身份来将检测预测作为跟踪值联系起来。作为一种补救措施,研究者将目标查询扩展到目标跟踪模型,即跟踪查询。在新的设计中,每个轨迹查询都负责预测一个目标的整个轨迹。一旦跟踪查询与帧中的一个目标匹配,它总是预测目标,直到目标消失(见上图(b))。

ddd03396-dd74-11ed-bfe3-dac502259ad0.png

Overall architecture of the proposed MOTR

Query Interaction Module

在训练阶段,可以基于对bipartite matching的GTs的监督来实现跟踪查询的学习。而对于推断,研究者使用预测的轨迹分数来确定轨道何时出现和消失。

dddc4938-dd74-11ed-bfe3-dac502259ad0.png

Overall Optimization

我们详细描述下MOTR的训练过程。给定一个视频序列作为输入,训练损失,即track loss,是逐帧计算和逐帧生成的预测。总track loss是由训练样本上的所有GT的数量归一化的所有帧的track loss的总和:

dde3c58c-dd74-11ed-bfe3-dac502259ad0.png

单帧图像Lt的track loss可表示为:

dde90a24-dd74-11ed-bfe3-dac502259ad0.png

4

实验

ddf1574c-dd74-11ed-bfe3-dac502259ad0.png

Implementation Details

All the experiments are conducted on PyTorch with 8Tesla V100 GPUs. We use the Deformable-DETR withResNet50 as our basic network. The basic network ispretrained on the COCO detection dataset.We trainour model with the AdamW optimizer for total 200 epochswith the initial learning rate of 2.0 · 10−4. The learning ratedecays to 2.0 · 10−5 at 150 epochs. The batch size is set to1 and each batch contains 5 frames.

ddfda3a8-dd74-11ed-bfe3-dac502259ad0.png

The effect of multi-frame continuous query passing on solving ID switch problem. When the length of video sequence is setto two (top), the objects that are occluded will miss and switch the identity. When improving the video sequence length from two to five(bottom), the track will not occur the ID switch problem with the help of enhanced temporal relation.

de2b7882-dd74-11ed-bfe3-dac502259ad0.png






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1129

    浏览量

    40614
  • 检测器
    +关注

    关注

    1

    文章

    857

    浏览量

    47616
  • MOT
    MOT
    +关注

    关注

    0

    文章

    18

    浏览量

    6939

原文标题:利用TRansformer进行端到端的目标检测及跟踪(附源代码)

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    智己汽车“”智驾方案推出,老司机真的会被取代吗?

    与Momenta联合打造的IM AD 3.0端直觉智能驾驶系统,在结构设计和决策逻辑上,进行了大胆的创新,试图用“直觉化”思维模式替代传统的模块化系统。   IM AD 3.0的技术架构:
    的头像 发表于 10-30 09:47 84次阅读
    智己汽车“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智驾方案推出,老司机真的会被取代吗?

    InfiniBand网络解决LLM训练瓶颈

    的,这需要大量的计算资源和高速数据传输网络。InfiniBand(IB)网络作为高性能计算和AI模型训练的理想选择,发挥着重要作用。在本文中,我们将深入探讨大型语言模型(LLM)训练的概念,并探索
    的头像 发表于 10-23 11:26 200次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand网络解决LLM训练瓶颈

    Mobileye自动驾驶解决方案的深度解析

    自动驾驶技术正处于快速发展之中,各大科技公司和汽车制造商均在争相布局,试图在这个新兴领域占据一席之地。Mobileye作为全球自动驾驶技术的领军企业之一,凭借其独特的自动驾驶解决方案,展现了
    的头像 发表于 10-17 09:35 233次阅读
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶解决方案的深度解析

    测试用例怎么写

    编写测试用例是确保软件系统从头到尾能够正常工作的关键步骤。以下是一个详细的指南,介绍如何编写
    的头像 发表于 09-20 10:29 279次阅读

    恩智浦完整的Matter解决方案

    恩智浦为打造Matter设备,提供了完整的解决方案,从连接和安全解决方案到处理器和软件,应有尽有,为Matter标准的规模化商用提供有力支撑。
    的头像 发表于 08-26 18:04 2422次阅读
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>解决方案

    实现自动驾驶,唯有

    ,去年行业主流方案还是轻高精地图城区智驾,今年大家的目标都瞄到了(End-to-End, E2E)。
    的头像 发表于 08-12 09:14 527次阅读
    实现自动驾驶,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    周光:不是真“无图”,谈何

    “如果智能驾驶系统不能彻底摆脱高精度地图,谈何。”   6月1日,元戎启行CEO周光在粤港澳大湾区车展暨2024(第二届)未来汽车先行者大会上表示。   这并非周光第一次强调“无图”方案与
    发表于 06-03 11:06 2586次阅读
    周光:不是真“无图”,谈何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>

    小鹏汽车发布国内首个量产上车的大模型

    小鹏汽车近日宣布,国内首个大模型量产上车,这一革命性的技术将大幅提升智能驾驶的能力。据小鹏汽车介绍,这一大模型将使智驾能力提升二倍,感知距离同样翻倍,同时能够识别超过50种目标
    的头像 发表于 05-28 11:47 646次阅读

    小鹏汽车发布大模型

    小鹏汽车近日宣布,其成功研发并发布了“国内首个量产上车”的大模型,该模型可直接通过传感器输入内容来控制车辆,标志着智能驾驶技术的新突破。
    的头像 发表于 05-21 15:09 626次阅读

    佐思汽研发布《2024年自动驾驶研究报告》

    自动驾驶是直接从传感器信息输入(如摄像头图像、LiDAR等)控制命令输出(如转向、加减速等)映射的一套系统,最早出现在1988年的ALVINN项目,通过相机和激光测距仪
    的头像 发表于 04-20 11:21 2708次阅读
    佐思汽研发布《2024年<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶研究报告》

    理想汽车自动驾驶模型实现

    理想汽车在感知、跟踪、预测、决策和规划等方面都进行了模型化,最终实现了的模型。这种模型不仅完全模型化,还能够虚拟化,即在模拟环境中
    发表于 04-12 12:17 387次阅读
    理想汽车自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型实现

    百度开源DETRs在实时目标检测中胜过YOLOs

    这篇论文介绍了一种名为RT-DETR的实时检测Transformer,是第一个实时目标
    的头像 发表于 03-06 09:24 1307次阅读
    百度开源DETRs在实时<b class='flag-5'>目标</b><b class='flag-5'>检测</b>中胜过YOLOs

    移动协作机器人的RGB-D感知的处理方案

    本文提出了一种用于具有双目视觉的自主机器人的三维语义场景感知的流程。该流程包括实例分割、特征匹配和点集配准。首先,利用RGB图像进行
    发表于 02-21 15:55 585次阅读
    移动协作机器人的RGB-D感知的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>处理方案

    Sparse4D-v3:稀疏感知的性能优化及拓展

    上限,解决更多的corner case,让系统更加鲁棒。因此,在Sparse4D-v3中,我们主要做了两部分工作,其一是进一步提升模型的检测性能,另一是将Sparse4D拓展为一个
    的头像 发表于 01-23 10:20 1206次阅读
    Sparse4D-v3:稀疏感知的性能优化及<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>拓展

    毫米波雷达模块的目标检测跟踪

    毫米波雷达技术在目标检测跟踪方面具有独特的优势,其高精度、不受光照影响等特点使其在汽车、军事、工业等领域广泛应用。本文深入探讨毫米波雷达模块在目标
    的头像 发表于 11-14 15:50 613次阅读