0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍一个重要的惯性框架数据集Berkeley DeepDrive Drone

3D视觉工坊 来源:深蓝AI 作者:口香糖 2022-11-01 09:41 次阅读

1. 引言

研究自动驾驶车辆在复杂路况下的行为决策具有重要意义,但目前大多数自动驾驶数据集只关注结构化场景,很少有人去研究非结构化道路环境,更少人去研究复杂非结构化场景中的车辆行为。 本文将介绍一个重要的惯性框架数据集Berkeley DeepDrive Drone (B3D),该数据集由相机采集,广泛包含大量的复杂非结构化场景,包括有交通事故的高速公路、无信号灯交叉路口等。 该

数据集有助于研究复杂路况下的自动驾驶车辆行为,并启发自动驾驶汽车和仓库机器人的分散运动规划算法的新设计。

2. 摘要

分散式多智能体规划一直是机器人领域的一个重要研究方向。在该领域的一个有趣和有影响力的应用是非结构化道路环境中的分散车辆协调。 例如,在一个交叉路口,在没有中央协调器的情况下,对相交路径的多个车辆进行拆分是有用的,但却是困难的。

我们从常识中了解到,要让车辆通过这种非结构化的环境,驾驶员必须理解并遵守附近驾驶员所观察到的隐含的社交礼仪。为了研究这种隐式驾驶协议,我们收集了伯克利Deep Drive Drone数据集。

该数据集包含1 )一组记录非结构化驾驶的航拍视频,2 )一组用于训练车辆检测模型的图像和注释,以及3 )一组用于说明典型用法的开发脚本。我们认为,该数据集对于研究人类驾驶员所采用的分散多智能体规划具有主要意义,对于遥感环境中的计算机视觉具有次要意义。

3. 数据集介绍

3.1 数据集格式

B3D数据集中记录的场景可以分为以下六类:1)无信号灯控制的交叉路口,2) 无信号灯控制的环形交叉口,3)追尾事故,4)走走停停的车流,5)道路施工引起的车流合并,以及6)匝道引起的合并。 B3D数据集由20个后处理视频、16002个带注释的图像和一个开发工具包组成,视频、带注释的图像和开发工具包的大小分别为84.5 GB、1.55 GB和225 MB,总计约86.3 GB。在20个经过处理的视频中,有8个是在路口上录制的,12个是在高速公路上录制的,视频格式为mp4,数据集的结构如图1所示。

95385936-5973-11ed-a3b6-dac502259ad0.png

图1B3D数据集的文件结构

如图2所示是B3D数据集中所展示的追尾事故,分别发生在hwy00.mp4,以及hwy01.mp4中。在hwy00.mp4的00:45,可以观察到框架左边缘附近的第一次事故。在hwy01.mp4的13:10,在帧中间发现了另一个碰撞事故。

954c94f0-5973-11ed-a3b6-dac502259ad0.png

图2 hwy00.mp4和hwy01.mp4的追尾碰撞。

第一次事故涉及至少两辆车,而第二起事件涉及四辆车。 无信号控制的交叉路口可以在jnc00.mp4、jnc01.mp4、jnc02.mp4和jnc07.mp4的视频中找到。如图3a所示和数字3b所示,视频jnc00.mp4和jnc01.mp4是三叉路口的两种变体。如图3c和3d所示数字,视频jnc02.mp4和jnc07.mp4是四向交叉口的两种变体。

jnc03.mp4、jnc04.mp4、jnc05.mp4和jnc06.mp4都有无信号环形交叉口。如图3e所示,视频jnc03.mp4和jnc04.mp4是两个ve-way环岛的记录。如图3f和3g所示,视频jnc05.mp4和jnc06.mp4是四向环形交叉口的两种变体。 hwy04.mp4和hwy05.mp4记录了走走停停的车流。

第一个走走停停行为在hwy04.mp4时间02:30到05:07之间形成。第二次停停走走的浪潮出现在hwy04.mp4时间06:06到08:10之间。第三次停停走走的波动出现在hwy04.mp4时间的10:26到12:25之间。第四次发生在hwy05.mp4时间00:00到01:33之间。最后一次出现在hwy05.mp4时间05:19到06:07之间。停停走走波的形成和消散过程如图4所示。

hwy06.mp4、hwy07.mp4和hwy08.mp4都记录了道路工程引发的车辆合并。如图3j所示,该场景的拓扑是一个四车道到两车道的瓶颈。 hwy09.mp4、hwy10.mp4和hwy11.mp4记录了匝道诱导合并。如图3k所示,匝道的拓扑结构是一条三车道的入口匝道正在并入一条四车道的拥堵公路。在合并点之前和之后,车流保持堵塞。

9569aae0-5973-11ed-a3b6-dac502259ad0.png

图3 B3D数据集中的典型道路拓扑。

(a)-(d)无信号灯交叉口,(e)-(g)无信号灯环形交叉口,(h)-(i)高速公路,以及(i)-(k)合流瓶颈。

95a10e36-5973-11ed-a3b6-dac502259ad0.png

图4 走走停停车流的时间线。 绿色表示正常交通,红色表示由强降雨引起的拥堵,浅红色表示由走走停停引起的拥堵。

3.2 图片标注

为了定性分析视频中观察到的车辆行为,需要获得场景中每辆相关车辆的精确轨迹。为了构建车辆的轨迹,作者首先在每一帧中检测其位置,然后使用跟踪算法将跨帧的每个检测位置关联起来。 为此,作者建立了一个图像数据集,可用于训练车辆检测模型。该数据集由16002个带注释的图像组成,其中80%被分割用于训练,10%用于验证,10%用于测试。

图5显示了一个示例注释。 数据集中,总共有135303个边界框被注释为路口图像,总共有129939个边界框被创建为高速公路图像。注意,所有车辆均被不加区分得定义为vehicle类。

95c19d2c-5973-11ed-a3b6-dac502259ad0.png

图5 注释图像示例。彩色矩形是场景中车辆的轴向对齐边界框。

3.3 开发工具包

除了视频和带注释的图片,作者还提供了一个开发工具包,其中包含三个示例脚本:train.py、test.py和mask.py。 其中,脚本train.py用于显示注释图像数据如何用来训练用于车辆检测的神经网络模型。在这个脚本中,作者使用对象检测库Detectron2来训练RetinaNet模型,用于检测输入图像中车辆的位置。

脚本test.py将通过train.py脚本训练的训练模型应用于输入图像,用于训练后的评估和推理。作者提供了预训练模型,可以直接用于推理,使用预训练模型的检测结果的实例如图6所示。

95d124d6-5973-11ed-a3b6-dac502259ad0.png

图6 带有检测结果的示例图像。

彩色矩形是轴向对齐的边界框。黑色数字是估计边界框的置信分数,其中1.0表示完全确定,0.0表示完全不确定。 最后,mask.py根据预先定义的多边形遮罩来裁剪图像。图7显示了脚本如何根据红色遮罩裁剪掉环岛图像的不相关部分。该脚本旨在帮助用户专注于场景中唯一相关的部分,其中的相关性由用户通过CVAT工具确定。

要裁剪视频,只需为视频的一帧定义一个多边形遮罩,然后对视频的每一帧应用遮罩。此外,作者还提供了Docker文件。

95ea5cc6-5973-11ed-a3b6-dac502259ad0.png

图7 mask过程的演示。红色多边形面具由CVAT设计。蒙版之外的像素被认为是不相关的,并被标记为黑色。

4. 视频采集和处理

4.1 数据采集时间

这20个航拍视频是2019年12月11日至12月21日在中国由DJI Mavic 2 Pro四轴飞行器拍摄的。具体的日期、长度和地点如表1所示。

表1视频日期、长度及定位

960130c2-5973-11ed-a3b6-dac502259ad0.png

在每次视频拍摄期间,作者将四轴无人机直接悬停。然后使用内置相机以4K和30 FPS记录俯视视频。实验设置的可视化如图8所示。由于电池容量有限,每次拍摄被限制在15到20分钟之间。

96173ade-5973-11ed-a3b6-dac502259ad0.png

图8 实验装置的图解。四轴无人机悬停在感兴趣的道路上,内置摄像机记录每个交通参与者进出场景的俯视图。

为了训练用于车辆检测的神经网络模型,作者从20个视频中每15秒提取一个帧,然后手动标记一个轴向对齐的边界框,在选定的帧中的每个车辆。此外,作者裁剪了视频帧中不相关的部分,如树木、屋顶和停车场,以此来减小图像的大小。

4.2 应用领域

B3D数据集主要有2个重要的应用场景:运动规划,以及计算机视觉。

在运动规划任务中,B3D数据集典型的应用过程如下: 1)运行mask脚本以选择视频数据集的相关部分; 2)应用检测模型提取mask场景中每辆车的位置; 3)检查检测结果,并且手动校正检测错误; 4)使用SORT等跟踪算法,将检测到的位置关联到轨迹中; 5)基于估计的轨迹学习和验证人类驾驶模型。

以此估计得到的模型可以部署在自动驾驶系统上,用于在特殊非结构化场景中导航。此外,所得到的模型可以作为仓库机器人开发分散协调算法的基线。 在计算机视觉中,B3D主要用于开发或评估遥感环境中的小型道路目标的CV算法。

从空中视频中检测行人或骑自行车的人对于最先进的计算机视觉来说仍然是一个挑战。这很大程度上是由于这些小物体的低分辨率,因为低分辨率使物体在视觉上模糊不清。如图9所示,检测模型可能会将行人与水印混淆,或弄混行人和骑自行车的人。

为此,B3D可以作为构建训练数据和验证候选算法的数据源。

9630aba4-5973-11ed-a3b6-dac502259ad0.png

图9 低分辨率物体的视觉模糊

5. 总结

本文介绍了伯克利DeepDrive无人机数据集,该数据集拓展了自动驾驶中的非结构化场景,对于研究复杂路况下的自动驾驶车辆行为具有重要意义。

该数据集包含总共20个视频序列、16002个带注释的图像和一个开发工具包。它可用于以下应用:1)在底层结构道路环境中模拟驾驶员行为,2)设计去中心化运动规划算法,以及3)开发用于低分辨率道路目标的检测方法。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 无人机
    +关注

    关注

    228

    文章

    10340

    浏览量

    179631
  • 信号控制
    +关注

    关注

    0

    文章

    40

    浏览量

    9191
  • 自动驾驶
    +关注

    关注

    783

    文章

    13684

    浏览量

    166147

原文标题:分散式车辆协同:伯克利DeepDrive无人机数据集B3D

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于旋转平移解耦框架的视觉惯性初始化方法

    精确和鲁棒的初始化对于视觉惯性里程计(VIO)至关重要,因为不良的初始化会严重降低姿态精度。
    的头像 发表于 11-01 10:16 217次阅读
    基于旋转平移解耦<b class='flag-5'>框架</b>的视觉<b class='flag-5'>惯性</b>初始化方法

    如何理解机器学习中的训练、验证和测试

    理解机器学习中的训练、验证和测试,是掌握机器学习核心概念和流程的重要步。这三者不仅构成了模型学习与评估的基础
    的头像 发表于 07-10 15:45 3212次阅读

    PyTorch如何训练自己的数据

    PyTorch是广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据是不可或缺的组成部分。
    的头像 发表于 07-02 14:09 1329次阅读

    Harvard FairSeg:第一个用于医学分割的公平性数据

    为了解决这些挑战,我们提出了第一个大规模医学分割领域的公平性数据, Harvard-FairSeg。该数据旨在用于研究公平性的cup-d
    的头像 发表于 01-25 16:52 516次阅读
    Harvard FairSeg:第<b class='flag-5'>一个</b>用于医学分割的公平性<b class='flag-5'>数据</b><b class='flag-5'>集</b>

    自动驾驶数据的生成模型之WoVoGen框架原理

    生成多摄像头的街景视频对于增加自动驾驶数据至关重要,解决了对广泛而多样的数据的迫切需求。由于多样性的限制和处理光照条件的挑战,传统的基于渲染的方法越来越多的被基于扩散的方法所取代。
    发表于 01-25 15:26 541次阅读
    自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>集</b>的生成模型之WoVoGen<b class='flag-5'>框架</b>原理

    语音数据在智能语音搜索中的应用与挑战

    、引言 随着互联网的普及和移动设备的兴起,智能语音搜索已经成为人们获取信息的重要方式之。智能语音搜索通过语音交互的方式,为用户提供更加便捷、高效的信息查询服务。语音数据
    的头像 发表于 01-18 15:09 516次阅读

    推荐好用的高精度MEMS惯性测量单元

    无锡瑞吉星电子的RJX-IMU-164系列; 参数如下: 、概述 RJX-IMU-16460高精度惯性测量单元是款小型高精度MEMS惯性测量单元,可与ADIS-16460实现原位
    发表于 01-18 13:46

    什么是LlamaIndex?LlamaIndex数据框架的特点和功能

    LlamaIndex是个数据框架,用于让基于LLM的应用程序摄取、结构化和访问私有或领域特定的数据。它提供Python和Typescript版本。
    的头像 发表于 01-05 11:08 9163次阅读
    什么是LlamaIndex?LlamaIndex<b class='flag-5'>数据</b><b class='flag-5'>框架</b>的特点和功能

    语音数据:开启智能语音技术的新篇章

    意义。 、语音数据重要性 语音数据是智能语音技术的基石。通过收集大量的语音
    的头像 发表于 12-29 11:06 634次阅读

    语音数据:探索、挑战与应用

    将探讨语音数据重要性、面临的挑战以及其在各个领域的应用。 、语音数据
    的头像 发表于 12-28 13:56 514次阅读

    语音数据在智能医疗中的应用与挑战

    随着医疗技术的不断发展和人工智能的广泛应用,智能医疗已经成为现代医疗领域的重要方向。语音数据在智能医疗中发挥着重要作用,为医生、护士、患者等提供了更加便捷和高效的沟通方式。本文将详细
    的头像 发表于 12-25 09:49 625次阅读

    语音数据在智能语音助手中的应用与挑战

    、引言 随着智能设备的普及和人工智能技术的不断发展,智能语音助手已经成为人们日常生活中不可或缺的部分。语音数据在智能语音助手中发挥着重要
    的头像 发表于 12-14 15:07 730次阅读

    语音数据在人工智能中的应用与挑战

    、引言 随着人工智能技术的快速发展,语音数据在各种应用中发挥着越来越重要的作用。语音数据
    的头像 发表于 12-14 15:00 649次阅读

    语音数据:AI语音技术的灵魂

    、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据则是AI语音技术的灵魂。本文将深入探讨语音数据
    的头像 发表于 12-14 14:33 979次阅读

    语音数据:推动AI语音技术的核心力量

    、引言 随着人工智能的快速发展,语音技术作为人机交互的重要手段,正发挥着越来越重要的作用。而语音数据则是推动AI语音技术的核心力量。本文
    的头像 发表于 12-12 11:32 675次阅读