近日,伯克利大学发布了BDD100K,一个目前来说最大规模也是最多样化的驾驶视频数据集,这些数据具有四个主要特征:大规模,多样化,在真实的街道采集,并带有时间信息。数据的多样性对于测试感知算法的鲁棒性尤为重要。利用这个数据集,你还可以参加伯克利在CVPR 2018 举办的自动驾驶竞赛,其在在arXiv上也发表了相关的介绍文章。
BDD100K: A Large-scale Diverse Driving Video Database
伯克利大学发布了BDD100K,一个目前来说最大规模也是最多样化的驾驶视频数据集,其中包含了丰富的各种标注信息。
论文:BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling
大规模,多样化,驾驶,视频:Pick Four
自动驾驶有望改变每个人的生活。然而,最近的一系列自动驾驶事故表明,还不清楚一个人造的驾驶感知系统如何才能能够避免在人类看来是明显的错误。作为计算机视觉研究人员,BAIR有兴趣探索最前沿的自动驾驶感知算法,使其更安全。为了设计和测试潜在的算法,BAIR希望利用来自真实驾驶平台收集的数据中的所有信息。这些数据具有四个主要特征:大规模,多样化,在真实的街道采集,并带有时间信息。数据的多样性对于测试感知算法的鲁棒性尤为重要。但是,当前的开放数据集只能覆盖上述属性的一个子集。因此,在Nexar【4】的帮助下,BAIR发布了BDD100K数据库,这是迄今为止计算机视觉研究中规模最大,最多样化的开放式驾驶视频数据集。该项目是由Berkeley DeepDrive【5】工业联盟组织和赞助的,该组织负责研究计算机视觉和汽车应用机器学习领域的最新技术。
图:随机视频子集的位置。
正如名称所示,BAIR的数据集包含100,000个视频。 每个视频长约40秒,720p,30 fps。视频还附带了由手机记录的GPS/IMU信息,以显示粗糙的驾驶轨迹。我们的视频是从美国各地收集来的,如图所示。BAIR的数据库涵盖了不同的天气情况,包括晴天、阴天和雨天,以及白天和夜间的不同时段。下表总结了与以前的数据集的比较,这表明BAIR的数据集更大、更多样化。
图:与其他一些街景场景数据集比较。很难公平地比较数据集之间的#images,但我们在这里列出它们作为粗略参考。
这些视频及其轨迹可以帮助我们模仿学习驾驶法规,如BAIR在CVPR 2017论文【6】中所述。为了便于对大规模数据集进行计算机视觉研究,BAIR还在视频关键帧上做了基本的标注,详见下一节。 您现在可以在【1】下载数据和标注。
标注(Annotations)
我们在每个视频的第10秒采样一个关键帧,并为这些关键帧提供标注。它们分别在多个层次上被标记:图像标记,道路对象边界框,可驱动区域,车道标记和全帧实例分段。这些标注将帮助我们理解不同类型场景中数据和对象统计的多样性。 我们将在另一篇博文中讨论标注的过程。有关标注的更多信息可以在BAIR的arXiv论文【2】中找到。
图:BAIR标注信息的总览
BAIR为经常出现在道路上的所有10万个关键帧上的对象标上对象边界框,以了解对象的分布及其位置。下面的条形图显示了对象计数。还有其他方法可以在我们的标注中使用统计信息。例如,我们可以比较不同天气条件或不同类型场景下的对象数量。该图表还显示了BAIR数据集中出现的不同的对象集,以及数据集的规模——超过100万辆汽车。这里应该提醒读者,这些是不同的对象, 具有不同的外观和背景。
图:统计不同类型的对象。
BAIR的数据集也适用于研究一些特定的领域。 例如,如果您对检测和避开街上的行人感兴趣,您也有理由研究BAIR数据集,因为它包含比以前的专业数据集更多的行人实例,如下表所示。
图:与其他行人数据集关于训练集大小的比较。
车道标记(Lane Markings)
车道标记是人类驾驶员重要的道路指示。当GPS或地图没有精准地全球覆盖时,它们也是自动驾驶系统驾驶方向和定位的关键线索。根据车道如何指示车辆,我们将车道标记划分为两种类型。垂直车道标记(在下图中用红色标记)表示沿着车道行驶方向的标记。平行车道标记(下图中以蓝色标记)表示车道上的车辆需要停车的标志。BAIR还提供标记的属性,例如实线与虚线以及双层与单层。
如果您准备尝试使用您的车道标记预测算法,请不要再观望。以下是与现有车道标记数据集的比较。
可行驶区域(Drivable Areas)
我们是否可以在道路上行驶不仅取决于车道标记和交通设备,它还取决于与道路上其他物体的复杂交互。最后,了解哪个区域可以开车是很重要的。 为了研究这个问题,我们还提供了可驾驶区域的分段标注,如下所示。我们根据自我车辆的轨迹将可驾驶区域分为两类:直接可驾驶和替代可驾驶。直接可驾驶,用红色标记,意味着自我车辆有道路优先权并且可以在那个区域继续驾驶。另一种可驾驶的,用蓝色标记,意味着自我车辆可以在该区域驾驶,但必须谨慎,因为道路优先权可能属于其他车辆。
全帧分割(Full-frame Segmentation)
在Cityscapes数据集中已经显示,全帧精细实例分割可以极大地加强密集预测和目标检测的研究,这是计算机视觉能够应用广泛的支柱。由于我们的视频处于不同的领域,因此我们还提供实例分割标注以便比较不同数据集的相对位置偏移。要获得全像素级的分割可能是非常昂贵和费力的。幸运的是,使用我们自己的标注工具,标注成本可以降低50%。最后,我们对10K图像的子集进行全帧实例分割。BAIR的标签集与Cityscapes中的训练标注相兼容,以便于研究数据集之间的域转换。
驾驶挑战赛(Driving Challenges)
BAIR将在CVPR2018自动驾驶workshop上主持了三项挑战【7】:道路目标检测,可驾驶区域预测和语义分割的领域适应。检测任务要求你的算法在我们的测试图像中找到所有的目标对象,而可驾驶区域预测需要细分汽车可以驾驶的区域。在域适应中,测试数据在中国收集。 因此系统会受到挑战,要让适应美国的模型在中国北京拥挤的街道上工作。您可以在登录【8】BAIR的在线提交门户网站后立即提交结果。请务必查看BAIR的工具包【9】,开始您的参与。
未来的工作
自驾车的感知系统绝非仅限于单目视频。它还可能包括全景和立体声视频,以及其他类型的传感器,如LiDAR和雷达。 BAIR希望在不久的将来能够提供研究这些多模态传感器的数据集。
-
机器学习
+关注
关注
66文章
8341浏览量
132282 -
数据集
+关注
关注
4文章
1200浏览量
24615 -
自动驾驶
+关注
关注
782文章
13607浏览量
165875
原文标题:伯克利发布史上最大规模自动驾驶视频数据集BDD100K
文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论