0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LaSOT数据集的构造原理和评估方法

WpOh_rgznai100 来源:lq 2019-07-18 14:52 次阅读

CVPR 2019期间,专注于AR技术,整合软硬件人工智能公司亮风台公开大规模单目标跟踪高质量数据集LaSOT,包含超过352万帧手工标注的图片和1400个视频,这也是目前为止最大的拥有密集标注的单目标跟踪数据集。

论文《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》详细阐述了LaSOT数据集的构造原理和评估方法,由亮风台、华南理工大学、美图-亮风台联合实验室等单位共同完成,收录于CVPR 2019。此外,亮风台另一算法成果投影AR新成果入选CVPR 2019 oral。

LaSOT贡献

视觉跟踪是计算机视觉中最重要的问题之一,其应用领域包括视频监控、机器人技术、人机交互等。随着跟踪领域的巨大进步,人们提出了许多算法。在这一过程中,跟踪基准对客观评估起到了至关重要的作用。LaSOT的推出,是希望为行业提供一个大规模的、专门的、高质量的基准,用于深度跟踪训练和跟踪算法的真实评估。

图1:常用跟踪数据集统计示意图。包括OTB-2013、OTB-2015、TC-128、NUS-PRO、UAV123、UAV20L、VOT-2014、VOT-2017和LaSOT。圆直径与数据集的总帧数数成比例。所提出的LaSOT比所有其他基准都要大,并且专注于长期跟踪。

观察和比较不同的跟踪算法发现,其进一步发展和评估受到现有评测集的限制,存在的问题主要包括:

1.规模小。现有数据集很少有超过400个序列,由于缺乏大规模的跟踪数据集,很难使用跟踪特定视频训练深度跟踪器。

2.短时跟踪。理想的跟踪器能够在相对较长的时间内定位目标,目标可能消失并重新进入视图。然而,大多数现有的基准都集中在短期跟踪上,其中平均序列长度小于600帧(即20秒左右),而且目标几乎总是出现在视频帧中。

3.类别偏见。一个稳健的跟踪系统应该表现出对目标所属类别的不敏感性,这意味着在训练和评估跟踪算法时都应该抑制类别偏差(或类别不平衡)。然而,现有的基准通常只包含几个类别,视频数量不平衡。

许多数据集被提议处理上述问题,然而,并都没有解决所有的问题。

基于上述动机,他们为社区提供了一个新的大型单目标跟踪(LaSOT)基准,并提供了多方面的贡献:

1. LaSOT包含1400个视频,每个序列平均2512帧。每一帧都经过仔细检查和手动标记,并在需要时对结果进行目视检查和纠正。这样,可以生成大约352万个高质量的边界框注释。

此外,LaSOT包含70个类别,每个类别包含20个序列。据了解,LaSOT是迄今为止最大的具有高质量手动密集注释的对象跟踪数据集。

2. 与之前的数据集不同,LaSOT提供了可视化边界框注释和丰富的自然语言规范,这些规范最近被证明对各种视觉任务都是有益的,包括视觉跟踪。这样做的目标是鼓励和促进探索集成视觉和语言功能,以实现强大的跟踪性能。

3. 为了评估现有的跟踪器,并为将来在LaSOT上的比较提供广泛的基准,团队在不同的协议下评估了35个具有代表性的跟踪器,并使用不同的指标分析其性能。

LaSOT大规模多样化的数据采集

LaSOT数据集的构建遵循大规模、高质量的密集注释、长期跟踪、类别平衡和综合标记五个原则。

LaSOT基准数据采集涵盖了各种不同背景下的各种对象类别,包含70个对象类别。大多数类别是从ImageNet的1000个类别中选择的,但少数例外(如无人机)是为流行的跟踪应用程序精心选择的。以往的数据集通常含有的类别少于30个,并且一般分布不均匀。相比之下,LaSOT为每个类别提供相同数量的序列,以减轻潜在的类别偏差。

在确定了LaSOT中的70个对象类别之后,他们从YouTube中搜索了每个类的视频。最初,他们收集了5000多个视频。考虑到追踪视频的质量和LaSOT的设计原则,他们挑选了1400个视频。但是,由于大量无关内容,这1400个序列不能立即用于跟踪任务。例如,对于个人类别的视频(例如,运动员),它通常在开始时包含每个运动员的一些介绍内容,这不适合跟踪。因此,他们仔细过滤掉每个视频中不相关的内容,并保留一个可用于跟踪的剪辑。此外,LaSOT的每一个分类都包含20个目标,反映了自然场景中的分类平衡和多样性。

最终,他们通过收集1400个序列和352万帧的YouTube视频,在Creative Commons许可下,编译了一个大规模的数据集。LaSOT的平均视频长度为2512帧(即30帧每秒84秒)。最短的视频包含1000帧(即33秒),最长的视频包含11397帧(即378秒)。

LaSOT提供可视化边界框注释

为了提供一致的边界框注释,团队还定义了一个确定性注释策略。对于具有特定跟踪目标的视频,对于每个帧,如果目标对象出现在帧中,则标注者会手动绘制/编辑其边界框,使其成为最紧的右边界框,以适合目标的任何可见部分;否则,标注者会向帧提供一个“目标不存在”的标签,无论是不可见还是完全遮挡。请注意,如任何其他数据集中所观察到的那样,这种策略不能保证最小化框中的背景区域。然而,该策略确实提供了一个一致的标注,这对于学习物体的运动是相对稳定的。

虽然上述策略在大多数情况下都很有效,但也存在例外情况。有些物体,例如老鼠,可能有细长和高度变形的部分,例如尾巴,这不仅会在物体的外观和形状上产生严重的噪声,而且对目标物体的定位提供很少的信息。他们在LaSOT中仔细识别这些对象和相关的视频,并为它们的注释设计特定的规则(例如,在绘制它们时不包括鼠标的尾部)。

图2:LaSOT示例序列和标注

序列的自然语言规范由描述目标的颜色、行为和环境的句子表示。对于LaSOT,他们为所有视频提供1400个描述语句。请注意,语言描述旨在为跟踪提供辅助帮助。例如,如果追踪器生成进一步处理的建议,那么语言规范可以作为全局语义指导,帮助减少它们之间的模糊性。

构建高质量密集跟踪数据集的最大努力显然是手动标记、双重检查和纠错。为了完成这项任务,他们组建了一个注释小组,包括几个在相关领域工作的博士生和大约10名志愿者。

35个代表性跟踪器的评估

他们没有对如何使用LaSOT进行限制,但提出了两种协议来评估跟踪算法,并进行相应的评估。

方案一:他们使用1400个序列来评估跟踪性能。研究人员可以使用除了LaSOT中的序列以外的任何序列来开发跟踪算法。方案一旨在对跟踪器进行大规模评估。

方案二:他们将LaSOT划分为训练和测试子集。根据80/20原则(即帕累托原则),他们从每类20个视频中选出16个进行培训,其余的进行测试。具体来说,训练子集包含1120个视频,2.83m帧,测试子集包含280个序列,690k帧。跟踪程序的评估在测试子集上执行。方案二的目标是同时提供一大套视频用于训练和评估跟踪器。

根据流行的协议(如OTB-2015[53]),他们使用OPE作为量化评估标准,并测量两个协议下不同跟踪算法的精度、标准化精度和成功率。他们评估了LaSOT上的35种算法,以提供广泛客观的基准,Tab. 3按时间顺序总结这些跟踪器及其表示方案和搜索策略。

表3:已评估跟踪程序的摘要。

方案一评估结果

方案一旨在对LaSot的1400个视频进行大规模评估。每个跟踪器都按原样用于评估,没有任何修改。他们使用精度、标准化精度和成功率在OPE中报告评估结果,

图3:利用精度、归一化精度和成功率对一号方案下的算法量化评估。

图4:在协议I下,追踪器在三个最具挑战性的属性上的代表性结果。

图5:六大典型挑战序列上的的定性评价结果。

方案二评估结果

图6:使用精度、标准化精度和成功率对方案II下的跟踪算法评估。

根据方案二,他们将LaSOT分为训练集和测试集。研究人员可以利用训练集中的序列来开发他们的跟踪器,并评估他们在测试集中的表现。为了提供测试集的基线和比较,他们评估了35种跟踪算法。每个跟踪器都被用于评估,没有任何修改或再培训。使用精度、归一化精度和成功率的评价结果如图6所示。

除了对每一种跟踪算法进行评估外,他们还对两种具有代表性的深跟踪算法MDNET[42]和SIAMFC进行了重新培训,并对其进行了评估。评估结果表明,这些跟踪器在没有重训练的情况下具有相似的性能。一个潜在的原因是他们的重新培训可能和原作者使用配置不同。

他们对SiamFC的LaSOT训练集进行了再培训,以证明使用更多的数据如何改进基于深度学习的跟踪器。Tab. 4报告了OTB-2013和OTB-2015的结果,并与在ImageNet视频上培训的原始SIAMFC的性能进行了比较。请注意,使用彩色图像进行培训,并应用3个比例的金字塔进行跟踪,即SIAMFC-3S(彩色)。表4为在LaSOT上对siamfc进行再培训。

跟踪在这两个实验中保持不变。他们在两个评测集上观察到了一致的性能提升,显示了针对深度追踪器的特定大规模训练集的重要性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1789

    文章

    46627

    浏览量

    236972
  • 计算机视觉
    +关注

    关注

    8

    文章

    1694

    浏览量

    45894
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24617

原文标题:352万帧标注图片,1400个视频,亮风台推最大单目标跟踪数据集

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用Labview提供的.NET包的构造器节点选择程序方法

    在使用Labvie的.NET包的构造器选构造器时,例如寻找NotifyIcon这个构造器,当不知道属于哪个程序时,有没有搜索的方法或者
    发表于 08-03 15:01

    labview构造器中尝试程序发生错误

    请问下各位大虾,有使用过构造器节点调用.NET做的dll文件吗?为什么labview构造器中尝试程序发生错误
    发表于 03-18 22:15

    建立开发和测试(总结)

    • 被选择作为开发和测试数据,应当与你未来计划获取并对其进行良好处理的数据有着相同的分布,而不一定和训练
    发表于 12-14 10:56

    基于模糊和熵处理的顾客需求评估方法

    构建了顾客需求重要度评价模型,引入模糊理论表达并处理顾客需求信息,建立了市场竞争性评估决策矩阵,用熵处理的方法进行产品竞争性分析,提出基于模糊和熵处理的顾
    发表于 04-16 10:15 10次下载

    一种新的正形置换构造方法

    正形置换在密码体制设计中应用广泛。该文基于正形置换和正形拉丁方截的一一对应关系,研究了正形置换的构造问题,给出了由n元正形置换构造n+1元正形置换的新方法,该
    发表于 11-17 13:48 7次下载

    基于Vague的网络安全态势评估方法

    针对网络安全态势评估(NSSA)问题,提出一种基于Vague评估方法。首先,综合攻防双方对安全态势的影响构建评估指标体系并给出指标权重的
    发表于 02-26 15:54 9次下载

    基于GBDT个人信用评估方法

    Tree(GBDT)的个人信用评估方法。GBDT天然可处理混合数据类型的数据,可以发现多种有区分性的特征以及特征组合,不需要做复杂的特征
    发表于 11-03 17:27 2次下载
    基于GBDT个人信用<b class='flag-5'>评估</b><b class='flag-5'>方法</b>

    云计算安全评估决策方法

    针对云计算安全评估动态性强的问题,提出一种可对云计算安全进行评估的区间犹豫模糊灰色妥协关联分析决策方法。首先,为了准确衡量两个区间犹豫模糊之间的距离,定义了新的区间犹豫模糊距离公式。
    发表于 11-24 16:24 0次下载

    基于多生成树的MCDS构造算法

    无线网络没有固定基础设施,节点之间通过洪泛方式寻找路由路径以及传输数据,往往导致严重的广播风暴以及通信干扰问题。为了避免上述问题,构造连通支配是解决方法之一。连通支配
    发表于 11-29 15:48 0次下载
    基于多生成树的MCDS<b class='flag-5'>构造</b>算法

    基于多生成树的MCDS构造算法

    无线网络没有固定基础设施,节点之间通过洪泛方式寻找路由路径以及传输数据,往往导致严重的广播风暴以及通信干扰问题。为了避免上述问题,构造连通支配是解决方法之一。连通支配
    发表于 11-29 15:51 0次下载
    基于多生成树的MCDS<b class='flag-5'>构造</b>算法

    一种改进的变精度粗糙漏洞威胁评估模型

    续属性进行离散化处理;接下来,通过多次计算,调整参数a和b的值,进行属性约简并提取概率决策规则,构造决策规则库;最后,将测试数据与规则库进行匹配,得到漏洞威胁评估结果。仿真实验表明,所提方法
    发表于 12-05 09:14 0次下载
    一种改进的变精度粗糙<b class='flag-5'>集</b>漏洞威胁<b class='flag-5'>评估</b>模型

    基于代数规格的面向对象蜕变关系构造方法

    针对面向对象软件类级测试中方法序列调用时的Oracle问题,提出了一种基于代数规格的面向对象蜕变关系构造方法,并根据此方法进行蜕变测试。首先基于代数规格给出面向对象测试中蜕变关系的
    发表于 01-03 16:31 0次下载

    多标记数据特征提取方法的输出核函数构造方法

    刻画标记间的相关性;然后从损失函数的角度出发定义新的输出核函数。第二种方法是利用互信息来度量标记间的两两相关性,在此基础上进一步构造新的输出核函数。3个多标记数据上2种分类器的实验结
    发表于 01-07 10:28 0次下载

    零相关区高斯整数序列构造

    研究了具有零相关区的高斯整数序列构造方法。该方法基于二元正交矩阵,首先利用插零法构造出具有零相关区的三元序列
    发表于 01-10 16:33 0次下载

    基于模糊等价研究毕达哥拉斯模糊相似度构造方法

    基于模糊等价研究毕达哥拉斯模糊相似度的一般构造方法。将模糊等价概念推广至毕达哥拉斯模糊数,提出了PFN( Pythagorean FuzzyNumber)模糊等价的概念,并给岀了PFN模糊等价的
    发表于 04-20 10:56 9次下载
    基于模糊等价研究毕达哥拉斯模糊<b class='flag-5'>集</b>相似度<b class='flag-5'>构造</b><b class='flag-5'>方法</b>