0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Wayve:从源头讲起,如何实现以对象为中心的自监督感知方法?

jf_pmFSk4VX 来源:GiantPandaCV 2023-07-29 14:54 次阅读

Wayve:从源头讲起,如何实现以对象为中心的自监督感知方法?

1. 摘要

以对象中心的表示使自主驾驶算法能够推理大量独立智能体和场景特征之间的交互。传统上,这些表示是通过监督学习获得的,但会使感知与下游驾驶任务分离,可能会降低模型的泛化能力。在这项工作中,我们设计了一个以对象为中心的自监督视觉模型,仅使用RGB视频和车辆姿态作为输入来实现进行对象分割。我们在Waymo公开感知数据集上证明了我们的方法取得了令人满意的结果。我们发现我们的模型能够学习一种随时间推移融合多个相机姿势的表示,并在数据集中成功跟踪大量车辆和行人。我们介绍了该方法的起源和具体实现方法,并指明了未来的发展方向,为了帮助大家更好地复现代码,我们将详细地参数列入附表。

论文地址:https://arxiv.org/abs/2307.07147

模型代码:https://github.com/wayveai/SOCS。

2. 方法起源

人类和机器人有一种倾向,即认为对象的行为是单一连贯的,这是一种与生俱来的感知法则。对象在人类视觉中发挥着核心作用。我们根据特征将对象分组,用它们来描述我们周围的环境,同时,为我们不熟悉的对象寻找语义标签。当使用视觉表示进行下游任务时,如机器人技术等,对象中心模型是令人满意的:因为它们比端到端模型更容易被人类理解——这对验证安全性和赢得人类对视觉系统的信任非常重要。除此之外,以对象为中心的表示还提供了一套多样而强大的推理真实世界的工具,如物理理解模型、多智能体预测和规划模型以及因果推理模型。支持这类模型的表示可能对自动驾驶至关重要,因为在自动驾驶中,使用这些表示对大量相互作用的智能体和物理因素进行推理,可以获得车辆的最佳运动轨迹。

传统上,以对象中心的表示是通过训练监督对象检测模型,并从中提取对象属性(如位置和速度)来实现的。这种方法有两大缺点。首先,它需要与检测对象相匹配的带标签数据集,而大规模获取带标签数据集的成本很高,而且可能会引入不必要的偏差。另外,为了使系统能够处理新的对象或新的环境,必须收集新的带标签的数据。没有足够正确标注的数据会影响这类方法的泛化能力,但这正是以对象为中心的自监督模型的关键优势之一。

其次,根据有监督的视觉模型预测创建的对象表示,会使感知和决策组件之间脱节。例如,骑自行车的人应该被视为一个对象还是两个对象?两人乘双人自行车又如何?他们在向人行道上的行人挥手重要吗?如果他们正在打转向手势呢?这些问题的正确答案取决于如何使用信息做出决策。理想情况下,感知行为的结果应该反馈并改善感知本身,利用端到端学习,可以找到比手工设计更好的以对象为中心的表示。

这些考虑激发了以对象为中心的自监督感知模型的设计,这种模型将图像编码到一个将相关信息划分为多个“槽”的潜在空间中,然后这些槽中的信息被解码为自监督目标,如例如重建原始RGB输入,以及用于下游任务。已经有不少论文提出了各种方法,来鼓励模型在单个槽中编码关于不同对象的信息,例如通过使用使槽在像素上竞争注意力的编码器,或者通过不同的自动编码器损失来鼓励槽解码。然而,这些方法在复杂的现实世界数据中难以获得良好的结果。最近,SAVi++算法在Waymo真实世界驾驶视频公开数据集上显示了其分割能力。然而,这些结果需要额外的深度监督,而且需要初始对象与周围环境边界的槽,才能够获得最佳性能。

基于上述考虑,我们提出了一种仅使用RGB视频和相机运动信息进行自监督分割的模型,并在真实驾驶视频上获得了良好的的结果。相机运动信息在自动驾驶车辆中容易获得(例如来自同时定位与建图(SLAM)或轮组测距),而且不需要专用激光雷达等传感器,因此是一种特别经济的方法。

3. 方法实现

我们的模型架构建立在SIMONe的视图监督变体上。该模型的目标是将场景分割为一组K个对象槽,对场景中每个对象的信息进行编码。通过以下步骤可以获得这些槽。首先,输入X(F帧图像序列,可选择从多相机视点)由标准卷积神经网络(CNN)并行处理,得到一组特征补丁。补丁与位置嵌入连接,位置嵌入在每个补丁源图像内的位置,以及与源图像相关的时间和视点变换矩阵进行编码。然后,它们作为仅解码transformer的输入信号。输出标记在整个图像维度上的平均值。在原始SIMONe模型中,这个维度对应于单个相机在几个时间点上拍摄的图像;但在这项工作中,我们使用了三个不同的姿势的相机,在时间和视点上进行取平均值。最后,通过MLP将每个信号解码为m维向量和,这两个向量分别包含单个槽中潜预测平均值和方差。如果输入信号的数量与所需的槽的数量不同,则在transformer层的中途可选地进行跨信号特征的空间池化操作。具体模型如下图所示。

5432909c-2dc5-11ee-815d-dac502259ad0.png

3.1. 训练和损失

为了鼓励模型在不同的槽中存储不同对象的信息,在训练期间我们应用三个互补的损失。第一项是每个槽潜在向量与单位正态分布之间的KL散度之和,对所有槽求和:

其中是输入帧,是槽 的m维正态分布,均值和方差由模型预测,先验分布是一个单位球面正态分布。直观地,这个损失鼓励模型避免使用多个槽表示同一对象,因为与使用单个槽表示对象并让其他槽保持接近单位正态分布相比,这样做会导致更大的惩罚。这个损失还鼓励潜在向量的每个维度之间解耦。

第二个损失基于模型执行对象级重建任务的能力。首先,根据每个槽 的潜在分布获取对象的潜在向量。然后,每个被独立解码到空间广播解码器进行逐像素预测。为了满足模型计算要求和内存需求,在训练期间每个输入序列中仅对N个随机像素进行解码。每个槽 对每个像素的预测结果用RGB分布表示。和逻辑单元 (经过槽归一化)表示槽 表示像素的可能性。为了获得每个像素的最终预测,我们取每个槽预测的加权混合:

其中针对像素的每槽分布经softmax后的值加权:

的分布在第3.3节中进行了更详细的讨论。

最后,重建损失是每个像素在混合分布下的真实RGB值的对数概率:

由于每个槽的对象潜变量被独立解码,模型被迫在预测每个像素的RGB值时一次只使用单个槽中编码的信息。因此,直观地,这个损失鼓励模型将预测像素的颜色所需的所有信息存储在单个槽中。

另外,学习到的槽表示还可以用于各种辅助任务。在本文中,受到对象与自动驾驶环境中相关的表示与用于预测良好驾驶动作的表示之间的密切联系的启发,我们实验使用预测车辆自身的未来路径作为辅助任务。在图像池化步骤之后,槽信息经过两个Transformer 解码器层,求平均值,并通过单层MLP解码成一系列预测偏移量,在自我参考帧的xy平面上。然后我们应用以下任务损失:

其中汇总是对每个未来时间点。我们使用以10Hz频率开始于最后图像帧之后0.1秒的自我参考帧中的16个未来路径。

最终训练损失与负ELBO损失类似,增加了辅助任务损失:

其中和超参数平衡不同的损失项。

3.2. 附加的模型输出

除了参数化加权混合像素分布,权重还作为每一个槽 的α 掩码,使我们可以非常直观地看到每个槽关注场景的哪些像素。为每个槽取最大值可以得到场景的预测分割。这种分割可以帮助模型调试和解释。例如,如果无法用掩码跟踪特定车辆,表明模型没有从场景的其他特征中区分出该对象的特征,因此没有独立表示其运动状态。

对象的槽或潜在向量也可以解码为图像重建或轨迹预测以外的其他输出。其他潜在下游任务可能包括视频预测、生产系统模型或有运动条件世界模型。在端到端机器学习中,哪些辅助任务可以协同提升性能,是一个激动人心的开放问题。

3.3. 对象槽解码分布

原始SIMONe模型采用正态分布预测的像素RGB值。(注意,在本节中,我们将RGB元组称为正态,但在现实中,R、G和B通道是独立对待的。)我们发现,在进行场景中分割时,这个分布会导致模型过度依赖颜色差异。这会导致一些失败的案例,如无法分割车身和挡风玻璃、无法识别出与背景颜色相似的对象等。我们猜测这是因为在两个不同颜色的区域边界附近,模型不确定为给定像素分配什么颜色。为了用正态分布表示这种不确定性,模型被迫将不同颜色的区域分配给不同的槽,并使用每个槽的权重给出每种颜色的可能性 。

对于我们的体系结构,我们使用多头正态分布替换SIMONe中的正态分布,来减轻这个问题。定性的说,我们发现这能够更好地反映对象运动的分割。对于每个像素和每个槽 k,解码器输出H个模式,其中预测平均RGB元组和逻辑单元 决定每个模式的权重。(注意,此外还有一个单独的“全局” 回归,它控制第k个槽对总混合分布的贡献,如方程2所示。) 因此,每个槽的分布是:

其中正常分布的方差是一个超参数。当时,这简化为SIMONe中的解码分布:

在我们的实验中,我们使用和。

最后,模型的分割结果和轨迹预测如下图所示:

547eb8dc-2dc5-11ee-815d-dac502259ad0.png54da9c9c-2dc5-11ee-815d-dac502259ad0.png

4. 结论

最近,以对象为中心的自我监督表示学习方法,在具有明确定义对象的人工数据集上表现出了很强的性能,但在具有复杂纹理和模糊对象的复杂真实世界数据上仍然举步维艰。在本文中,我们已展示的结果表明,通过使用相机姿态作为附加输入,有可能在RGB驾驶视频中获得合理的动态、以对象中心的表示。与3D深度传感器不同,姿态估计是自动驾驶汽车的一个普遍特征,因此我们认为我们的方法是在自动驾驶领域实现可扩展的、实用的,以对象中心的表示学习的一个很有前途的途径。此外,我们的研究结果表明,预测车辆自身的未来姿态是一项协同任务,它不会阻碍学习表达的质量。这对端到端驾驶模型来说尤其令人兴奋,因为它打开了驾驶性能和表示学习共同建立良性循环的可能性,同时保留了以对象为中心的表示的关键优势,如可解释性。

我们认为仍有可能进一步提高对象分割质量,例如,通过扩大模型规模和采取数据增强策略(这两点对SAVi++的性能非常重要)。我们还注意到,Waymo 公开感知数据集包含三个前向摄像头的480,000帧图像,对于理想的表示学习而言相比,该数据集的规模与其复杂性可能不够大。相比之下,最近的对象场景表示transformer模型是在1000万帧合成数据集上训练的。

最后,我们注意到,我们模型中的KL-发散损失鼓励学习理顺的对象潜在特征。更详细地研究这些特征是未来工作的一个令人兴奋的方向。

5. 论文中的超参数

参数
权重, β (带路径预报任务) 5e-7
β (无路径预报任务) 4.5e-7
权重, 1e-4
对象槽的方差, 0.08
对象槽数量 21
对象潜在维度 32
Transformer 层数 6
Transformer 头数 4
Transformer 特征维度 512
Transformer 前馈维度 1024
重建 MLP 层数 3
重构MLP的隐藏维度 1536
图像序列长度 8
图像尺寸(高、宽) (96, 224)
每个训练序列解码的像素数量,N 2016
批大小 8
学习率 1e-4



声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3585

    浏览量

    134116
  • 算法
    +关注

    关注

    23

    文章

    4599

    浏览量

    92618
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24635

原文标题:Wayve:从源头讲起,如何实现以对象为中心的自监督感知方法?(附代码)

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    实现以太网通信硬件电路方法

    实现以太网通信硬件电路方法很多,一般情况是CPU+MAC+PHY+网络变压器+RJ45。整个硬件电路最多用5个电子器件完成。
    发表于 10-20 09:25 825次阅读
    <b class='flag-5'>实现以</b>太网通信硬件电路<b class='flag-5'>方法</b>

    基于transformer和监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 1451次阅读
    基于transformer和<b class='flag-5'>自</b><b class='flag-5'>监督</b>学习的路面异常检测<b class='flag-5'>方法</b>分享

    有谁是做认知无线电频谱感知方向的吗

    本人研二,研究方向认知无线电频谱感知方法的研究,主要是处理数字端,有哪位童鞋跟我是同方向,一起探讨探讨啊
    发表于 09-11 22:13

    智能感知方案怎么帮助实现安全的自动驾驶?

    未来,自动驾驶将不再是科幻电影里的桥段,这是未来汽车的一个趋势,感知是自动驾驶的重要组成部分,同时安全性至关重要。作为全球第7大汽车半导体供应商,安森美半导体提供全面的智能感知方案,包括图像传感器
    发表于 07-31 07:11

    有什么方法以对USB实现隔离吗?

    有什么方法以对USB实现隔离吗?
    发表于 06-02 06:40

    认知无线电中基于循环平稳特征的频谱感知方法

    认知无线电中基于循环平稳特征的频谱感知方法.
    发表于 03-16 15:55 35次下载
    认知无线电中基于循环平稳特征的频谱<b class='flag-5'>感知方法</b>

    智能机器人多传感器融合感知方法

    智能机器人多传感器融合感知方法,感兴趣的小伙伴们可以瞧一瞧。
    发表于 09-20 16:10 19次下载

    一种基于智能终端的环境与接近度感知方法

    提出一种基于智能终端的环境与接近度感知方法。首先,基于智能终端多种内置传感器采集的环境数据,提出一种环境感知算法,可以有效地识别不同场景切换;其次,以log-normal衰落模型得到的蓝牙信号
    发表于 11-16 11:17 7次下载
    一种基于智能终端的环境与接近度<b class='flag-5'>感知方法</b>

    基于信道历史状态信息的频谱感知方法

    针对卫星认知网络环境中待检测信号强度不断变化的特点,为了突破传统能量检测的性能极限,提出一种基于信道历史状态信息的频谱感知方法。首先,通过建立具有遗忘机制的信道历史状态判决模型实现对当前时刻信道状态
    发表于 01-15 15:33 0次下载
    基于信道历史状态信息的频谱<b class='flag-5'>感知方法</b>

    一种监督同变注意力机制,利用监督方法来弥补监督信号差异

    本文提出了一种监督同变注意力机制(self-supervised equivariant attention mechanism,简称SEAM),利用监督
    的头像 发表于 05-12 10:16 7785次阅读
    一种<b class='flag-5'>自</b><b class='flag-5'>监督</b>同变注意力机制,利用<b class='flag-5'>自</b><b class='flag-5'>监督</b><b class='flag-5'>方法</b>来弥补<b class='flag-5'>监督</b>信号差异

    新的工业应用智能感知方

    推动高能效创新的安森美半导体(ON Semiconductor,美国纳斯达克上市代号:ON),将于 7 月 3 日至 5 日在 2020 中国(上海)机器视觉展展示广泛的智能图像感知方案。
    发表于 07-03 11:40 965次阅读

    基于人工智能的监督学习详解

    监督学习让 AI 系统能够很少的数据中学习知识,这样才能识别和理解世界上更微妙、更不常见的表示形式。
    的头像 发表于 03-30 17:09 5931次阅读
    基于人工智能的<b class='flag-5'>自</b><b class='flag-5'>监督</b>学习详解

    极目智能产品方案亮相上海车展 携手地平线、楚航科技发力智能驾驶感知方

    地平线征程5的极目L2+级JMBEV融合感知方案及“双循环”数据闭环 JMBEV是极目智能推出的L2+级别智能驾驶感知方案,采用BEV感知、3D目标跟踪等技术,通过多模态传感器实现车身
    的头像 发表于 04-26 09:38 1643次阅读
    极目智能产品方案亮相上海车展 携手地平线、楚航科技发力智能驾驶<b class='flag-5'>感知方</b>案

    基于纯视觉的感知方法

         背景  近年来,基于纯视觉的感知方法由于其较高的信噪比和较低的成本,在自动驾驶领域占有重要地位。其中,鸟瞰图(BEV)感知已成为主流的方法。在以视觉
    的头像 发表于 06-15 14:20 1084次阅读
    基于纯视觉的<b class='flag-5'>感知方法</b>

    4分钟了解吸顶灯具智能感知方案测试方法

    视频版吸顶灯智能感知方案测试方法照明灯具、家电家居、安防系统、健康看护系统到商业设备,我们身边的智能设备变得越来越聪明。在这场智能化革命中,富奥星雷达传感器赋予了这些设备感知、检测和
    的头像 发表于 12-01 10:20 1117次阅读
    4分钟了解吸顶灯具智能<b class='flag-5'>感知方</b>案测试<b class='flag-5'>方法</b>