0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PowerBEV的高效新型端到端框架基于流变形的后处理方法

3D视觉工坊 来源:3D视觉工坊 2023-06-25 16:06 次阅读

摘要

准确地感知物体实例并预测它们未来的运动是自动驾驶车辆的关键任务,使它们能够在复杂的城市交通中安全导航。虽然鸟瞰图(BEV)表示在自动驾驶感知中是常见的,但它们在运动预测中的潜力尚未得到充分探索。现有的从环绕摄像头进行BEV实例预测的方法依赖于多任务自回归设置以及复杂的后处理,以便以时空一致的方式预测未来的实例。在本文中,我们不同于这中范例,提出了一个名为PowerBEV的高效新型端到端框架,采用了几种旨在减少先前方法中固有冗余的设计选择。首先,与其按自回归方式预测未来,PowerBEV采用了由轻量级2D卷积网络构建的并行多尺度模块。其次,我们证明,分割和向心反向流对于预测是足够的,通过消除冗余输出形式简化了先前的多任务目标。基于此输出表示,我们提出了一种简单的基于流变形的后处理方法,可在时间上产生更稳定的实例关联。通过这种轻量化但强大的设计,PowerBEV在NuScenes数据集上胜过了最先进的方法,并为BEV实例预测提供了一种替代范例。

主要贡献

我们提出了PowerBEV,一个新颖而优雅的基于视觉的端到端框架,它只由2D卷积层组成,用于在BEV中执行多个对象的感知和预测。

我们证明,由于冗余表示引起的过度监督会影响模型的预测能力。相比之下,我们的方法通过简单地预测分割和向心反向流来实现语义和实例级别的代理预测。

我们提出的基于向心反向流的提议分配优于以前的前向流结合传统的匈牙利匹配算法

主要方法

我们的方法的框架如图1所示。它主要由三个部分组成:感知模块、预测模块和后处理阶段。感知模块将M个多视角相机图像作为个时间戳的输入,并将他们转换为个BEV特征图。然后,预测模块融合提取的BEV特征中包含的时空信息,并同时预测一系列分割地图和向心反向流,用于未来帧。最后,通过基于变形的后处理。从预测的分割和流中恢复未来的实例预测。

0b1abd98-1151-11ee-962d-dac502259ad0.png图1:PowerBEV的框架

1、基于LSS的感知模块

为了获取用于预测的视觉特征,我们遵循之前的工作,并在LSS的基础上建立起从环绕摄像机中提取BEV特征网格。对于每个时间t的每个相机图像,我们应用共享的EfficientNet网络来提取透视特征,其中我们将的前个通道指定为上下文特征,后面的个通道表示分类深度分布。通过外积构造一个三维特征张量。

0b55e4b8-1151-11ee-962d-dac502259ad0.png

其中,根据估计的深度分布置信度将上下文特征提升到不同的深度中。然后,每个时间戳的每个相机特征分布映射基于对应相机的已知内部参数和外部参数被投影到以车辆为中心的坐标系中。随后,它们沿着高度维度加权,以获得时间戳t处的全局BEV状态,其中是状态通道数量,(H,W)是BEV状态地图的网格大小。最后,所有的BEV状态合并到当前帧中,并像FIERY一样堆叠,因此这追踪表示是独立于自车位置的当前全局动态。

2、多尺度预测模块

0b68b408-1151-11ee-962d-dac502259ad0.png图2:多尺度预测模块的结构

获得过去环境的简洁表示S后,我们使用一个多尺度U-Net类编码器解码器架构,将观察到的BEV特征图作为输入,并预测未来的分割地图和向心反向流场,如图2所示。为了仅使用2D卷积进行时空特征处理,我们将时间和特征维度折叠成一个单一的维度,从而得到输入张量。编码器首先逐步在空间上对进行下采样,生成多尺度BEV特征,其中。在一个中间的预测器阶段,将特征从映射到,获取。最后,解码器镜像编码器,在原始尺度上重建出未来的BEV特征。每个分支分别被监督以预测未来的分割地图或向心反向流场。考虑到任务和监督的差异,我们为每个分支使用相同的架构但不共享权重。与以前基于空间LSTM或空间GRU的工作相比,我们的架构只利用2D卷积,在解决长程时间依赖性方面大大缓解了空间RNN的限制。

3、多任务的设置

现有的方法遵循自下而上的原则,为每个帧生成实例分割,然后根据前向流使用匈牙利匹配算法在帧之间关联实例。因此,需要四个不同的头部:语义分割、中心性、未来前向流和BEV中的每像素向心偏移。这导致由于多任务训练而产生模型冗余和不稳定性。相比之下,我们首先发现,流和向心偏移都是实例掩模内的回归任务,并且流可以理解为运动偏移量。此外,这两个量与中心性在两个阶段中组合:(1)向心偏移将像素分组到每个帧中预测的实例中心,以将像素分配给实例ID;(2)流用于匹配两个连续帧中的中心以进行实例ID关联。基于以上分析,使用统一表示形式直观地解决这两个任务。为此,我们提出了向心反向流场,它是从时间t处的每个前景像素到时间t−1处关联实例标识的对象中心的位移向量。这将像素到像素的反向流向量和向心偏移向量统一为单一表示形式。使用我们提出的流,可以直接将每个占用的像素关联到上一帧中的实例ID。这消除了将像素分配给实例的额外聚类步骤,将先前工作中使用的两阶段后处理简化为单阶段关联任务。此外,我们发现语义分割地图和中心性的预测非常相似,因为中心基本对应于语义实例的中心位置。因此,我们建议直接从预测的分割地图中提取局部最大值来推断对象中心。这消除了分别预测中心的需要,如图3所示。

0b93aff0-1151-11ee-962d-dac502259ad0.png

图3:多任务设置

总的来说,我们的网络仅仅产生两个输出,语义分割和向心反向流。我们使用top-k,k=25%的交叉熵作为语义分割损失函数,平滑的L1距离作为流动损失函数。总的损失函数为。

0bc88c34-1151-11ee-962d-dac502259ad0.png

,和使用不确定性权重自动的更新。

4、实例关联

0befd046-1151-11ee-962d-dac502259ad0.png图4:实例关联

对于实例预测,我们需要随着时间推移将未来的实例相互关联。现有的方法使用前向流将实例中心投影到下一帧,然后使用匈牙利匹配将最近的代理中心进行匹配,如图4.a所示。这种方法执行实例级别的关联,其中实例身份由其中心表示。因此,仅使用位于对象中心上的流向量用于运动预测。这有两个缺点:首先,没有考虑对象旋转;其次,单个位移向量比覆盖整个实例的多个位移向量更容易出错。在实践中,这可能导致重叠的预测实例,导致错误的ID分配。这在长期预测范围内的近距离物体上尤为明显。利用我们提出的向心反向流,我们进一步提出了基于变形的像素级关联来解决上述问题。我们的关联方法的说明如图4.b所示。对于每个前景网格单元,该操作将实例ID直接从前一个帧中流向量目标处的像素传播到当前帧。使用此方法,每个像素的实例ID都被单独分配,从而产生像素级关联。与实例级别关联相比,我们的方法对严重的流预测错误更具有容忍度,因为真实中心周围的相邻网格单元倾向于共享相同的身份,而错误往往发生在单个外围像素上。此外,通过使用向后流变形,可以将多个未来位置与前一帧中的一个像素关联起来。这对于多模式未来预测是有益的。正如所述,向后关联需要在前一帧中的实例ID。特殊情况是第一个帧(t = 0)的实例分割生成,其没有其前一帧(t = -1)的实例信息可用。因此,仅针对时间戳t = 0,我们通过将像素分组到过去实例中心来分配实例ID。

主要结果

我们首先将我们的方法与其他baseline相比较,结果如表1所示。我们的方法在感知范围设置下的评估指标IoU(Intersection-over-Union)和VPQ(video panoptic quality)均取得了显着的改进。在长距离设置中,PowerBEV的表现优于重新生成的FIERY,在IoU方面提高了1.1%,在VPQ方面提高了2.9%。此外,尽管使用较低的输入图像分辨率和更少的参数,PowerBEV在所有指标上的表现都优于BEVerse。与其他引入模型随机过程的方法相比,PowerBEV是一种确定性方法,能够实现准确的预测。这也展示了反向流在捕捉多模态未来方面的能力。

0c17f01c-1151-11ee-962d-dac502259ad0.png图5:定量评估解决

下图展示了我们方法的定性结果。我们展示了在三种典型驾驶场景中(城市道路上交通密集的情况、停车场中静态车辆众多的情况和雨天驾驶场景)与FIERY的比较。我们的方法为最常见的交通密集场景提供了更精确、更可靠的轨迹预测,这在第一个例子中变得特别明显,其中车辆转向自车左侧的侧街。而FIERY只对车辆位置作出了一些模糊的猜测,并且难以处理它们的动态特征,与之相反,我们的方法提供了更好地匹配真实车辆形状以及未来可能轨迹的清晰物体边界。此外,从第二个例子的比较中可以看出,我们的框架可以检测到位于较远距离的车辆,而FIERY则失败了。此外,我们的方法还可以检测到在雨天场景中被墙壁遮挡的卡车,即使对于人眼来说也很难发现。

0c2fe5be-1151-11ee-962d-dac502259ad0.png图6:可视化对比结果
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模块
    +关注

    关注

    7

    文章

    2655

    浏览量

    47287
  • 框架
    +关注

    关注

    0

    文章

    398

    浏览量

    17398
  • 自动驾驶
    +关注

    关注

    782

    文章

    13616

    浏览量

    165902

原文标题:IJCAI2023|PowerBEV:一个强大且轻量的环视图像BEV实例预测框架

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    TCP等效噪声模型及拥塞控制方法研究

    TCP等效噪声模型及拥塞控制方法研究:针对传统TCP拥塞控制协议在有线/无线混合网络中存在的问题,采用通信系统加性噪声分析方法和信道容
    发表于 10-20 17:49 7次下载

    物联网解决方案

    英特尔打造核心技术物联网解决方案
    发表于 12-28 18:12 0次下载

    SDN中的时延

    随着大规模SDN的不断发展,用来管理和衡量网络性能的指标也越来越重要。时延就是其中重要的部分,针对该指标已经提出了很多计算的方法,主要分为主动探测和被动探测,但是各有优缺点。因此
    发表于 12-06 15:32 0次下载
    SDN中的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>时延

    的自动驾驶研发系统介绍

    Nvidia是比较早做控制车辆工作的公司,其方法训练CNN模型完成从单个前向摄像头的图像像素车辆控制的映射。 其系统自动学习一些
    的头像 发表于 07-13 09:30 4859次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的自动驾驶研发系统介绍

    基于深度神经网络的图像压缩方法

    人工设计的算法分别进行优化近年来,基于深度神经网络的图像压缩方法在图像压缩中取得了丰硕的成果,相比传统方法
    发表于 04-08 09:30 16次下载
    基于深度神经网络的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>图像压缩<b class='flag-5'>方法</b>

    基于帧级特征的说话人识别方法

    现有的说话人识别方法仍存在许多不足。基于话语级特征输入的方法由于语音长短不一致需要将输入处理为同等大小,而特征训练加后验分类的两阶段
    发表于 05-08 16:57 4次下载

    的IO链接解决方案

    的IO链接解决方案
    发表于 05-10 10:43 1次下载
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的IO链接解决方案

    采用带有transformer的框架获取对应集合结果

    最近将学习的方式引入点云配准中取得了成功,但许多工作都侧重于学习特征描述符,并依赖于最近邻特征匹配和通过RANSAC进行离群值过滤,以获得姿态估计的最终对应集合。在这项工作中,我们推测注意机制可以取代显式特征匹配和RANSAC的作用,从而提出一个
    的头像 发表于 10-09 14:37 616次阅读
    采用带有transformer的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>框架</b>获取对应集合结果

    使用FastDeploy在英特尔CPU和独立显卡上端高效部署AI模型

    在产业实践中,我们发现不仅 AI 推理硬件和对应推理引擎(例如:OpenVINO Runtime)对于的性能影响大,数据预处理后处理
    的头像 发表于 12-20 11:27 3081次阅读

    新型弱监督篇幅级手写中文文本识别方法PageNet

    PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC数据集上的识别指标对比如下表所示。可以看出,在MTHv2数据集上,PageNet取得了
    的头像 发表于 01-12 14:12 1978次阅读

    构建的流程体系

    所谓流程的架构体系,就是一套有层次的流程管理体系。这种层次体现在由上至下、由整体
    的头像 发表于 06-01 15:09 1924次阅读
    构建<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的流程体系

    PVT++:通用的预测性跟踪框架

    本文提出通用的预测性跟踪框架 PVT++,旨在解决目标跟踪的部署时的延迟问题。多种预训练跟踪器在 PVT++ 框架下训练后“在线”跟踪效果大幅提高,某些情况下甚至取得了与“离线”
    的头像 发表于 07-30 22:30 1861次阅读
    PVT++:通用的<b class='flag-5'>端</b>对<b class='flag-5'>端</b>预测性跟踪<b class='flag-5'>框架</b>

    语音识别技术:的挑战与解决方案

    一、引言 随着人工智能技术的不断发展,语音识别技术得到了越来越广泛的应用。语音识别技术是近年来备受关注的一种新型语音识别技术,它能够直接将语音转换成文本,省略了传统的语音特征提取
    的头像 发表于 10-18 17:06 890次阅读

    测试不正常如何处理

    测试(End-to-End Testing)是一种测试方法,它模拟用户与系统的实际交互,从用户界面开始,通过应用程序的所有层,直到数据库。这种测试的目的是确保系统的各个组件在实际
    的头像 发表于 09-20 10:25 241次阅读

    测试用例怎么写

    测试方法,旨在验证整个应用程序从前端后端的流程是否能够按照预期工作。它涉及多个系统组件和接口的交互,确保业务流程的完整性和正确性。 二、编写
    的头像 发表于 09-20 10:29 296次阅读