0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

场景流论文速记—RGBD图像场景流

电子设计 来源:电子设计 作者:电子设计 2020-12-10 19:28 次阅读
简单记一下最近看的六篇场景流论文~其中3篇是关于RGBD图像的场景流,另外3篇是关于点云的场景流。
来源:https://zhuanlan.zhihu.com/p/85663856
作者:林小北

所谓场景流,就是光流的三维版本,表述了图像/点云中每个点在前后两帧的变化情况。目前对场景流的研究还局限在实验室阶段,由于缺乏实际数据(打标成本太高)以及客观的评价指标,离工程应用还有不小的距离。此外,巨大的计算量也是一个瓶颈。以下论文可以在文末直接下载

《Deep Rigid Instance Scene Flow》 CVPR 2019

输入:双目摄像头的前后帧左右图像

核心思想:把场景流分割成多个actor的运动,利用MaskRCNN进行Instance Segmentation,每个Instance的Motion都应该与深度和光流一致。

首先,利用三个预先训练好的子网络提取视觉线索:

a. 利用MaskRCNN进行Instance Segmentation
b. 利用PSM-Net计算深度图(disparity map)
c. 利用PWC-Net计算光流

之后,采用高斯牛顿法最小化下面三个能量函数之和得到3D motion:

a. Photometric Error:前一帧左边图像的inlier像素点,与第二帧的投影位置的像素点必须尽量一致
b. Rigid Fitting:估计出的刚体运动必须与观察到的深度和光流信息一致
c. Flow Consistency:估计出的刚体运动在2d上的投影必须和光流一致

《Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation》 ECCV 2018

输入:前后帧图像的RGBD信息

核心思想:把图像分割为rigid/no-rigid区域,计算rigid区域的ego motion后再结合光流即可得到scene flow。

先利用两个预先训练好的子网络提取特征:

a. 利用PWCNet提取前后两帧的光流
b. 利用 rigidity-transform network (RTN)预测ego-motion以及rigidity mask

之后,结合光流、rigidity mask对ego motioon进行refine,保证rigity里面的像素点的光流与ego-motion一致。

最后,综合利用光流、rigidity mask、ego motioon信息即可得到scene flow。

备注:本文的另一个贡献是提出了一个用于场景流的数据库REFRESH。在kitti的inference结果如下,不是很好。

《Every Pixel Counts ++: Joint Learning of Geometry and Motion with 3D Holistic Understanding》TPAMI

输入:单目/双目摄像头的前后帧图像

核心思想:先用三个子网络估计光流、深度、camera motion,送入holistic 3D motion parser (HMP) 按照几何关系即可计算出rigid background的motion和moving objects的motion。

三个子网络先分别进行预训练,再结合HMP考虑如下loss优化三个子网络:

a. Rigid-aware structural matching:按照3D motion投影后rigid部分的结构特点应该match
b. Edge-aware local smoothness:投影后的深度和光流的应该保持smoothness
c. Rigid-aware 3D motion consistency:rigid background的moving object motion值应该尽量小
d. Flow motion consistency in occluded regions:occluded regions的光流前后映射应该一致
e. Multi-scale penalization:累加4个尺度的loss

备注:在双目摄像头的表现优于单目。通过joint learning,光流、深度、camera motion的表现均有提升。

在Kitti上的表现如下,算是差强人意吧。

本文作者还有一篇工作《Every Pixel Counts: Unsupervised Geometry Learning with Holistic 3D Motion Understanding》,是关于估计ego motion的。

《FlowNet3D: Learning Scene Flow in 3D Point Clouds》 CVPR 2018

输入:仅使用点云数据

核心思想:采用pointnet++作为基本模块,提取前后两帧点云特征并进行融合、上采样,直接拟合出scene flow

网络结构如下:

a. 4组set conv layer:pointnet++ 提取点云特征
b. 1组flow embedding layer: 把前后两帧的点云特征mix,第一帧的取中心点,其临近点从第二帧取,再提取特征
c. 4组set upconv layer:上采样,新增点从邻近点获取特征

loss为smooth L1 loss

备注:在合成数据集上训练的模型可以直接在kitti上work,但与图像场景流的论文不同,没有把background和moving object做区分,没有考虑ego motion。

《HPLFlowNet: Hierarchical Permutohedral Lattice FlowNet for Scene Flow Estimation on Large-scale Point Clouds》 CVPR 2019

输入:仅使用点云数据

核心思想:采用Bilateral Convolutional Layers作为基本模块,提取前后两帧点云特征并进行融合、上采样,直接拟合出scene flow。

备注:与FlowNet3D的整体结构一样,都是下采样-融合-上采样。Bilateral Convolutional Layers能够快速处理高维稀疏数据,是不同于PointNet的一种滤波操作。

《PointFlowNet: Learning Representations for Rigid Motion Estimation from Point Clouds》 CVPR 2019

输入:仅使用点云数据

核心思想:利用点云数据提取特征后,分别生成ego motion、scene flow、rigid motion、objection location,再整合结果输出

细节如下:

a. 采用VolexNet作为feature encoder
b. 把前后两帧的特征进行concate,接入context encoder
c. 之后,接入三个分支:

i. ego-miotion regressor
ii. sceneflow decoder -> rigid motion decoder(证明了rigid motion decoder 无法使用卷积层,故此处采用了fc)
iii. objection location decoder

d. 把检测出的object和motion融合得到结果

loss为 Scene Flow Loss + Rigid Motion Loss + Ego-motion Loss + Detection Loss

备注:本文思路与图像类方法很像,也是考虑各个instance的motion。

总结

  • Deep Rigid Instance Scene Flow:

输入为双目图像,用MaskRCNN把动静态障碍物分开。三个子网络分别独立训练并计算出Instance Segmentation、深度图、光流,利用三个子网络的结果计算motion,进而得到scene flow。

  • Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation:

输入为RGBD图像,两个子网络分别独立训练并算出光流、ego-motion&rigid mask,refine ego motion后算出scene flow。

  • Every Pixel Counts ++:

输入为单目/双目摄像头,先用三个子网络估计光流、深度、camera motion,再按照几何关系计算出rigid background的motion和moving objects的motion,之后根据一致性对三个子网络进行优化。

  • FlowNet3D 以及 HPLFlowNet:

分别对前后两帧点云下采样提取特征并进行融合、上采样,直接拟合出scene flow。

  • PointFlowNet(思路类似Deep Rigid Instance Scene Flow):

采用volexnet提取前后两帧点云特征并融合,先检测出object、计算出ego motion、scene flow,再去回归各个object的motion。

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30979

    浏览量

    269262
  • 人工智能
    +关注

    关注

    1791

    文章

    47336

    浏览量

    238718
收藏 人收藏

    评论

    相关推荐

    系统放大器的技术原理和应用场景

    系统放大器是一种重要的电子设备,其技术原理和应用场景都具有一定的专业性和广泛性。以下是对系统放大器的技术原理和应用场景的详细介绍:一、技术原理系统放大器的工作原理基于电子器件的非线性特性,通过控制
    发表于 11-18 14:46

    HarmonyOS NEXT应用元服务开发控件位置调整场景与重新设置新焦点位置的场景

    一、控件位置调整场景 移动过程中需要实时播报即将移动到的位置,新位置的播报会打断老位置的播报,放置到确定位置后,需要再播报已经放置的位置信息,尽量保证视障用户耳朵听到的信息和我们通过眼睛看到的信息
    发表于 10-25 09:49

    实时示波器的技术原理和应用场景

    波形图像。在信号处理方面,示波器首先将接收到的被测信号进行放大和滤波等处理,以确保信号的准确性和稳定性。然后,通过A/D转换技术,将模拟信号转换为数字信号,以便进行后续的数字处理和显示。二、应用场景
    发表于 10-23 14:22

    控制和恒压控制的区别

    在DC-DC电源中,按照电源管理技术,可分为恒压和恒控制技术,这两个模型各自有特定的应用场景和工作原理,如何区分这两个技术之间的区别?下面一起来看看吧!
    的头像 发表于 10-15 13:45 704次阅读

    如何有效解决固耦合问题

    固耦合问题的基本概念 固耦合问题是指在流体和固体相互作用的过程中,流体的运动受到固体边界的影响,同时固体的变形和应力状态也受到流体的作用。固耦合问题具有以下特点: 1.1 多学科性:
    的头像 发表于 08-09 15:16 684次阅读

    LED恒驱动芯片:升压恒和降压恒的区别和应用场景

    输入电压,使其高于LED正常工作电压,以实现恒定的LED电流输出。在升压恒驱动中,驱动电路将输入电压升高至所需电压,并保持输出电流恒定。 升压恒驱动适用于需要将低电压源提升至较高电压来驱动LED的场景,例如电池供电的手持设备
    的头像 发表于 08-09 13:47 2106次阅读

    FPGA与MCU的应用场景

    肯定是不同的。在需要处理多个高速数据场景下,FPGA的多通道IO接口设计能力显得尤为重要,例如PCIe、DDR还是其他高速通信协议。FPGA可以进行高速数字信号处理,能够以极高的效率执行数
    发表于 07-29 15:45

    图像检测和图像识别的原理、方法及应用场景

    图像检测和图像识别是计算机视觉领域的两个重要概念,它们在许多应用场景中发挥着关键作用。 1. 定义 1.1 图像检测 图像检测(Object
    的头像 发表于 07-16 11:19 4296次阅读

    LT3042使用过程出现过保护,为什么?

    波形如下: 使用LT3042的过程中,因后级负载产生倒灌电流超过LT3042 200mA限制,出现过保护,麻烦问一下该应用场景是否会对LT3042产生影响或者损坏
    发表于 05-31 08:26

    功率电子电路中续和换流的区别

    功率电子电路中续和换流的区别 续和换流是功率电子电路中常用的两种控制方式,它们具有不同的工作原理和应用场景。 1. 续技术: 续技术
    的头像 发表于 04-08 17:35 1719次阅读

    NanoEdge AI的技术原理、应用场景及优势

    能耗并提高数据安全性。本文将对 NanoEdge AI 的技术原理、应用场景以及优势进行综述。 1、技术原理 NanoEdge AI 的核心技术包括边缘计算、神经网络压缩和低功耗硬件设计。边缘计算
    发表于 03-12 08:09

    AG32VF-MIPI应用场景

    MIPI接口技术在图像和视频传输中的应用越来越广泛,应用场景也在不断拓展,而不仅限于移动设备。MIPI接口在物联网、智能家居、智能监控、智能电视、智能汽车等领域也得到广泛应用。 MIPI还可
    发表于 01-22 08:56

    降压恒LED芯片FP7126 PWM调光:打造高效照明

    降压恒LED芯片FP7126可以实现精确的亮度调节,无论是在家庭、办公室还是商业场所,都能满足不同使用场景的需求。
    的头像 发表于 01-18 15:26 804次阅读
    降压恒<b class='flag-5'>流</b>LED芯片FP7126 PWM调光:打造高效照明

    从记录的传感器数据中获取驾驶场景

    此工作使用 MATLAB 和 RoadRunner 产品完成,它提供了一种结构化的方法来创建虚拟场景,使安波福的工程师能够通过仿真严格验证 ADAS/AD 闭环算法。
    的头像 发表于 01-18 11:05 460次阅读
    从记录的传感器数据中获取驾驶<b class='flag-5'>场景</b>

    微美全息(NASDAQ:WIMI)探索全局-局部特征自适应融合网络框架在图像场景分类中的创新运用

    随着计算机视觉技术的不断发展以及数字图像规模的爆炸式增长,图像场景分类已成为许多领域的关键任务,已经得到了广泛的研究和应用。图像场景分类旨在
    的头像 发表于 01-05 16:08 397次阅读
    微美全息(NASDAQ:WIMI)探索全局-局部特征自适应融合网络框架在<b class='flag-5'>图像</b><b class='flag-5'>场景</b>分类中的创新运用