大疆、港科大联手！双目3D目标检测实验效果大放送-电子发烧友网

CVPR 2019的文章出来了，今天聊聊双目的 3D object detection。这是一篇来自 DJI （大疆）与港科大合作的文章《Stereo R-CNN based 3D Object Detection for Autonomous Driving》，作者分别是 Peiliang Li，陈晓智(DJI，MV3D的作者)和港科大的 Shaojie Shen 老师。

论文链接，文中称代码将开源

https://arxiv.org/abs/1902.09738

1. Introduction

2018 年在 3D 检测方面的文章层出不穷，也是各个公司无人驾驶或者机器人学部门关注的重点，包含了点云，点云图像融合，以及单目 3D 检测，但是在双目视觉方面的贡献还是比较少，自从 3DOP 之后。

总体来说，图像的检测距离、图像的 density 以及 context 信息，在 3D检测中是不可或缺的一部分，因此作者在这篇文章中挖掘了双目视觉做 3D检测的的潜力。

2.Network Structure

整个网络结构分为以下的几个部分。

1). RPN部分，作者将左右目的图像通过stereoRPN产生相应的proposal。具体来说stereo RPN是在FPN的基础上，将每个FPN的scale上的feature map的进行concat的结构。

2). Stereo Regression，在RPN之后，通过RoiAlign的操作，得到each FPN scale下的left and right Roi features，然后concat相应的特征，经过fc层得到object class, stereo bounding boxes dimension还有viewpoint angle(下图所示) 的值。这里解释一下viewpoint，根据Figure3.，假定物

3). keypoint的检测。这里采用的是类似于mask rcnn的结构进行关键点的预测。文章定义了4个3D semantic keypoint，即车辆底部的3D corner point，同时将这4个点投影到图像，得到4个perspective keypoint，这4个点在3D bbox regression起到一定的作用，我们在下一部分再介绍。

在keypoint检测任务中，作者利用RoiAlign得到的14*14feature map，经过conv，deconv最后得到6 * 28 * 28的feature map，注意到只有keypoint的u坐标会提供2D Box以外的信息，因此，处于减少计算量的目的，作者aggregate每一列的feature，得到6 * 28的output，其中，前4个channel代表4个keypoint被投影到相应的u坐标的概率，后面两个channel代表是left or right boundary上的keypoint的概率。

3. 3D Box Estimation

通过网络回归得到的 2D box 的 dimension，viewpoint，还有 keypoint，我们可以通过一定的方式得到3D box的位置。定义 3D box 的状态x = [x, y, z, θ]。

Figure 5，给出了一些稀疏的约束。包含了特征点的映射过程。这里也体现了keypoint的用处。

上述公式即为约束方程，因此可以通过高斯牛顿的方法直接求解。具体可以参考论文的引文17。这里我们简单证明一下第一个公式。注意，这里的假设都是u，v坐标都已经经过相机内参的归一化了。

4. Dense 3D Box Alignment

这里就回到shenshaojie老师比较熟悉的BA的过程了，由于part 3仅仅只是一个object level的深度，这里文章利用最小化左右视图的RGB的值，得到一个更加refine的过程。定义如下的误差函数

求解可以利用G20或者ceres也可以完成。整个alignment过程其实相对于深度的直接预测是更加robust的，因为这种预测方法，避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的问题。

5. experiment

作者在实验这块达到了双目视觉的state-of-the-art，同时对于各个module也做了很充足的实验（这块请查看原论文）。

下面是图a、b、c为处理结果示例，每幅图像内部上中下三部分，分别为左眼图像检测结果、右眼图像检测结果、鸟瞰视图检测结果。

图a

图b

图c

6. Insight

最后谈谈文章给我的一些 insights，首先，整个文章将传统的 detection 的任务，结合了 geometry constraint 优化的方式，做到了3D位置的估计，想法其实在不少文章sfm-learner之类的文章已经有体现过了，不过用在3Ddetection上面还是比较新颖，避免了做双目匹配估计深度的过程。也属于slam跟深度学习结合的一篇文章，感兴趣的朋友可以继续看看（下面链接）相关文章

arxiv.org/abs/1802.0552

谈几点我个人意义上的不足吧，首先耗时过程 0.28s 的 inference time，不过可能作者的重点也不在这个方面，特征的利用上可以更加有效率，在实现上。其次，能不能采用deep3dbox的方式预测dimension，然后添加入优化项呢...总体来说，是一篇不错的值得一读的文章！

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
212

文章
28888

浏览量
209515
3D

3D

+关注

关注
9

文章
2926

浏览量
108364
图像检测

图像检测

+关注

关注
0

文章
35

浏览量
11945

原文标题：大疆、港科大联手！双目3D目标检测实验效果大放送 | CVPR 2019

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

3D打印中XPR技术对于打印效果的影响？

我是3D打印设备的制造商，我想具体了解下3D打印中XPR技术对于打印效果的影响？或者是否能提供对应的专利信息以备查阅

发表于 02-18 07:59

TAS3103 EVM用于具有3D效果的数字音频处理器

电子发烧友网站提供《TAS3103 EVM用于具有3D效果的数字音频处理器.pdf》资料免费下载

发表于 12-06 14:01 •0次下载

TAS3103 EVM用于具有<b class='flag-5'>3D</b><b class='flag-5'>效果</b>的数字音频处理器

透明塑料件喷粉3D扫描CAV全尺寸检测逆向3D建模设计服务-CASAIM

3D建模

中科院广州电子

发布于 :2024年08月30日 10:04:53

安宝特产品安宝特3D Analyzer：智能的3D CAD高级分析工具

安宝特3D Analyzer包含多种实用的3D CAD高级分析工具，包括自动比对模型、碰撞检测、间隙检查、壁厚检查，以及拔模和底切分析，能够有效提升3D CAD模型

发表于 08-07 10:13 •494次阅读

安宝特产品安宝特<b class='flag-5'>3D</b> Analyzer：智能的<b class='flag-5'>3D</b> CAD高级分析工具

可存储500张人脸的双目3D人脸识别模块

。HLK-FM888是一款红外+可见光双目人脸识别算法模组，内嵌双目3D活体检测算法和基于大数据训练的深度神经网络动态可见光识别算法，搭载高像素的摄像头，在增强对环境光线的适应性和

发表于 07-28 08:39 •1167次阅读

可存储500张人脸的<b class='flag-5'>双目</b><b class='flag-5'>3D</b>人脸识别模块

原理图及PCB Checklist大放送~

我们一、原理图绘制及检查流程阶段流程原理图绘制根据已有原理图或资料（数据手册、方案书）绘制原理图DRC检查EDA的DRC自检，初步找出绘制不合理部分根据CheckList自检根据CheckList进行原理图及PCB详检二、原理图检查清单细则原理图CheckList电源电路自检确认项目确认结果备注应用设计模拟部分数字部分是否隔离每个IC的电源引脚是否都有一个去

发表于 07-24 08:11 •1390次阅读

原理图及PCB Checklist<b class='flag-5'>大放送</b>~

广东3D扫描钣金件外观尺寸测量3D偏差检测对比解决方案CASAIM

3D扫描

中科院广州电子

发布于 :2024年07月22日 16:13:45

裸眼3D笔记本电脑——先进的光场裸眼3D技术

效果的用户，这款笔记本电脑都能满足你的需求。一、卓越的3D模型设计能力英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D技术，使用户无需佩戴3D

发表于 07-16 10:04 •732次阅读

浪潮云洲发布云洲烛龙双目结构光3D相机

在科技日新月异的今天，智能制造正逐步成为推动社会发展的重要力量。近日，备受瞩目的2024世界智能产业博览会在天津盛大开幕。本次博览会不仅汇聚了全球智能产业的精英，更见证了一项创新技术的诞生——浪潮云洲旗下国器智眸公司研发的“云洲烛龙双目结构光3D相机”正式发布。

发表于 06-25 18:00 •1290次阅读

苏州吴中区多色PCB板元器件3D视觉检测技术

3D视觉检测相较于2D视觉检测，有其独特的优势，不受产品表面对比度影响，精确检出产品形状，可以测出高度（厚度）、体积、平整度等。在实际应用中可以与2

发表于 06-14 15:02 •505次阅读

工业镜头在3D结构光检测中实际应用

工业镜头在3D结构光检测中实际应用

发表于 06-01 08:34 •350次阅读

重磅| 奥比中光全新双目系列3D相机，搭载自研芯片，为智能机器人而生

4月29日，奥比中光正式发布全新Gemini 330系列双目3D相机，首发产品包括Gemini 335、Gemini 335L两款通用型高性能双目3D相机。新品首次搭载奥比中光为机

发表于 04-30 18:00 •636次阅读

奥比中光正式发布全新Gemini 330系列双目3D相机

4月29日，奥比中光正式发布全新Gemini 330系列双目3D相机，首发产品包括Gemini 335、Gemini 335L两款通用型高性能双目3D相机。

发表于 04-30 10:41 •858次阅读

Cognex发布了In-Sight® L38 3D视觉系统，为3D检测设立新标准

人工智能（AI）驱动的3D视觉系统为自动化制造提供快速部署和可靠的检测功能。

发表于 04-15 09:04 •565次阅读

3D动画原理：电阻

电阻3D

深圳崧皓电子
发布于 :2024年03月19日 06:49:19