现在,我们知道立体匹配在实际应用中会有各种各样困难的问题需要解决,例如之前提到过的光照、噪声、镜面反射、遮挡、重复纹理、视差不连续等等导致的匹配错误或缺失。于是人们就创造了各种各样的算法来解决这些问题。我们不禁要问一个问题:我们如何公平的比较这些算法的优劣呢?这就是我在这篇文章中想要阐述的内容。让我们先从评价方法的直觉理解开始,然后进入到科学的部分。
一. 视差结果的评价方法
立体匹配里面提到的最基础的固定窗口法的匹配结果:![baf15fd0-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv2ABj9VAAGO2vUlgys187.jpg)
![bb336d94-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AHB-QAADZApDhVpQ372.jpg)
- 均方根误差(RMS Error),这里N是像素总数
![bb53e8da-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6ANN4DAAB1OSvDWts536.jpg)
![bb7628b4-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AUGRWAAB5iIbRSqE886.jpg)
![bb97b7c2-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AITg5AAFtVuCCGqY686.jpg)
![bbbea436-79b5-11ed-8abf-dac502259ad0.png](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AKc6KAAQoyiyGHbk343.png)
![bbfe31b4-79b5-11ed-8abf-dac502259ad0.png](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AOO7YAAQtm7M8MEQ927.png)
![bc3a555e-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AWyBoAAMHAlRpEAA491.jpg)
二. 最早期的测试图集(2001年及以前)
在第1节提到的论文中,作者说明了测试数据集的构成,这些数据集就是MiddleBurry立体匹配数据集网站上的2001版数据集。第一类:平面场景数据集在vision.middlebury.edu/s上,你可以看到作者制作的6组平面场景数据。![bc651d98-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-Ab4QVAACborVXgBc543.jpg)
![bc87ba2e-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-Afk_QAAEPv3xFqAE693.jpg)
![bcac1e28-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AAKRcAACyVBOH37o697.jpg)
![bcc3ac5a-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AW3u-AACh3cqLAmY096.jpg)
三. 2003年开始,引入结构光技术
正如上一节提出的,2001版的数据太简单了,导致后面一些改进后的算法很容易就能匹配上前述数据集中大多数像素,按照现在流行的说法:过拟合了。于是,前面两位作者采用了新的方法制作更接近真实场景,更加具有挑战性的数据集。这次的数据集主要包括下面两个更加复杂的场景:Cones和Teddy, 你可以看到现在不再是平面目标构成的场景了,而是具有更加复杂的表面特征,以及阴影和更多深度不连续的区域。不仅如此,此次提供的图像的尺寸也很大,完整尺寸是1800x1500,另外还提供了900x750及450x375两种版本。同时,还包括了遮挡区域、无纹理区域、深度不连续区域的掩码图像,用于各种指标的计算。Cones:![bcdf859c-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AX1DkAAEPbQSNhts344.jpg)
![bd04b236-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AMRJ7AADd30N4XhY827.jpg)
![bd3ed5ec-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AVhHbAADie_j5Bq8087.jpg)
![bd621aac-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AVyxjAAEToYjPg9Y723.jpg)
![bd95cafa-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCv-AL7syAACGCklrtZQ509.jpg)
![bdbb78cc-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAdYyPAACT9OVTENg593.jpg)
![bdd66466-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAPZBeAAG6bHHDFb0890.jpg)
![be043472-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCATPLuAADEcOQoOsc414.jpg)
![be287cce-79b5-11ed-8abf-dac502259ad0.gif](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAQeMgAAvBLCH2jXk560.gif)
![beceb544-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAGfu1AABmV1JcOcI359.jpg)
![beec7dfe-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCALJaNAAEJLYMy7y0348.jpg)
![bf188d90-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAUR1iAAE3-j36hKU555.jpg)
- 遮挡,部分像素只在1个视角可见,在另外1个视角不可见
- 阴影或反射,导致部分像素的编码不可靠,使得匹配失败。
- 在匹配时,因为相机分辨率和投影仪分辨率不一致,因此所需的插值或者混叠导致了一些像素无法完美匹配,从而在左右一致性检查时失败。
- 同样,因为投影仪分辨率不足,导致相机成像时多个像素对应同一个投影仪像素。这可能导致一个视角下的1个像素可能和另外一个视角下多个像素匹配上,从而在左右一致性检查时失败。
- 还有,就是当采用多个不同的光源方向时,不同光源方向照明时得到的视差图不一致。这种不一致的像素也会被标记为黑色像素。
![bf3c096e-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCANRhvAAFPK-VXOXY282.jpg)
![bf76d260-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAUyznAAED5_LyNSs150.jpg)
![bf9c2538-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAO16UAACUwQKTnv8530.jpg)
![bfbb960c-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAFkyBAAD2glJNZEQ435.jpg)
![bfe89dd2-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAPSczAAClz88QrkI115.jpg)
![c00e52fc-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAFGfhAAB95O6LSRI595.jpg)
四. 2014年,更加复杂的制作技术
前面讲的数据集在立体匹配的研究中起了非常大的作用,很多重要的方法都是在这时候的数据集上进行评价和改进的。然而,它们的数量有限,场景有限,人们认识到需要更多更复杂的场景,来促进立体匹配算法的进一步改进。于是,2011年到2013年间,MiddleBurry大学的Nera Nesic, Porter Westling, Xi Wang, York Kitajima, Greg Krathwohl, 以及Daniel Scharstein等人又制作了33组数据集,2014年大佬Heiko Hirschmüller完成了对这批数据集的优化。他们共同在GCPR2014发表了下面这篇文章,阐述了这批数据集的制作方案:![c02ecb04-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAER7qAAE2qOtTwzw629.jpg)
![c0530e60-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGACBZiAAJ3nvaAFKY711.jpg)
![c083e17a-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKARY_VAAHSLZnXghk265.jpg)
![c09d321a-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKAAGG7AAGck_c98Zg030.jpg)
![c0debaf0-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKARXFIAADtZgJP4-w123.jpg)
![c0f957c0-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKAU0yXAACBAgOfC3U845.jpg)
![c1155236-79b5-11ed-8abf-dac502259ad0.gif](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKAQtvAACoQ-v4BYtM126.gif)
五. 2021年,增加用移动设备拍摄的数据集
之前的数据集都是用单反相机作为主要成像设备的,因此图像的质量非常高。2019年到2021年间,Guanghan Pan, Tiansheng Sun, Toby Weed, 和Daniel Scharstein尝试了用移动设备来拍摄立体匹配数据集。这里他们采用的是苹果的iPod Touch 6G,它被安装到一个机械臂上,在不同视角下拍摄场景。视差图的生成还是用了上一章介绍的方法,只不过做了适当的裁剪。这批数据一共24组,每个场景会有1到3组数据,下面是例子:![c1dd8b52-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKAIS_YAAJDKEOhUUw967.jpg)
六. 总结
这篇文章里,我为你介绍了几种核心的立体匹配评价指标,以及MiddleBurry大学的几代立体匹配数据集的制作方式。现在做相关研究的人确实应该感谢包括Daniel Scharstein、Richard Szeliski和Heiko Hirschmüller在内的先驱们,他们创建的MiddleBurry立体匹配数据集及评价系统极大地推动了这个领域的发展。到了今年,一些计算机视觉界的顶会论文依然会描述自己在MiddleBurry 立体匹配数据集上的评价结果。目前排名第1的算法是旷视研究院今年推出的CREStereo,相关成果也发表到了CVPR2022,并会做口头报告,我之后如有时间也会撰文加以讲解。![c226c808-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKANJ29AAGousaUXG4809.jpg)
七. 参考资料
1、MiddleBurry双目数据集2、D. Scharstein and R. Szeliski.A taxonomy and evaluation of dense two-frame stereo correspondence algorithms.International Journal of Computer Vision, 47(1/2/3):7-42, April-June 20023、D. Scharstein and R. Szeliski.High-accuracy stereo depth maps using structured light. InIEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2003),volume 1, pages 195-202, Madison, WI, June 2003.4、D. Scharstein and C. Pal.Learning conditional random fields for stereo. InIEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2007),Minneapolis, MN, June 2007.5、H. Hirschmüller and D. Scharstein.Evaluation of cost functions for stereo matching. InIEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2007),Minneapolis, MN, June 2007.6、D. Scharstein, H. Hirschmüller, Y. Kitajima, G. Krathwohl, N. Nesic, X. Wang, and P. Westling.High-resolution stereo datasets with subpixel-accurate ground truth. InGerman Conference on Pattern Recognition (GCPR 2014), Münster, Germany,September 2014.7、CMU 2021 Fall Computational Photography Course 15-463, Lecture 18
审核编辑 :李倩
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
算法
+关注
关注
23文章
4482浏览量
91322 -
数据集
+关注
关注
4文章
1189浏览量
24469
原文标题:深度解析MiddleBurry立体匹配数据集
文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
请问NanoEdge AI数据集该如何构建?
我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据集的问题,请问我该怎么构建数据集?或者生成模型失败还会有哪些原因?
发表于 05-28 07:27
深度解析电化学储能最新官方数据
深度解析电化学储能最新官方数据 近日,中国电力企业联合会发布了《2023年度电化学储能电站行业统计数据》(以下简称“统计数据”),
发表于 05-20 11:29
•165次阅读
![<b class='flag-5'>深度</b><b class='flag-5'>解析</b>电化学储能最新官方<b class='flag-5'>数据</b>](https://file1.elecfans.com/web2/M00/E7/22/wKgZomZKwgqACtKJAAJonzPs9lY351.png)
机器学习模型偏差与方差详解
数据集的任何变化都将提供一个不同的估计值,若使用统计方法过度匹配训练数据集时,这些估计值非常准确。一个一般规则是,当统计方法试图更紧密地匹配数据点,或者使用更灵活的方法时,偏差会减少,
发表于 03-26 11:18
•365次阅读
![机器学习模型偏差与方差详解](https://file1.elecfans.com/web2/M00/C5/C4/wKgZomYCPtWAHi-SAAAoTjKuvnU787.png)
arcgis空间参考与数据框不匹配如何解决
当使用ArcGIS软件进行空间数据处理时,经常会遇到空间参考与数据框不匹配的问题。这种不匹配可能导致数据显示不正确,分析结果不准确,甚至引发
机器视觉检测发展的几个历程和趋势
主要针对光学成像的逆问题,是由能从二维光强度阵列恢复三维可见表面物理性质的一系列处理过程组成。这里各过程的输入数据及计算目的都是能够明确描述的,如边缘检测、立体匹配、由运动恢复结构等方法。
基于Transformer和深度证据学习的立体匹配框架
作者在各种数据集上评估了所提出的ELFNet,包括Scene Flow ,KITTI 2012和KITTI 2015 和Middlebury 2014 。此外,作者进行不确定性分析,探讨模型性能和不确定性之间的关系。
发表于 09-18 18:29
•243次阅读
![基于Transformer和<b class='flag-5'>深度</b>证据学习的<b class='flag-5'>立体匹配</b>框架](https://file1.elecfans.com/web2/M00/A3/AB/wKgZomUI9NqACOtUAAAwcjM6hMY958.png)
middlebury数据集是什么
立体测评网站,你可以在算法开发中更好地了解和改进立体匹配算法。本文将为你提供关于Middlebury立体测评网站的详细使用指南,帮助你充分利用该平台。 一、middlebury数据集是
![middlebury<b class='flag-5'>数据</b>集是什么](https://file1.elecfans.com/web2/M00/A2/5E/wKgZomT9N_-AJ9UyAAAX2BhV4pI557.png)
如何利用keras打包制作mnist数据集
。脚本参考使用Python解析MNIST数据集
import numpy as np
import struct
# 训练集文件
train_images_idx3_ubyte_f
发表于 08-18 06:12
双目立体视觉原理 HALCON的双目视觉系统研究
、图像预处理和特征提取、立体匹配以及三维重建。为解决智能移动机器人、工业装配机器人、家用机器人、公共服务机器人的视觉问题,双目立体视觉技术的进一步研究可对多目视觉具有重要的启发。 本文对双目立体视觉测深
发表于 07-19 14:18
•0次下载
最强科普!深度解析华为云盘古大模型
搭档完成复杂任务 预测台风路径降低灾害损失 帮助缩短药物研发周期 …… 此次发布有诸多新升级 更为客户提供了“开箱即用”的模型服务 简直就是一个AI大礼包! 一支视频为你深度解析盘古大模型硬实力! 你想了解的都在这儿 原文标题:最强科普!
如何通过立体视觉构建小巧轻便的深度感知系统
在本文中,我们首先介绍了立体视觉系统的主要部分,并提供了有关使用硬件组成和开源软件制作定制立体相机的说明。由于此设置专注于嵌入式系统,因此它将实时计算任何场景的深度图,而无需电脑主机。
![如何通过<b class='flag-5'>立体</b>视觉构建小巧轻便的<b class='flag-5'>深度</b>感知系统](https://file1.elecfans.com/web2/M00/8C/AC/wKgZomSvupCAZL4cAAAWE1x0VkM198.jpg)
Mobileye和特斯拉差距在哪?
3D场景重建最佳解决办法是立体双目,即基于Depth Map的3D重建。立体双目可以准确测量出深度信息,但除了博世、奔驰、丰田这些大厂外,双目的标定和立体匹配是无法跨越的难关,包括特斯
![Mobileye和特斯拉差距在哪?](https://file1.elecfans.com/web2/M00/8C/91/wKgZomSuV4iAQyiHAAA-jni72sg756.png)
几种经典的双目匹配的算法
在深度相机的主流技术方案Structure Light,ToF,Stereo Dual)中,主动双目成像方案可以基于低成本的硬件,获得高分辨率、高精度的深度图像,但是立体匹配算法(stereo
![几种经典的双目<b class='flag-5'>匹配</b>的算法](https://file1.elecfans.com/web2/M00/8B/F8/wKgZomSjkyOAaHUeAAAVOh8KQV8776.png)
评论