1. 从二维blob到三维姿态
摄影测量中存在一个经典问题:Perspective-n-Point(PnP),亦即在给定图像及其里面的已知3D点的情况下识别camera姿态。我们要解决的问题是确保控制器追踪工作正常进行,而与PnP问题相反的是,我们已经能够很好地估算出头显camera姿态,但我们希望找到具有已知3D点(LED)的控制器姿态。
一旦检测到摄像头成像中的每个红外LED,我们需要解决的困难是确定从每个blob到控制器特定LED的映射。我们利用LED位置及其到blob的映射来确定控制器的位置和方向。由于我们仅使用头显数据来执行跟踪,所以我们必须高效地执行这一过程的每个部分。
计算机视觉中的Blob是指图像中的一块连通区域,Blob分析就是对前景/背景分离后的二值图像,进行连通域提取和标记。标记完成的每一个Blob都代表一个前景目标,然后就可以计算Blob的一些相关特征,如:面积、质心、外接矩形等几何特征。同时可以计算Blob的颜色、纹理特征,而它们都可以作为追踪的依据。基于Blob的追踪属于基于区域的追踪。
在将blob与LED匹配的过程中,我们围绕可能正确的潜在匹配生成一组假设。为了计算出准确的姿态,我们需要最少的匹配项。我们的算法能够根据我们处理的各种变量来从概率方面确定最可能的正确匹配。不正确的映射会纳入直接导致姿态估计不准确的错误,所以我们需要在每帧中获得足够的准确匹配。
2. 用多视图来优化匹配
为了解决LED匹配问题,我们实现了在每帧上运行的多种方法。但广义上讲,它们分为两个主要类别。第一是穷举方法,亦即强制应用解决方案,而我们通俗地将其称为“暴力匹配”。当没有关于控制器位置和方向的先验信息时,我们就会使用这些方法。当从前一个摄像头图像中获得控制器的姿态时,我们就可以在更小的窗口内进行搜索,而我们将其称为“接近匹配”。
在一开始,管道一次搜索一个camera中的blob。这要求假设生成blob和验证blob都在同一个camera中,亦即意味着一个camera中至少要检测到4个blob才能成功匹配。另外,它非常有可能导致多个camera之间产生矛盾匹配结果。为了解决这个问题,我们开发了全新的匹配管道:在评估不同camera中的LED-blob对应关系时,它将利用立体摄像头校准数据。这使我们能够依靠每个摄像头之间的关系来帮助解决不确定性。
这个方法改善了单个camera缺乏足够匹配,但当所有camera图像组合在一起时就具有足够匹配的场景。最严重的情况是控制器靠近视场边缘,太远、太近或存在遮挡。
由于匹配结果是整体评估,而非根据单个camera评估,所以这同时排除了匹配结果不一致的可能性。这有助于扩大控制器的追踪量,并减少因为过于靠近头显或视场边缘而造成的追踪损耗,从而实现了更为流畅的追踪体验。
3. 用更少的数据进行计算
从理论上讲,仅给定一个camera图像,你至少需要看到三个LED才能解析控制器的姿态。但是,仅利用三个点会产生多种可能的解决方案,所以我们需要至少四个正确的匹配才能稳健地解析姿态。
摄像头一次只能看到3个,2个,或者甚至1个LED是相当普遍的情况,所以我们设计了一个可以使用其他信息并支持较少LED的求解器。反过来,它包括以下的全新求解器,并使得我们能够追踪那些特别具有挑战性的方向:
P2P pose solver
使用2个匹配项和先前的姿态方向信息来解析姿态的位置component。
将最小匹配要求减少到3个(2个假设生成匹配和1个验证匹配)。
P1P pose solver
使用预测姿态直接验证匹配,而非通过统计或最接近预测进行验证。
将最小匹配要求减少到2个(为了立体姿态优化,确保适当地限制平移和缩放)
在少于4个LED的情况下,使用仅位置的立体姿态优化。
经过大量的实验,我们发现P2P求解器和P1P求解器都需要非常准确的先验信息(良好的追踪状态和准确的预测),因为它们依赖于预测姿态来作为解决问题的严格约束。
但在“粗暴匹配”中,先验信息不太可靠,所以我们注意到诸如错配控制器或错配光管之类的问题。这促使我们开发了稳健的状态机,它允许我们能够在各种求解器之间进行转换,从而确保我们使用正确的方法来处理Quest和RiftS每天遇到的各种困难动作。
尽管这些改进极大地帮助了我们,但我们在改善整体体验方面还有更多的提升空间。
-
led
+关注
关注
240文章
23102浏览量
657907 -
pnp
+关注
关注
11文章
295浏览量
51675 -
光线追踪
+关注
关注
0文章
183浏览量
21459
发布评论请先 登录
相关推荐
评论