基于深度学习的收集透明物体深度数据的光学传感器算法-电子发烧友网

在机器人和计算机视觉领域，光学 3D 距离传感器已经得到了广泛应用，比如 RGB-D 摄像头和 LIDAR 传感器，都在 3D 环境绘制和无人驾驶等任务中扮演了重要角色。

尽管它们性能十分强大，兼具高敏感度、高精度和高可靠性等特质，但在识别透明物体上却不尽如人意。想要破坏这些传感器的成像效果，或者让机械手臂无从下手，只需要在它们面前放上玻璃杯一类的透明物体就可以了，因此难以在不使用其他传感器的情况下独立完成特定任务。

这是因为光学传感器的算法假设所有表面均是理想散射的 (Lambert)，即物体会在各个方向和各个角度均匀地反射光线。在 Lambert 光照模型中，无论观察者的视角如何，其表面亮度都是相同的。

现实中的绝大多数物体符合这一假设，除了透明物体，因为它们的表面既折射又反射光线。这样一来，光线传播的复杂性大幅提升，表面亮度与视角无关的假设被破坏了，基于 Lambert 模型的算法也就失效了，导致传感器收集的透明物体的大多数深度数据都是噪声或者无效的。

图 | 透明物体在传统算法眼中是噪声（来源：谷歌 AI）

为了改善这一问题，让机器可以更好地感知透明表面，谷歌 AI，Synthesis AI 和哥伦比亚大学的研究人员合作开发了一种名为 ClearGrasp 的机器学习算法，能够从 RGB-D 图像中估算透明物体的准确 3D 数据。

根据谷歌 AI 介绍，在设计之初，ClearGrasp算法就考虑到了兼容性。它可以与任何标准 RGB-D 相机捕捉的数据配合使用，借助神经网络和深度学习来准确地重建透明物体的景深数据。

图 | ClearGrasp 算法的工作原理（来源：谷歌 AI）

与目前所使用的技术不同，ClearGrasp 算法不依赖于对透明物体的先验知识，比如预先对透明物体进行 3D 建模，还要补充观察视角和光线数据。在神经网络的帮助下，它可以很好地泛化到从未见过的全新物体身上。

在测试过程中，研究人员将新算法集成到了一套现有的拾取机器人控制系统中，最终发现它对透明塑料物体的抓取成功率有了非常显著的提升，最多可以提升 6 倍。未来有望在拾取机器人和自动驾驶等领域应用。

透明对象的可视数据集

无论是什么样的深度学习模型，训练时都要依赖于大量数据，比如训练自然语言模型 BERT 需要维基百科，ClearGrasp 也不例外。然而目前广泛使用的 3D 数据集，包括 Matterport3D 和 ScanNet，都会忽略透明表面和物体，因为标记过程过于复杂和耗时。

这让研究人员不得不自己创建训练集和测试集，专门针对透明对象设计。

在训练数据集中，他们创造了 5 万多个符合真实物理原则的渲染图，每张图片最多包含 5 个透明物体，放置于平面上或者开放式容器中，视角、背景和光线各不相同。每个物体还有配套的表面法线（曲率）、分割蒙版、边缘和深度等信息，用于训练各种 2D 和 3D 物体检测任务。

至于测试集，研究团队选择用真实场景创建图片和数据，方便最大程度上测试算法的真实表现。这是一个十分痛苦的过程，因为对于每个场景都要在保证视角、光线和场景布置完全一致的情况下照两遍：第一遍用透明物体，第二遍用一模一样的非透明物体替换它们（必须保证位置完全一样）。

最终他们得到了 286 个真实场景测试图，其中不仅包括透明物体本身，还有各种不同的背景贴图和随机不透明物体。图片中既包含训练集中存在的已知对象，也包括从未出现过的新物体。

在数据集的问题解决之后，下一步是思考如何收集透明物体的深度数据。

虽然在透明物体上，RGB-D 经典的深度估算方法无法给出准确数据，但仍然有一些蛛丝马迹暗示了物体的形状。最重要的一点是，透明表面会出现镜面反射，在光线充足的环境中会显示成亮点，在 RGB 图像中非常明显，而且主要受到物体形状的影响。

因此，卷积神经网络可以利用这些反射数据推断出准确的表面法线，然后将其用于深度估算。

另一方面，大多数机器学习算法都尝试直接从单眼 RGB 图像中估计深度，不过即使对于人类而言，这也是一个困难的任务。尤其在背景表面比较平滑时，现有算法对深度的估计会出现很大的误差。这也会进一步加大透明物体深度的估算误差。

基于此，研究人员认为与其直接估算透明物体深度，不如矫正 RGB-D 相机的初始深度估算数据。这样更容易实现，还可以通过非透明表面的深度来推算透明表面的深度。

ClearGrasp 算法

ClearGrasp 算法使用了三个神经网络：一个用于估计表面法线，一个用于分析受遮挡边界（深度不连续），另一个给透明对象罩上蒙版。蒙版负责删除透明对象的所有像素，以便填充上正确的深度数据。

研究人员使用了一种全局优化模块，可以预测表面法线并利用其来引导形状的重建，实现对已知表面深度的拓展，还可以利用推算出的遮挡边界来保持不同物体之间的分离状态。

由于研究人员创建的数据集存在局限性，比如训练图片只包含放在地平面上的透明物体，因此初期的 ClearGrasp 算法判断墙壁等其他表面法线的表现很差。为了改善这一问题，他们在表面法线估算训练中加入了 Matterport3D 和 ScanNet 数据集中的真实室内场景，虽然没有透明物体，但针对真实场景的训练有效提高了算法估算表面法线的准确率。

图 | 三套神经网络各有不同分工（来源：谷歌 AI）

为了系统分析 ClearGrasp 的性能，研究人员分别利用 RGB-D 数据和 ClearGrasp 数据构造了 3D 点云。点云显示了算法所生成的 3D 表面形状干净且连贯，没有原始单眼深度估算法中常见的锯齿状噪声，而且还可以分辨复杂图案背景下的透明物体，以及区分相互遮挡的透明物体。

最重要的是，ClearGrasp 输出深度数据可以直接控制依赖于 RGB-D 图像的机械臂。

研究人员使用了 UR5 工业机械臂进行测试，将其原始传感器数据替换成 ClearGrasp 输出深度数据后，它的透明物体抓取成功率得到了显著改善：平行夹爪的成功率从 12% 大幅提升到 74%，吸爪的成功率从 64% 提升到 86%。

虽然分辨透明物体的准确率已经有了大幅提升，但新算法仍然有很大的进步空间。

研究人员认为，受到训练数据集和传统路径跟踪及渲染算法的局限性影响，ClearGrasp 仍然不能准确分辨散焦线，经常会把明亮的散焦线和物体阴影混淆为独立的透明物体。这将是未来的重要研究方向之一。

研究人员相信，这项研究成果证明了，基于深度学习的深度数据重建方法足以胜过传统方法，使机器能够更好地感知透明表面，不仅有望提高 LIDAR 无人驾驶等技术的安全性，而且还可以在多变的应用场景中开启新的交互方式，让分类机器人或者室内导航等技术更加高效和可靠。

编辑：hfy

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
212

文章
29019

浏览量
210025
计算机视觉

计算机视觉

+关注

关注
8

文章
1703

浏览量
46302
距离传感器

距离传感器

+关注

关注
3

文章
76

浏览量
15253
深度学习

深度学习

+关注

关注
73

文章
5530

浏览量
122003

深度数智DC-ROMA RISC-V Laptop II入选IEEE Spectrum“Top Tech 2025”

重磅消息！深度数智的DC-ROMARISC-VLaptopII荣登IEEESpectrum“TopTech2025”专栏！这一殊荣意味着深度数智的产品在全球科技圈中得到了高度认可和关注。这不仅肯定了

发表于 01-09 17:40 •564次阅读

<b class='flag-5'>深度数</b>智DC-ROMA RISC-V Laptop II入选IEEE Spectrum“Top Tech 2025”

NPU在深度学习中的应用

设计的硬件加速器，它在深度学习中的应用日益广泛。 1. NPU的基本概念 NPU是一种专门针对深度学习算

发表于 11-14 15:17 •1346次阅读

AI大模型与深度学习的关系

人类的学习过程，实现对复杂数据的学习和识别。AI大模型则是指模型的参数数量巨大，需要庞大的计算资源来进行训练和推理。深度学习

发表于 10-23 15:25 •2155次阅读

FPGA做深度学习能走多远？

并行计算的能力，可以在硬件层面并行处理大量数据。这种并行处理能力使得 FPGA 在执行深度学习算法时速度远超传统处理器，能够提供更低的延迟和

发表于 09-27 20:53

深度识别算法包括哪些内容

深度识别算法是深度学习领域的一个重要组成部分，它利用深度神经网络模型对输入数据进行高层次的理解和

发表于 09-10 15:28 •592次阅读

深度识别与多目标识别传感器的区别

的三维信息，以识别和理解物体的形状、大小和位置。这种技术在自动驾驶汽车、无人机、虚拟现实等领域尤为重要。 1. 技术原理深度识别技术主要依赖于以下几种传感器：激光雷达（LiDAR）：通过发射激光脉冲并接收反射回来的光来

发表于 09-10 14:52 •587次阅读

ESP8266-12退出深度睡眠模式时挂起怎么解决？

我正在使用 adafruits 的 esp8266 HUZZAH 板（ESP8266-12），该板连接到温度/湿度传感器 （DHTxx），该传感器正在向 thingspeak 发送温度/湿度数据

发表于 07-22 06:26

深度学习算法在嵌入式平台上的部署

随着人工智能技术的飞速发展，深度学习算法在各个领域的应用日益广泛。然而，将深度学习算法部署到资源

发表于 07-15 10:03 •2124次阅读

深度学习算法在集成电路测试中的应用

随着半导体技术的快速发展，集成电路（IC）的复杂性和集成度不断提高，对测试技术的要求也日益增加。深度学习算法作为一种强大的数据处理和模式识别工具，在集成电路测试领域展现出了巨大的应用潜

发表于 07-15 09:48 •1384次阅读

利用Matlab函数实现深度学习算法

在Matlab中实现深度学习算法是一个复杂但强大的过程，可以应用于各种领域，如图像识别、自然语言处理、时间序列预测等。这里，我将概述一个基本的流程，包括环境设置、数据准备、模型设计、训

发表于 07-14 14:21 •2780次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学

发表于 07-09 10:50 •1193次阅读

深度学习与nlp的区别在哪

方法，它通过模拟人脑的神经网络结构，实现对数据的自动特征提取和学习。深度学习的核心是构建多层的神经网络结构，每一层都包含大量的神经元，这些神经元通过权重连接，实现对输入

发表于 07-05 09:47 •1249次阅读

深度学习的基本原理与核心算法

随着大数据时代的到来，传统机器学习方法在处理复杂模式上的局限性日益凸显。深度学习（Deep Learning）作为一种新兴的人工智能技术，以其强大的非线性表达能力和自

发表于 07-04 11:44 •2890次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习

发表于 07-01 16:13 •1882次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度

发表于 04-23 17:18 •1560次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

基于深度学习的收集透明物体深度数据的光学传感器算法

评论

深度数智DC-ROMA RISC-V Laptop II入选IEEE Spectrum“Top Tech 2025”

NPU在深度学习中的应用

AI大模型与深度学习的关系

FPGA做深度学习能走多远？

深度识别算法包括哪些内容

深度识别与多目标识别传感器的区别

ESP8266-12退出深度睡眠模式时挂起怎么解决？

深度学习算法在嵌入式平台上的部署

深度学习算法在集成电路测试中的应用

利用Matlab函数实现深度学习算法

深度学习中的无监督学习方法综述

深度学习与nlp的区别在哪

深度学习的基本原理与核心算法

深度学习模型训练过程详解

深度解析深度学习下的语义SLAM