牛津博士论文学习重建和分割3D物体，突破AI和机器理解的界限-电子发烧友网

让机器拥有像人类一样感知 3D 物体和环境的能力，是人工智能领域的一项重要课题。牛津大学计算机科学系博士生 Bo Yang 在其毕业论文中详细解读了如何重建和分割 3D 物体，进而赋予机器感知 3D 环境的能力，突破了人工智能和机器理解的界限。

赋予机器像人类一样感知三维真实世界的能力，这是人工智能领域的一个根本且长期存在的主题。考虑到视觉输入具有不同类型，如二维或三维传感器获取的图像或点云，该领域研究中一个重要的目标是理解三维环境的几何结构和语义。

传统方法通常利用手工构建的特征来估计物体或场景的形状和语义。但是，这些方法难以泛化至新物体和新场景，也很难克服视觉遮挡的关键问题。

今年九月毕业于牛津大学计算机科学系的博士生 Bo Yang 在其毕业论文《Learning to Reconstruct and Segment 3D Objects》中对这一主题展开了研究。与传统方法不同，作者通过在大规模真实世界的三维数据上训练的深度神经网络来学习通用和鲁棒表示，进而理解场景以及场景中的物体。

总体而言，本文开发了一系列新型数据驱动算法，以实现机器感知到真实世界三维环境的目的。作者表示：「本文可以说是突破了人工智能和机器理解的界限。」

这篇博士论文有 143 页，共六章。机器之心对该论文的核心内容进行了简要介绍，感兴趣的读者可以阅读论文原文。

论文地址：https://arxiv.org/pdf/2010.09582.pdf

论文概述

作者在第 2 章首先回顾了以往 3D 物体重建和分割方面的研究工作，包括单视图和多视图 3D 物体重建、3D 点云分割、对抗生成网络（GAN）、注意力机制以及集合上的深度学习。此外，本章最后还介绍了在单视图 / 多视图 3D 重建和 3D 点云分割方面，该研究相较于 SOTA 方法的新颖之处。

基于单视图的 3D 物体重建

在第 3 章，作者提出以一种基于 GAN 的深度神经架构来从单一的深度视图学习物体的密集 3D 形状。作者将这种简单但有效的模型称为 3D-RecGAN++，它将残差连接（skip-connected）的 3D 编码器 - 解码器和对抗学习结合，以生成单一 2.5D 视图条件下的完整细粒度 3D 结构。该模型网络架构的训练和测试流程如下图所示：

接着，作者利用条件对抗训练来细化编码器 - 解码器估计的 3D 形状，其中用于 3D 形状细化的判别器结构示意图如下：

最后，作者将提出的 3D-RecGAN++ 与 SOTA 方法做了对比，并进行了控制变量研究。在合成和真实数据集上的大量实验结果表明，该模型性能良好。

基于多视图的 3D 物体重建

在第 4 章，作者提出以一种新的基于注意力机制的神经模块来从多视图中推理出更好的 3D 物体形状。这种简单但高效的注意力聚合模块被称为 AttSets，其结构如下图所示。与现有方法相比，这种方法可以学习从不同图像中聚合有用信息。

此外，研究者还引入了两阶段训练算法，以确保在给出一定数量输入图像的情况下，预估的 3D 形状具有鲁棒性。研究者在多个数据集上进行了实验，证明该方法能够精确地恢复物体的 3D 形状。

从点云中学习分割 3D 物体

在第五章中，研究者提出了一个新的框架来识别大规模 3D 场景中的所有单个 3D 物体。与现有的研究相比，该研究的框架能够直接并且同时进行检测、分割和识别所有的目标实例，而无需任何繁琐的前 / 后处理步骤。研究者在多个大型实际数据集上展现了该方法相对于基线的性能提升。

作者介绍

本文作者 Bo Yang 现为香港理工大学计算机系助理教授。他本科和硕士分别毕业于北京邮电大学和香港大学，然后进入牛津大学计算机科学系攻读博士学位，其导师为 Niki Trigoni 和 Andrew Markham 教授。

Bo Yang 作为一作以及合著的论文曾被《计算机视觉国际期刊》（IJCV）以及 NeurIPS 和 CVPR 等学术会议接收，谷歌学术主页上显示他共著有 22 篇论文，被引用数超过 400。

论文目录如下：

责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
32332

浏览量
271431
机器学习

机器学习

+关注

关注
66

文章
8459

浏览量
133371
3D物体识别

3D物体识别

+关注

关注
0

文章
3

浏览量
6346

将应用程序工具套件集成到Unity 3D OpenVINO™过程中遇到\"DLLNotFound异常\"错误怎么解决？

。在机器上设置所有环境路径，并且可以全局访问每个依赖关系/dll。 Unity 3D 编辑器无法找到任何依赖关系，并引发DLLNotFound Exception。项目可以独立构建和运行。

发表于 03-05 06:22

腾讯混元3D AI创作引擎正式发布

近日，腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具将为用户带来前所未有的3D内容创作体验，标志着腾讯在AI技术领域的又一重大

发表于 01-23 10:33 •257次阅读

腾讯混元3D AI创作引擎正式上线

近日，腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具，标志着腾讯在3D内容生成领域迈出了重要一步。混元3D AI

发表于 01-22 10:26 •237次阅读

3D打印技术在材料、工艺方面的突破

2024年3D打印技术领域在新材料、新工艺和新应用方面继续取得突破，并呈现出多样的发展态势。工艺方面，行业更加关注极限制造能力，从2023年的无支撑3D打印到2024年的点熔化、锻打印、光束整形、多

发表于 01-13 18:11 •427次阅读

中兴通讯携手中国移动推出AI裸眼3D创新产品

产品凭借Neovision 3D Anytime突破性的2D转3D技术，以及5G与AI的深度融合，为消费者带来更加沉浸、更为丰富的裸眼

发表于 10-15 10:05 •998次阅读

中兴通讯全场景AI终端应用与裸眼3D新品亮相

”的产品战略与理念，终端业务六大AI主题展示吸引了众多关注，内容覆盖全球领先的AI裸眼3D、AI同声传译和方言互译、AI安全反诈、

发表于 10-15 10:00 •1108次阅读

紫光展锐助力全球首款AI裸眼3D手机发布

1.4亿台，展示了该技术巨大的市场潜力和增长空间。近日，全球首款AI裸眼3D手机——中兴远航3D重磅上市。凭借微米级3D光栅技术、Neovision

发表于 07-15 16:00 •801次阅读

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据

发表于 07-10 16:10 •2384次阅读

Meta推出革命性3D Gen AI模型：1分钟内生成高质量3D内容

在科技日新月异的今天，Meta再次引领创新潮流，宣布了一项令人瞩目的技术突破——3D Gen AI模型的诞生。这款先进的模型以其前所未有的高效性与卓越品质，重新定义了3D内容创作的边界

发表于 07-04 18:12 •1102次阅读

银牛微电子引领3D空间计算芯片前沿技术

在此次活动上，银牛微电子有限责任公司的周凡博士指出，2D视觉已无法满足日益复杂的系统需求，因此我们需要引入更多维度来辅助机器人和智能设备更好地理解并融入真实环境，即从2

发表于 05-18 16:34 •1043次阅读

重磅| 奥比中光全新双目系列3D相机，搭载自研芯片，为智能机器人而生

设计的新一代深度引擎芯片MX6800，配备高性能主被动融合双目成像系统，能够在户外、室内、夜晚、白昼等不同光照条件以及复杂多变的动态环境中稳定输出高质量深度数据，精准还原场景和物体的3D信息，广泛适用于AMR、巡检机器人、配送

发表于 04-30 18:00 •635次阅读

机器人3D视觉引导系统框架介绍

通过自主开发的3D扫描仪可获准确并且快速地获取场景的点云图像，通过3D识别算法，可实现在对点云图中的多种目标物体进行识别和位姿估计。

发表于 04-29 09:31 •414次阅读

三维扫描与3D打印在法医头骨重建中的突破性应用

随着科技的飞速发展，三维扫描和3D打印技术已经逐渐渗透到医疗领域的各个环节，为临床诊断、治疗和医学研究带来了前所未有的便利。特别是在法医学领域，三维扫描和3D打印技术的应用更是为头骨重建、身份鉴定等

发表于 04-19 10:26 •623次阅读

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图3D视频的能力，为视频制作领域带来了革命性的

发表于 03-22 10:30 •1007次阅读

AI新工具DUSt3R走红GitHub，两秒完成3D重建惊艳网友

近日，一款名为DUSt3R的AI新工具在微软旗下的GitHub平台上引发了广泛关注。这款神奇的工具仅需两张图片和两秒钟的时间，便能完成精确的3D重建，且无需额外测量任何数据。上线不久，

发表于 03-08 14:02 •1354次阅读