0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

牛津博士论文学习重建和分割3D物体,突破AI和机器理解的界限

工程师邓生 来源:机器之心Pro 作者:Bo Yang 2020-11-26 18:11 次阅读

让机器拥有像人类一样感知 3D 物体和环境的能力,是人工智能领域的一项重要课题。牛津大学计算机科学系博士生 Bo Yang 在其毕业论文中详细解读了如何重建和分割 3D 物体,进而赋予机器感知 3D 环境的能力,突破了人工智能和机器理解的界限。

赋予机器像人类一样感知三维真实世界的能力,这是人工智能领域的一个根本且长期存在的主题。考虑到视觉输入具有不同类型,如二维或三维传感器获取的图像或点云,该领域研究中一个重要的目标是理解三维环境的几何结构和语义。

传统方法通常利用手工构建的特征来估计物体或场景的形状和语义。但是,这些方法难以泛化至新物体和新场景,也很难克服视觉遮挡的关键问题。

今年九月毕业于牛津大学计算机科学系的博士生 Bo Yang 在其毕业论文《Learning to Reconstruct and Segment 3D Objects》中对这一主题展开了研究。与传统方法不同,作者通过在大规模真实世界的三维数据上训练的深度神经网络来学习通用和鲁棒表示,进而理解场景以及场景中的物体。

总体而言,本文开发了一系列新型数据驱动算法,以实现机器感知到真实世界三维环境的目的。作者表示:「本文可以说是突破了人工智能和机器理解的界限。」

这篇博士论文有 143 页,共六章。机器之心对该论文的核心内容进行了简要介绍,感兴趣的读者可以阅读论文原文。

论文地址:https://arxiv.org/pdf/2010.09582.pdf

论文概述

作者在第 2 章首先回顾了以往 3D 物体重建和分割方面的研究工作,包括单视图和多视图 3D 物体重建、3D 点云分割、对抗生成网络(GAN)、注意力机制以及集合上的深度学习。此外,本章最后还介绍了在单视图 / 多视图 3D 重建和 3D 点云分割方面,该研究相较于 SOTA 方法的新颖之处。

基于单视图的 3D 物体重建

在第 3 章,作者提出以一种基于 GAN 的深度神经架构来从单一的深度视图学习物体的密集 3D 形状。作者将这种简单但有效的模型称为 3D-RecGAN++,它将残差连接(skip-connected)的 3D 编码器 - 解码器和对抗学习结合,以生成单一 2.5D 视图条件下的完整细粒度 3D 结构。该模型网络架构的训练和测试流程如下图所示:

接着,作者利用条件对抗训练来细化编码器 - 解码器估计的 3D 形状,其中用于 3D 形状细化的判别器结构示意图如下:

最后,作者将提出的 3D-RecGAN++ 与 SOTA 方法做了对比,并进行了控制变量研究。在合成和真实数据集上的大量实验结果表明,该模型性能良好。

基于多视图的 3D 物体重建

在第 4 章,作者提出以一种新的基于注意力机制的神经模块来从多视图中推理出更好的 3D 物体形状。这种简单但高效的注意力聚合模块被称为 AttSets,其结构如下图所示。与现有方法相比,这种方法可以学习从不同图像中聚合有用信息

此外,研究者还引入了两阶段训练算法,以确保在给出一定数量输入图像的情况下,预估的 3D 形状具有鲁棒性。研究者在多个数据集上进行了实验,证明该方法能够精确地恢复物体的 3D 形状。

从点云中学习分割 3D 物体

在第五章中,研究者提出了一个新的框架来识别大规模 3D 场景中的所有单个 3D 物体。与现有的研究相比,该研究的框架能够直接并且同时进行检测、分割和识别所有的目标实例,而无需任何繁琐的前 / 后处理步骤。研究者在多个大型实际数据集上展现了该方法相对于基线的性能提升。

作者介绍

本文作者 Bo Yang 现为香港理工大学计算机系助理教授。他本科和硕士分别毕业于北京邮电大学和香港大学,然后进入牛津大学计算机科学系攻读博士学位,其导师为 Niki Trigoni 和 Andrew Markham 教授。

Bo Yang 作为一作以及合著的论文曾被《计算机视觉国际期刊》(IJCV)以及 NeurIPS 和 CVPR 等学术会议接收,谷歌学术主页上显示他共著有 22 篇论文,被引用数超过 400。

论文目录如下:

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30146

    浏览量

    268414
  • 机器学习
    +关注

    关注

    66

    文章

    8377

    浏览量

    132409
  • 3D物体识别
    +关注

    关注

    0

    文章

    3

    浏览量

    6316
收藏 人收藏

    评论

    相关推荐

    中兴通讯携手中国移动推出AI裸眼3D创新产品

    产品凭借Neovision 3D Anytime突破性的2D3D技术,以及5G与AI的深度融合,为消费者带来更加沉浸、更为丰富的裸眼
    的头像 发表于 10-15 10:05 590次阅读

    中兴通讯全场景AI终端应用与裸眼3D新品亮相

    ”的产品战略与理念,终端业务六大AI主题展示吸引了众多关注,内容覆盖全球领先的AI裸眼3DAI同声传译和方言互译、AI安全反诈、
    的头像 发表于 10-15 10:00 708次阅读

    紫光展锐助力全球首款AI裸眼3D手机发布

    1.4亿台,展示了该技术巨大的市场潜力和增长空间。近日,全球首款AI裸眼3D手机——中兴远航3D重磅上市。凭借微米级3D光栅技术、Neovision
    的头像 发表于 07-15 16:00 638次阅读

    机器学习中的数据分割方法

    机器学习中,数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据
    的头像 发表于 07-10 16:10 1313次阅读

    银牛微电子引领3D空间计算芯片前沿技术

    在此次活动上,银牛微电子有限责任公司的周凡博士指出,2D视觉已无法满足日益复杂的系统需求,因此我们需要引入更多维度来辅助机器人和智能设备更好地理解并融入真实环境,即从2
    的头像 发表于 05-18 16:34 799次阅读

    重磅| 奥比中光全新双目系列3D相机,搭载自研芯片,为智能机器人而生

    设计的新一代深度引擎芯片MX6800,配备高性能主被动融合双目成像系统,能够在户外、室内、夜晚、白昼等不同光照条件以及复杂多变的动态环境中稳定输出高质量深度数据,精准还原场景和物体3D信息,广泛适用于AMR、巡检机器人、配送
    发表于 04-30 18:00 422次阅读
    重磅| 奥比中光全新双目系列<b class='flag-5'>3D</b>相机,搭载自研芯片,为智能<b class='flag-5'>机器</b>人而生

    机器3D视觉引导系统框架介绍

    通过自主开发的3D扫描仪可获准确并且快速地获取场景的点云图像,通过3D识别算法,可实现在对点云图中的多种目标物体进行识别和位姿估计。
    发表于 04-29 09:31 317次阅读
    <b class='flag-5'>机器</b>人<b class='flag-5'>3D</b>视觉引导系统框架介绍

    三维扫描与3D打印在法医头骨重建中的突破性应用

    随着科技的飞速发展,三维扫描和3D打印技术已经逐渐渗透到医疗领域的各个环节,为临床诊断、治疗和医学研究带来了前所未有的便利。特别是在法医学领域,三维扫描和3D打印技术的应用更是为头骨重建、身份鉴定等
    的头像 发表于 04-19 10:26 448次阅读
    三维扫描与<b class='flag-5'>3D</b>打印在法医头骨<b class='flag-5'>重建</b>中的<b class='flag-5'>突破</b>性应用

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图3D视频的能力,为视频制作领域带来了革命性的
    的头像 发表于 03-22 10:30 786次阅读

    AI新工具DUSt3R走红GitHub,两秒完成3D重建惊艳网友

    近日,一款名为DUSt3R的AI新工具在微软旗下的GitHub平台上引发了广泛关注。这款神奇的工具仅需两张图片和两秒钟的时间,便能完成精确的3D重建,且无需额外测量任何数据。上线不久,
    的头像 发表于 03-08 14:02 1101次阅读

    2张图2秒钟完成3D建模!3D内容生成工具DUSt3R爆火,国产厂商有哪些机会?

    电子发烧友网报道(文/吴子鹏)近日,一款名为DUSt3R的AI新工具在GitHub上爆火。DUSt3R能够在短短2秒钟内通过仅有2张图片完成3D
    的头像 发表于 03-06 00:10 3958次阅读
    2张图2秒钟完成<b class='flag-5'>3D</b>建模!<b class='flag-5'>3D</b>内容生成工具DUSt<b class='flag-5'>3</b>R爆火,国产厂商有哪些机会?

    基于深度学习的方法在处理3D点云进行缺陷分类应用

    背景部分介绍了3D点云应用领域中公开可访问的数据集的重要性,这些数据集对于分析和比较各种模型至关重要。研究人员专门设计了各种数据集,包括用于3D形状分类、3D物体检测和
    的头像 发表于 02-22 16:16 1021次阅读
    基于深度<b class='flag-5'>学习</b>的方法在处理<b class='flag-5'>3D</b>点云进行缺陷分类应用

    CEA-Leti发布“突破性”3D循序集成 (3DSI)

    世界上首个CMOS over CMOS的3D循序集成(3DSI),具有先进的金属线层级,这使得具有中间体BEOL的3DSI更接近商业化。 这一突破
    的头像 发表于 12-28 16:14 656次阅读

    使用Python从2D图像进行3D重建过程详解

    有许多不同的方法和算法可用于从2D图像执行3D重建。选择的方法取决于诸如输入图像的质量、摄像机校准信息的可用性以及重建的期望准确性和速度等因素。
    的头像 发表于 12-05 14:07 2828次阅读
    使用Python从2<b class='flag-5'>D</b>图像进行<b class='flag-5'>3D</b><b class='flag-5'>重建</b>过程详解

    阿迪达斯与 Covision Media 使用 AI 和 NVIDIA RTX 创建逼真的 3D 内容

    Covision 的基于 AI3D 技术可帮助企业扫描数千种产品,为网站和移动应用创建逼真的 3D 图像、视频和 AR 体验。 将实体产品扫描成 3D 模型是一项十分耗时的工作。
    的头像 发表于 11-28 18:45 627次阅读
    阿迪达斯与 Covision Media 使用 <b class='flag-5'>AI</b> 和 NVIDIA RTX 创建逼真的 <b class='flag-5'>3D</b> 内容