三维智能视觉研究现状及前景展望-电子发烧友网

人类不仅可以通过眼睛“看清”周围环境中的东西，还能“识别并理解”这些东西，对这些东西形成“认知和决策”。现在，研究人员正努力让AI也做到这一点。北京大学博雅特聘教授、前沿计算研究中心执行主任陈宝权的这篇精彩演讲，对当前国内三维视觉智能领域研究概况、技术应用方向和未来前景做了精彩分析。

众所周知，人工智能是模拟人类智能的技术，实现对人类智能的完全再现，是人工智能的终极目标。而人类智能是从人类的感官和认知开始的。所以，人类的感官往往成为研究人工智能的入手点，比如视觉。

对于人类而言，不仅可以通过眼睛“看清”周围环境中的东西，还能“识别并理解”这些东西，对这些东西形成“认知和决策”。现在，越来越多的AI领域的研究人员正努力让AI同样做到这一点。从人类的三维视觉出发，三维视觉智能已成为人工智能研究和应用的热门领域。

在今年3月27日新智元举办的“智能云·新世界”AI技术峰会上，北京大学博雅特聘教授、前沿计算研究中心执行主任陈宝权发表了题为《三维视觉智能及应用》的演讲，从研究人员的视角，对当前国内三维视觉智能领域研究概况、技术应用方向和未来前景做了精彩的分析。

以下为新智元整理的演讲内容：

北京大学博雅特聘教授、前沿计算研究中心执行主任陈宝权

今天很高兴有机会能够在这里发表演讲！今天下午的讲者主要来自于企业，我就从学术研究的角度，对现在非常流行的人工智能技术的重要分支——视觉智能来做下介绍。

说到视觉智能，大家都不陌生，人工智能的很多技术是基于人的各种感观的，其中视觉感观就是非常重要的一环。在视觉智能方面的很多技术已经在工业界得到非常好的应用。随着应用的深入，越来越多的视觉智能技术进入“三维视觉智能”阶段。也就是说，我们的眼睛不仅要看清某个东西，认识某个东西，还要走到这个场景里面去，在三维世界里真实地感受场景，如同身临其境。

这就需要具有三维空间感知与认知能力的智能，即三维视觉智能。任何一个新的研究方向的出现都不是凭空而来，而是和许多其他学科交叉而来的。三维视觉智能的研究就是集合计算机图形学、计算机视觉等领域的技术与传统的人工智能、学习、大数据等很好地交叉融合。

三维视觉技术的发展得益于视觉传感器的快速发展，已经在推动很多应用，比较有代表性的包括无人车、机器人，以及娱乐、影视等其它领域的应用。

三维视觉研究什么？总结起来有几大主要方向：

首先是三维感知，也就是感知三维空间，获取和处理三维深度等；然后是位置感知，比如感知相机的位置等；第三是三维建模，不仅对场景有基本的深度感知，还要获得关于场景完整几何模型的描述。最重要的就是三维理解，对场景和其中的物体从三维空间来进行理解。

三维视觉的发展得益于视觉传感器的发展，而传感器大致可以分为两类，一类是被动传感器，现在我们用的各种相机就是被动传感器。另一类就是主动传感器，比如激光扫描，以及各类以主动发射信号为主导进行测量的传感器。大家知道，随着手机的快速发展，未来的手机会同时配备两类传感器，也就是深度传感器和传统的颜色传感器。

下面简要介绍一下我们在这方面的一些探索性工作。2009年，当时大疆无人机还做定制化产品，我们请大疆做了一台定制化无人机，目的用它来做倾斜角航拍，利用无人机从空中得到航拍影像，经过三维重建计算以后得到三维影像数据（注意，还不是完整的三维模型），有了三维描述就可以从任意视角自由地漫游场景。可以看到，尽管用的只是二维传感器，依然可以通过视觉计算得到三维数据的描述。

隐式三维感知：动态相机实现视频无缝接合

在我讲如何利用主动式传感器直接获得三维场景几何模型之前，我想先介绍一下，其实对于影像的三维感知不一定要以显式的方式表示出来，可以通过隐式的方法获得一定程度的三维感知，也能实现一些类比于直接采用三维信息才能实现的功能。

这个好比人的视觉感知，我们虽然对视觉的认知是三维的，但也不是一切基于精确的三维测量。这里举几个例子。比如，上面是电影里的一个片断，我们可以把其中的人物和表演放到一个新的场景里去，因为相机是动态的，这里就需要有一个隐式的相机三维位置恢复，才能把一个动态的前景和一个动态的视频背景无缝融合在一起。

上面是一段表演视频，我们可以提取它的一部分三维骨架信息，驱动一个不会跳舞的人来跳舞。左边的这个人假设不会跳舞，她只是做几个动作，右边大图里面左上角是真正会跳舞的舞者，我们用她的专业动作来驱动不会跳舞的人来跳舞。就是通过对“驱动”视频进行三维理解并“迁移”三维动作到参考视频中的人物而并合成新的视频，于是在右边大图里，这位女士也会跳舞了。

我们不仅可以把一个人的动作迁移到另外一位骨架类似的人身上，也可以把小孩的动作迁移到大人身上，甚至可以把动物的动作迁移到人的身上。这就需要具备一定的三维骨架重定向的能力。

比如，下面的动图中有两个人在跳舞，但是每个人的动作方向、脸部朝向、身高都有所不同。像这样一个运动的定向差值，都是通过隐式三维理解和编码实现的。

下面讲主动传感器的使用，近年来主动式传感的发展非常非常快。特别是无人车技术的发展要求，进一步推动了传感技术的飞速发展。早在无人车火爆之前，我们就于2009年开始采用车载移动激光扫描器来进行城市级别的大场景三维扫描，构建城市场景的三维模型。

我们通过车载三维传感技术得到了大量点云数据，并利用这些数据进行几何建模，得到了非常精细的三维模型。我们对城市场景里各种类别的复杂物体进行建模，例如对树木等目标进行三维识别，识别出不同类型的树，再针对不同树木的几何特征，对树木进行高精细化的三维建模。

中央电视台曾经对我们做过一期专门报道——《把城市搬到电脑里》。当时我们对深圳一个片区进行了完整的三维建模。这之后我们接到了很多电话，问我们：用你们的车开过一遍是不是就能获得我们城市的三维模型？实际上我们做不到，原因不是因为数据处理的问题，而在于前端的数据获取。

我们的城市绿化做得太好了，车开过去只能扫描到树，扫描不到建筑。如果要真正解决这个问题，就要把解决方案移到前端，想办法能够完整地获取数据。

因此，我们开始提出利用机器人获取数据，来进一步解决这个问题。机器人在现场采集数据的同时进行数据分析，看看数据是不是有缺失，如果有缺失就要走到相应地点去获取所需信息，从而形成一个数据获取与处理的闭环。

让机器人不仅看得见，还要看得懂

首先从单个物体的实验开始，机器人手持Kinect（一种利用结构光获取三维模型信息的主动式传感器）扫描一个物体，例如一个3D打印的玩具，能获取目标物体全方位的三维数据。机器人自己规划扫描路径，直到最后获得一个完整的三维模型。

接着实验的是场景认知问题。不仅要获得场景的完整三维数据，而且还要认识每个物体到底是什么，要去理解场景里的每个物体，获取物体的语义信息。同样的道理，认知的过程必须形成一个闭环，机器人的实时决策能不能根据现有的三维数据对这个物体进行识别。如果不可以，就要走到新的角度去获取数据。

进一步，我们的算法就可以拓展到一个更大的室内场景中。这种情况下，只有一个机器人是不够的，我们可以利用多个机器人。这些机器人要实现协作，需要一个实时的协同工作算法。在室内环境下，我们已经有了非常好的机器人协同方案。

机器人不仅可以在三维空间导航行走，还应该成为真实世界的一员。实现这一点就要让机器人和现实场景打交道，比如让机器人拿起一个杯子，打开一扇门，甚至和人握手等。这种直接的三维交互非常重要。这需要对机器人空间定位和路径规划进行更多的研究，这方面我们近期做了一些工作。

让机器人具备决策和执行力，替人类完成更多工作

我们沿着这个技术路线探索，思路也变得愈发清晰。通过三维视觉与人工智能技术的结合，我们让机器人更加智能化与功能化，让机器人做更多人在现实生活中能够做的事。机器人具备现场自主决策和执行的能力，比如在工业流水线上可以帮助组装配件，物流场景中搬箱子等。这样的应用，涉及到非常精细化的技术，比如准确高效的运动规划，还有各种各样的控制，智能的执行等。我们在这方面也有了些探索性的工作。

随着三维传感器的普及，三维数据越来越多，如何实现对三维场景的精细化理解变得非常重要。理解场景很重要也很有效的一个方法就是深度学习。最早所有的深度学习都是针对二维影像。卷积神经网络面向的是二维影像，而对于三维场景，输入数据是三维的点云。

因为没有卷积神经网络能够天然地处理非结构化的三维点云，我们针对这个问题设计了PointCNN卷积神经网络，它的性能是相当好的，我们也很高兴看到有很多公司在使用我们的网络。

面向物流领域的应用，我们还尝试了一个机器人搬箱子的测试。在去年京东“双11”期间进行了10天的压力测试，机器人在现场代替一组人（两人一组）去识别箱子、搬箱子，并把大大小小不同的箱子搬到传送带上。这是我们的技术第一次从学校的实验室走进现实场景中。但是我们也感受到，越走近现实场景，问题就会越复杂。在座有很多企业界的人，欢迎各位能过来跟我们交流合作。

三维视觉智能的研究与应用如此重要，但国内还没有一个基于三维视觉的社区。去年底，由本人召集在中国图像图形学会旗下成立了三维视觉专业委员会，目的是把学术界和企业界的相关人士联合在一起。欢迎更多相关企业加入进来，一起推动三维视觉技术的发展。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31982

浏览量
270799
人工智能

人工智能

+关注

关注
1798

文章
47942

浏览量
241080
智能视觉

智能视觉

+关注

关注
0

文章
102

浏览量
9276

原文标题：北大教授陈宝权：AI+三维视觉，让机器人具备决策和执行力

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

三维测量在医疗领域的应用

技术可以对CT（计算机断层扫描）、MRI（磁共振成像）等医学影像进行三维重建，生成病灶或器官的三维模型。这些模型为医生提供了更为直观、立体的视觉信息，有助于医生更准确地了解患者的解剖结构和病变情况。医学影像分析：通过

发表于 12-30 15:21 •302次阅读

三维测量软件的使用技巧

在现代工业和科研领域，三维测量技术已经成为不可或缺的一部分。它能够提供精确的空间数据，帮助工程师和研究人员更好地理解和设计复杂的三维结构。选择合适的三维测量软件功能需求分析：根据

发表于 12-30 15:05 •305次阅读

三维扫描与建模的区别三维扫描在工业中的应用

三维扫描与建模的区别三维扫描与建模是两种不同的技术，它们在操作过程、输出结果及应用领域上存在显著的区别。操作过程：三维扫描：主要通过激光或光学扫描设备，获取实物表面的形状、纹理信息等

发表于 12-19 14:55 •398次阅读

生成式AI在制造业的应用现状和前景展望

在上一期《IBM 企业级 AI 为跨国制造业智能化注入新动力》的文章中，我们重点分享了 IBM 企业级AI驱动智能制造升级的若干场景,视觉检测技术及知识库平台的应用案例；接下来，我们将从技术层面，聚焦传统机器学习及最新的生成式

发表于 11-06 17:06 •868次阅读

南方智能推出三维地理实体生产软件

新型基础测绘与实景三维中国建设持续推进，南方智能深度聚焦，基于自主研发的SmartGIS平台，打造以地理实体数据为核心的“生产、处理、质检、管理、可视化分析”实景三维系列软件，提供全流程、按需定制的服务方案。

发表于 11-06 10:26 •384次阅读

三维可视化技术的应用现状和发展前景

三维可视化技术的应用现状工程建模在工程领域，三维可视化技术被广泛应用于建筑设计、城市规划和工业制造等方面。通过三维建模软件，工程师可以创建逼真的模型，进行设计评估、碰撞检测和动态

发表于 09-30 17:57 •431次阅读

泰来三维新智驱动力：三维扫描技术助力博物馆教育创新

全新的视角和工具，以深入探索和分析文化遗产。通过高精度的扫描和建模，研究人员可以创建出文物和遗址的详细三维模型，这些模型不仅有助于记录和分析文物的现状，还能在无法接触原件的情况下进行研究

发表于 08-30 14:10 •326次阅读

友思特方案基于三维点云实现PCB装配螺丝视觉检测

三维点云是完成精密化 PCB 检测的最新视觉技术。友思特 Saccde Vision 视觉扫描系统，采用先进的三维成像技术和算法输出直观点云图，进一步确保了PCB生产的可靠性与稳定性能

发表于 08-28 16:35 •370次阅读

起点，经过点，终点，三点xyz，画三维圆弧。

大家好！已知，起点，经过点，终点，三点xyz，画三维圆弧。在三维图片框里面画。该如何实现？甚至三维点，直线，圆弧，圆。都可以画。

发表于 07-17 21:33

思看科技三维视觉数字化技术，加速形成新质生产力的全新引擎！

在这个日新月异的数字化时代，三维视觉数字化技术正改变着智能制造产业的生产效率和质量，将各行业的生产力提升到了全新的高度，引领制造产业向新质生产力转变。思看科技作为专业的三维

发表于 06-13 16:06 •420次阅读

三维可视：展现未来的视觉盛宴

带你了解这一领域的种种奇迹。一、三维可视化技术的定义三维可视化技术是基于计算机图形学和计算机视觉的一种技术，用于创建和呈现逼真的三维场景。通过使用复杂的算法和图像处理技术，它能够模

发表于 06-05 15:48 •396次阅读

头盔三维扫描和3D打印在头盔受力研究中的技术应用

头盔作为保护头部安全的重要装备，在各种运动和工业领域都有广泛应用。为了提高头盔的防护性能，科学家们一直致力于研究头盔在受到冲击时的受力情况。近年来，随着三维扫描技术的快速发展，该技术已经成为头盔受力

发表于 05-11 16:17 •511次阅读

泰来三维|三维扫描服务_三维扫描助力园区改造公园

三维激光扫描仪利用激光反射测距原理，通过接受和返回的信号，获取点云三维空间坐标。这种测量方式可以无接触快速获取大型建筑三维空间数据，实现实体建筑的高精度数字化。根据三维扫描得到的立

发表于 05-07 11:44 •330次阅读

三维扫描服务项目-工厂三维扫描建模

工厂三维扫描,厂房三维扫描,工厂数字化服务,工厂三维扫描解决方案,逆向还原石化管线，完成工厂数据化,为工厂设施的设计改造和维修维护提供原始三维数据,对管线设施进行碰撞检测，提供可行性分

发表于 04-26 09:46 •638次阅读

泰来三维|文物三维扫描，文物三维模型怎样制作

文物三维扫描，文物三维模型怎样制作：我们都知道文物是不可再生的，要继续保存传承，需要文物三维数字化保护，所以三维数字化文物保护是非常重要的一个技术手段。那么文物

发表于 03-12 11:10 •754次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

三维智能视觉研究现状及前景展望

评论

三维测量在医疗领域的应用

三维测量软件的使用技巧

三维扫描与建模的区别三维扫描在工业中的应用

生成式AI在制造业的应用现状和前景展望

南方智能推出三维地理实体生产软件

三维可视化技术的应用现状和发展前景

泰来三维新智驱动力：三维扫描技术助力博物馆教育创新

友思特方案基于三维点云实现PCB装配螺丝视觉检测

起点，经过点，终点，三点xyz，画三维圆弧。

思看科技三维视觉数字化技术，加速形成新质生产力的全新引擎！

三维可视：展现未来的视觉盛宴

头盔三维扫描和3D打印在头盔受力研究中的技术应用

泰来三维|三维扫描服务_三维扫描助力园区改造公园

三维扫描服务项目-工厂三维扫描建模

泰来三维|文物三维扫描，文物三维模型怎样制作