教机器用计算机视觉阅读乐高手册-电子发烧友网

乐高爱好者抓挠他们的头，阅读组装说明，可能很快有助于复杂的建设，感谢一个新的学习来自斯坦福大学、麻省理工学院和 Autodesk 。研究人员设计了一个深度学习框架，将 2D 手册翻译成机器可以理解的步骤，以构建 3D 乐高套件。这项工作可以推动专注于制造机器的研究，帮助人们组装物体。

“乐高手册提供了一个独立的环境，展示了人类的一项核心技能：在指导下学习完成任务。利用视觉场景解析和程序合成的最新进展，我们旨在构建具有类似技能的机器，从乐高开始，最终以现实世界场景为目标，”该研究资深作者吴家军说，斯坦福大学计算机科学助理教授。

研究人员表示，用人工智能翻译 2D 手册面临两大挑战。首先， AI 必须基于 2D 手动图像在每个装配步骤中学习和理解 3D 形状之间的对应关系。这包括考虑工件的方向和对齐。

它还必须能够对砖块进行分类，并在半组装模型中推断出砖块的三维姿态。作为乐高积木制作过程的一部分，小部件被组合成更大的部件，如吉他的头部、颈部和身体。当这些较大的部分组合在一起时，将创建一个完整的项目。这增加了难度，因为机器必须解析出所有的乐高积木，甚至是那些可能不可见的积木，如乐高钉和反积木。

该团队致力于创建一个模型，该模型可以将 2D 手册转化为机器可执行计划，以构建定义的对象。虽然目前有两种执行此任务的方法：基于搜索的方法和基于学习的方法，但都存在局限性。

基于搜索的方法寻找工件和手动图像的可能三维姿态，寻找正确的姿态。该方法计算量大，速度慢，但精度高。

基于学习的模型依赖于神经网络来预测部件的 3D 姿态。它们速度快，但精度不高，尤其是在使用看不见的 3D 形状时。

为了解决这一局限性，研究人员开发了手册到可执行计划网络（ MEPNet ），根据研究，它使用深度学习和计算机视觉集成“神经 2D 关键点检测模块和 2D-3D 投影算法”

根据一系列预测，在每一步，模型都会阅读手册，定位要添加的零件，并推导出 3D 定位。在模型预测了每一块和每一步的姿势后，它可以从头开始解析手册，创建一个机器人可以遵循的建筑计划来建造乐高对象。

研究人员在研究中写道：“对于每个步骤，输入包括 1 ）一组在之前的步骤中构建的原始砖块和零件，以 3D 表示； 2 ）一个显示组件应如何连接的目标 2D 图像。预期输出是该步骤中涉及的所有组件的（相对）姿态。”。

他们从一个包含 72 种砖块的乐高工具包中创建了第一个合成训练数据，并使用了来自 LPub3D ，一个用于“创建乐高风格的数字建筑说明”的开源应用程序

研究人员总共生成了 8000 份培训手册，其中 10 套用于验证， 20 套用于测试。每个数据集中有大约 200 个单独的步骤，约占培训中的 200000 个单独步骤。

他们在研究中写道：“我们在综合生成的数据集上对 MEPNet 进行全面监控，在该数据集中，我们有基本真相关键点、掩码和旋转信息。”。 MEPNet 模型在四个点上训练 5 天 NVIDIA Titan RTX GPU 由 NVIDIA 图灵架构提供支持。

他们还在 Minecraft house 数据集上测试了该模型，该数据集具有与乐高类似的构建风格。

通过将 MEPNet 与现有模型进行比较，研究人员发现，它在现实世界的乐高积木、合成手册和 Minecraft 示例中的表现优于其他模型。

MEPNet 在姿势估计方面更准确，甚至在识别不可见片段的构建方面也更好。研究人员还发现，该模型能够将从合成手册中获得的知识应用于现实世界的乐高手册。

虽然还需要制造一个能够执行计划的机器人，但研究人员将这项工作视为一个起点。

“我们的长期目标是制造能够帮助人类构造和组装复杂物体的机器。我们正在考虑将我们的方法扩展到其他组装领域，如宜家家具，”斯坦福大学计算机科学博士生王若成（ Ruocheng Wang ）说。

关于作者

Michelle Horton 是 NVIDIA 的高级开发人员通信经理，拥有通信经理和科学作家的背景。她在 NVIDIA 为开发者博客撰文，重点介绍了开发者使用 NVIDIA 技术的多种方式。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机

计算机

+关注

关注
19

文章
7572

浏览量
89035
AI

AI

+关注

关注
87

文章
32335

浏览量
271432

【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线

一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理

发表于 10-31 17:00 •682次阅读

【小白入门必看】一文读懂深度学习<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>技术及学习路线

计算机视觉有哪些优缺点

计算机视觉作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革，也带来了诸多优势，但同时也伴随着一些挑战和局限性。以下是对

发表于 08-14 09:49 •1270次阅读

什么是机器视觉opencv?它有哪些优势?

机器视觉（Machine Vision）是一种利用计算机和图像处理技术来模拟人类视觉系统的功能，实现对图像的识别、分析和理解的技术。OpenCV（Open Source Compute

发表于 07-16 10:33 •958次阅读

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉

发表于 07-16 10:23 •711次阅读

计算机视觉的五大技术

计算机视觉作为深度学习领域最热门的研究方向之一，其技术涵盖了多个方面，为人工智能的发展开拓了广阔的道路。以下是对计算机视觉五大技术的详细解析，包括图像分类、对象检测、目标跟踪、语义分割

发表于 07-10 18:26 •1739次阅读

计算机视觉与机器视觉的区别与联系

随着人工智能技术的飞速发展，计算机视觉和机器视觉作为该领域的两个重要分支，逐渐引起了广泛关注。尽管两者在名称上有所相似，但实际上它们在定义、技术特点、应用领域以及发展前景等方面都存在着

发表于 07-10 18:24 •1908次阅读

计算机视觉的工作原理和应用

计算机视觉（Computer Vision，简称CV）是一门跨学科的研究领域，它利用计算机和数学算法来模拟人类视觉系统对图像和视频进行识别、理解、分析和处理。其核心目标在于使

发表于 07-10 18:24 •2489次阅读

机器人视觉与计算机视觉的区别与联系

机器人视觉与计算机视觉是两个密切相关但又有所区别的领域。 1. 引言在当今科技迅猛发展的时代，机器人和

发表于 07-09 09:27 •826次阅读

计算机视觉与人工智能的关系是什么

引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域的知识。人工智能则是研究如

发表于 07-09 09:25 •855次阅读

计算机视觉与智能感知是干嘛的

引言 计算机视觉（Computer Vision）是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等

发表于 07-09 09:23 •1226次阅读

计算机视觉和机器视觉区别在哪

，旨在实现对图像和视频的自动分析和理解。机器视觉机器视觉是计算机视觉的一个分支，主要应用于工

发表于 07-09 09:22 •586次阅读

计算机视觉和图像处理的区别和联系

计算机视觉和图像处理是两个密切相关但又有明显区别的领域。 1. 基本概念 1.1 计算机视觉 计算机视觉

发表于 07-09 09:16 •1660次阅读

计算机视觉属于人工智能吗

属于，计算机视觉是人工智能领域的一个重要分支。引言 计算机视觉是一门研究如何使计算机具有视觉能

发表于 07-09 09:11 •1548次阅读

机器视觉与计算机视觉的区别

在人工智能和自动化技术的快速发展中，机器视觉（Machine Vision, MV）和计算机视觉（Computer Vision, CV）作为两个重要的分支领域，都扮演着至关重要的角色

发表于 06-06 17:24 •1601次阅读

计算机视觉的主要研究方向

计算机视觉（Computer Vision, CV）作为人工智能领域的一个重要分支，致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展，计算机

发表于 06-06 17:17 •1307次阅读

搜索历史

教机器用计算机视觉阅读乐高手册

评论

【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线

计算机视觉有哪些优缺点

什么是机器视觉opencv?它有哪些优势?

机器视觉和计算机视觉有什么区别

计算机视觉的五大技术

计算机视觉与机器视觉的区别与联系

计算机视觉的工作原理和应用

机器人视觉与计算机视觉的区别与联系

计算机视觉与人工智能的关系是什么

计算机视觉与智能感知是干嘛的

计算机视觉和机器视觉区别在哪

计算机视觉和图像处理的区别和联系

计算机视觉属于人工智能吗

机器视觉与计算机视觉的区别

计算机视觉的主要研究方向