0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新型计算机视觉框架:GQN可以脑补出环境的另外部分

0wvm_ARchan_TT 来源:未知 作者:胡薇 2018-06-21 14:29 次阅读

现在的计算机视觉系统大多基于深度神经网络,它们可以通过学习大量数据集从而得到将图像投影到普通的场景描述的功能,简单说就是见得多了习惯了。

然而和这种神经网络相比,我们的大脑显然更加智能,可以利用先前的知识来推理,并做出远远超出看到的物品的推论。例如,如果看到桌子的三条腿,那么可以推断出第四条腿的存在和其位置,基本与实际情况相同;即使看不到房间里的所有东西,你也可以画出它的布局、想象它的外观。婴儿在八九个月时就可以理解“形状恒常性”的存在,即使用布盖住他面前的玩具,他也可以脑补出布下面玩具的样子,而这,恰是深度神经网络不能识别的。

最近,通过模仿人大脑对环境的处理方法,DeepMind提出了一种新型计算机视觉框架:GQN (the Generative Query Network),这个框架实现了前面提到的功能,可以脑补出环境的另外部分,还可以将2D图片渲染至3D。

GQN模型由两部分组成:表示网络和世代网络。表示网络将察结果输入并对基础场景产生描述性质的的矢量表示,然后世代网络从以前未观察过的角度预测场景的表现。

表示网络通过以分布式表示捕获对象位置,颜色和房间布局等元素来实现准确描述场景的真实布局。该网络能够以高度压缩和抽象的方式描述场景,并将其留给世代网络,从而可以在必要时加入详细信息

世代网络就像是一个近似的3D渲染器,它可以以非常精确的方式从新视角预测以前未观测到的场景。当给出场景和新的摄像机视点时,无需事先规定透视法,遮挡法或照明法,它就可以生成清晰的图像。

那么,GQN的可行性如何?

为了评估该框架的可行性,研究人员在模拟的3D环境中进行了一系列尝试。在第一组实验中,研究人员采用了包含各种对象的方形房间中的场景,墙面纹理、物体和灯的形状、位置和颜色都是随机的,以此有效地实现无限数量的总场景配置;随后,研究人员使用有限数据集来训练和测试模型。训练结束后,GQN通过观察一个先前未学习的测试场景的图像来计算其场景表示,随后的结果显示,发生器在视点处的预测是高度准确的,大部分与地面事实并没有区别。

在这个实验中,GQN不可能通过随机的方式准确预测结果,它只能通过在场景感知和编码物体的数量、位置、颜色,还有墙壁的颜色以及光源的间接观察位置的方式来学习。与传统的神经网络学习不同,GQN学习如何从图像中进行推理,而不需要对场景内容进行任何明确的人为标注。实验过程中,当场景的内容重度遮挡的情况时,预测模型就会出现不确定的情况,这种情况反映在最终结果的的变化性上。

随后研究人员还采用了更复杂,程序化的迷宫环境来测试GQN的缩放属性。迷宫由通过走廊连接的多个房间组成,不同场景中迷宫的布局和墙壁的颜色都是随机的。在这个实验中,任何一次观察都会提供有关当前迷宫的少量信息。在进行多次识别观测后, GQN已经可以在新的摄像机视点做出对迷宫环境正确的预测;在进一步的训练中,模型甚至还可以高度准确地预测迷宫自上而下的视图。

在这个实验中,预测模型的不确定性随着观测数量的增大而降低,经过大约五次观察后,GQN的不确定性几乎完全消失。

现在的GQN还只能在实验室实现,主要是因为需要受控分析、真实数据集的可用性有限、不足以生成复杂的模型等原因,但它的确可以处理视觉的遮挡、场景的组合等问题。随着新的数据集可用化和建模能力的增强,GQN也会逐渐实现应用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4765

    浏览量

    100607
  • 计算机视觉
    +关注

    关注

    8

    文章

    1696

    浏览量

    45935

原文标题:计算机视觉也可以脑补了?

文章出处:【微信号:ARchan_TT,微信公众号:AR酱】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    计算机视觉有哪些优缺点

    计算机视觉作为人工智能领域的一个重要分支,旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革,也带来了诸多优势,但同时也伴随着一些挑战和局限性。以下是对
    的头像 发表于 08-14 09:49 782次阅读

    机器视觉计算机视觉有什么区别

    机器视觉计算机视觉是两个密切相关但又有所区别的概念。 一、定义 机器视觉 机器视觉,又称为计算机
    的头像 发表于 07-16 10:23 483次阅读

    计算机视觉的五大技术

    计算机视觉作为深度学习领域最热门的研究方向之一,其技术涵盖了多个方面,为人工智能的发展开拓了广阔的道路。以下是对计算机视觉五大技术的详细解析,包括图像分类、对象检测、目标跟踪、语义分割
    的头像 发表于 07-10 18:26 1234次阅读

    计算机视觉的工作原理和应用

    计算机视觉(Computer Vision,简称CV)是一门跨学科的研究领域,它利用计算机和数学算法来模拟人类视觉系统对图像和视频进行识别、理解、分析和处理。其核心目标在于使
    的头像 发表于 07-10 18:24 1731次阅读

    机器人视觉计算机视觉的区别与联系

    机器人视觉计算机视觉是两个密切相关但又有所区别的领域。 1. 引言 在当今科技迅猛发展的时代,机器人和计算机视觉技术在各个领域发挥着越来越
    的头像 发表于 07-09 09:27 605次阅读

    计算机视觉与人工智能的关系是什么

    引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域的知识。人工智能则是研究如何使计算
    的头像 发表于 07-09 09:25 548次阅读

    计算机视觉与智能感知是干嘛的

    引言 计算机视觉(Computer Vision)是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域,是人工智能的重要组成
    的头像 发表于 07-09 09:23 848次阅读

    计算机视觉和机器视觉区别在哪

    计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。 一、定义 计算机视觉 计算机
    的头像 发表于 07-09 09:22 417次阅读

    计算机视觉和图像处理的区别和联系

    计算机视觉和图像处理是两个密切相关但又有明显区别的领域。 1. 基本概念 1.1 计算机视觉 计算机视觉
    的头像 发表于 07-09 09:16 1184次阅读

    计算机视觉属于人工智能吗

    属于,计算机视觉是人工智能领域的一个重要分支。 引言 计算机视觉是一门研究如何使计算机具有视觉
    的头像 发表于 07-09 09:11 1208次阅读

    机器视觉计算机视觉的区别

    很多方面有着相似之处,如基础理论、技术框架等,但它们在学科分类、应用领域、侧重点等方面存在明显的区别。本文将对机器视觉计算机视觉进行详细的对比分析,以便读者更好地理解两者的差异。
    的头像 发表于 06-06 17:24 1269次阅读

    计算机视觉的主要研究方向

    计算机视觉(Computer Vision, CV)作为人工智能领域的一个重要分支,致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展,计算机
    的头像 发表于 06-06 17:17 889次阅读

    【量子计算机重构未来 | 阅读体验】+量子计算机的原理究竟是什么以及有哪些应用

    本书内容从目录可以看出本书主要是两部分内容,一部分介绍量子计算机原理,一部分介绍其应用。 其实个人也是抱着对这两个问题的兴趣来看的
    发表于 03-11 12:50

    计算机视觉的十大算法

    随着科技的不断发展,计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法,包括它们的基本原理、应用场景和优缺点。这些算法在图像处理、目标检测、人脸识别等领域有着广泛的应
    的头像 发表于 02-19 13:26 1214次阅读
    <b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的十大算法

    计算机系统由什么两部分组成 计算机系统的层次结构

    的各项工作。内存是计算机的主存储器,用于暂时存放数据和指令。存储设备包括硬盘、固态硬盘、光盘等,用于长期存储大量的数据和程序。输入输出设备用于与外部环境交互,如键盘、鼠标、打印机等。显示器用于展示计算机处理的结果。 软
    的头像 发表于 02-01 14:13 3553次阅读