0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于人类视觉理解机理

智能感知与物联网技术研究所 来源:通信信号处理研究所 作者:通信信号处理研究 2020-07-04 09:32 次阅读

近期,上海交通大学卢策吾团队在《自然 - 机器智能》子刊上发表了关于高维度视觉序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

与此同时,该团队将论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱 AlphaVideo。

AlphaVideo 在物体跟踪任务(MOT)和行为理解(AVA 单模型)上都达到最高准确率,相比 SlowFast (AVA 单模型)有 12.6% 的性能提升。

动作理解任务的时空信息特征图。左:输入序列;右:空间特征更关注物体形状,时间特征更关注物体运动趋势。

AlphaVideo 中的行为理解(Alphaction)

时空概念提取展示

人类视觉理解机理

在人类的视觉认知过程中,时间和空间概念是解耦的。神经科学领域的研究发现在人类的记忆形成过程中,时间信息与空间上下文信息通过两个相对独立的信息通路到达海马体,进而形成完整的记忆。

新技能:自主学习时空概念

通过模仿人类的认知机制,卢策吾团队提出了应用于高维度信息的半耦合结构模型(SCS)。

SCS 自主发掘(awareness)时间 - 空间概念,并让他们耦合协作以理解序列信息。这种能力代表着机器学习模型自主掌握了时空的概念,这是一种更高层的智能。更进一步,时空信息概念的分离也让「概念编辑」成为可能。

半耦合结构模型(SCS)

半耦合结构首先解耦时空信息(模仿人脑中的两条信息通路),并在分别处理时间和空间信息之后将二者耦合(模仿海马体):

该研究通过堆叠这种半耦合的元结构来构建深度模型,其中时空信息始终以先解耦再融合的模式向后流动。

为了让 h_s 和 h_t 各司其职,研究者将 h_s 和 h_t 设计为不对称的结构,同时,使用两个特殊的监督目标 r_s、r_t 来进一步约束二者关注各自的工作。

该研究进一步提出了一种训练注意力机制。这种注意力机制控制模型在优化过程中学习哪种信息。例如在视频信息中,模型可以优先将注意力集中在空间信息上,待空间信息有效且稳定时,再逐步将模型训练的注意力转换到时间信息上。

SCS 的表现如何?

该研究展示了 SCS 在多项任务中与传统 LSTM 的性能对比结果:

SCS 在视频动作分类、自动驾驶、天气预报等 4 个任务上的性能均超越传统的序列模型。

概念编辑

有了时空分离的能力,SCS 就可以初步做到「概念编辑」。比如,通过编辑空间概念且保留时间概念,我们可以让一个原本用于预测狗运动轨迹的模型来预测猫的轨迹。这样就能以较小的代价实现模型的泛化,同时也拓宽了模型的使用场景,降低了部署难度。

概念编辑 demo

研究者让计算机看 Flappy Bird 的视频,然后看一张静态的 Mario 图片(外观形象)。在这个过程中,模型并没有接触到任何 Mario 在管道中穿梭的运动信息。但通过「概念编辑」,在测试时 SCS 可以准确地预测 Mario 的运动轨迹。

视频理解工具箱 AlphaVideo

在视频理解工具箱 AlphaVideo 中,除了上述 SCS 时空概念分解,研究者还提供了单阶段端对端训练的多目标跟踪模型 TubeTK 和视频动作检测模型 AlphAction。使用一行代码,即可调用预训好的各类模型。

AlphAction

AlphAction 是面向行为理解的开源系统,基于 MVIG 提出的交互理解与异步训练策略 在 AVA 数据集上达到最优准确率,速度达到 10 帧每秒。其中包含的 15 个开源常见行为基本模型的 mAP 达到约 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 组提出的基于 Bounding-Tube 的单阶段训练模型(CVPR2020-oral),是首个单阶段端对端训练的多目标跟踪模型。它在 MOT-16 数据集上达到了 66.9 MOTA 的精度,是目前 online 模型仅在 MOT 训练数据下达到的最高精度

TubeTK 可视化结果

Bounding-Tube 示意图。使用 bounding-tube 可以轻松跟踪到 bounding-box 无法检测到的被遮挡目标(图中黄色框)。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解耦
    +关注

    关注

    0

    文章

    40

    浏览量

    11886
  • 自动驾驶
    +关注

    关注

    783

    文章

    13654

    浏览量

    166067
  • 机器智能
    +关注

    关注

    0

    文章

    55

    浏览量

    8585
收藏 人收藏

    评论

    相关推荐

    如何理解LC表和选择关于TPS563202的LC

    电子发烧友网站提供《如何理解LC表和选择关于TPS563202的LC.pdf》资料免费下载
    发表于 08-26 10:02 0次下载
    如何<b class='flag-5'>理解</b>LC表和选择<b class='flag-5'>关于</b>TPS563202的LC

    计算机视觉有哪些优缺点

    计算机视觉作为人工智能领域的一个重要分支,旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革,也带来了诸多优势,但同时也伴随着一些挑战和局限性。以下是对计算机
    的头像 发表于 08-14 09:49 690次阅读

    什么是机器视觉opencv?它有哪些优势?

    机器视觉(Machine Vision)是一种利用计算机和图像处理技术来模拟人类视觉系统的功能,实现对图像的识别、分析和理解的技术。OpenCV(Open Source Compute
    的头像 发表于 07-16 10:33 659次阅读

    机器视觉和计算机视觉有什么区别

    机器视觉和计算机视觉是两个密切相关但又有所区别的概念。 一、定义 机器视觉 机器视觉,又称为计算机视觉,是指利用计算机、图像处理技术和人工智
    的头像 发表于 07-16 10:23 452次阅读

    机器视觉的应用实例解析

    机器视觉是一种利用计算机视觉技术对图像进行处理、分析和理解的技术。它在许多领域都有广泛的应用,包括工业自动化、医疗诊断、交通监控、安全监控等。 一、引言 机器视觉技术的发展可以追溯到2
    的头像 发表于 07-16 10:19 365次阅读

    机器视觉的四大类应用是什么?

    机器视觉是一种利用计算机和图像处理技术,模拟人类视觉系统,实现对图像的获取、处理、分析和理解的技术。它在工业、医疗、农业、交通等领域有着广泛的应用。以下是机器
    的头像 发表于 07-16 10:17 987次阅读

    计算机视觉的工作原理和应用

    计算机视觉(Computer Vision,简称CV)是一门跨学科的研究领域,它利用计算机和数学算法来模拟人类视觉系统对图像和视频进行识别、理解、分析和处理。其核心目标在于使计算机能够
    的头像 发表于 07-10 18:24 1566次阅读

    计算机视觉和机器视觉区别在哪

    计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。 一、定义 计算机视觉 计算机视觉是一门研究如何使计算机能够像人类一样
    的头像 发表于 07-09 09:22 395次阅读

    计算机视觉和图像处理的区别和联系

    数据的过程。计算机视觉的目标是使计算机能够像人类一样“看到”和理解图像或视频内容。 1.2 图像处理 图像处理,也称为数字图像处理,是应用数学和计算机算法对图像进行分析、修改和合成的过程。图像处理的目的是改善图像质量、增强图像
    的头像 发表于 07-09 09:16 1115次阅读

    计算机视觉属于人工智能吗

    属于,计算机视觉是人工智能领域的一个重要分支。 引言 计算机视觉是一门研究如何使计算机具有视觉能力的学科,它涉及到图像处理、模式识别、机器学习等多个领域。计算机视觉的目标是让计算机能够
    的头像 发表于 07-09 09:11 1094次阅读

    机器视觉的硬件组成有哪些

    机器视觉是一种利用计算机和图像处理技术来模拟人类视觉系统的技术。它涉及到图像的获取、处理、分析和理解,广泛应用于工业自动化、医疗诊断、智能交通、安防监控等领域。本文将详细介绍机器
    的头像 发表于 07-04 10:51 1049次阅读

    机器视觉的应用流程是如何实现的

    机器视觉是一种利用计算机和图像处理技术,模拟人类视觉系统对图像进行处理、分析和理解的技术。它在工业自动化、智能交通、医疗诊断、安防监控等领域有着广泛的应用。 在机器
    的头像 发表于 07-04 10:47 370次阅读

    计算机视觉:AI如何识别与理解图像

    计算机视觉是人工智能领域的一个重要分支,它致力于让机器能够像人类一样理解和解释图像。随着深度学习和神经网络的发展,人们对于如何让AI识别和理解图像产生了浓厚的兴趣。本文将探讨计算机
    的头像 发表于 01-12 08:27 1337次阅读
    计算机<b class='flag-5'>视觉</b>:AI如何识别与<b class='flag-5'>理解</b>图像

    机器视觉原理及常用工具库

    对于人类来讲,90%以上的信息都是通过视觉获取的,眼睛就是获取大量视觉信息的传感器,然后再交给大脑这个“处理器”进行处理,之后我们才能理解外部环境,建立世界观。
    的头像 发表于 01-08 10:27 1767次阅读
    机器<b class='flag-5'>视觉</b>原理及常用工具库

    光学视觉传感器技术研究进展

    视觉传感是人类感知外界、认知世界的主要途径,研究表明人类获取的外界信息大约有80%来自于视觉
    的头像 发表于 11-27 09:50 1417次阅读
    光学<b class='flag-5'>视觉</b>传感器技术研究进展