关于人类视觉理解机理-电子发烧友网

近期，上海交通大学卢策吾团队在《自然 - 机器智能》子刊上发表了关于高维度视觉序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

与此同时，该团队将论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱 AlphaVideo。

AlphaVideo 在物体跟踪任务（MOT）和行为理解（AVA 单模型）上都达到最高准确率，相比 SlowFast （AVA 单模型）有 12.6% 的性能提升。

动作理解任务的时空信息特征图。左：输入序列；右：空间特征更关注物体形状，时间特征更关注物体运动趋势。

AlphaVideo 中的行为理解（Alphaction）

时空概念提取展示

人类视觉理解机理

在人类的视觉认知过程中，时间和空间概念是解耦的。神经科学领域的研究发现在人类的记忆形成过程中，时间信息与空间上下文信息通过两个相对独立的信息通路到达海马体，进而形成完整的记忆。

新技能：自主学习时空概念

通过模仿人类的认知机制，卢策吾团队提出了应用于高维度信息的半耦合结构模型（SCS）。

SCS 自主发掘（awareness）时间 - 空间概念，并让他们耦合协作以理解序列信息。这种能力代表着机器学习模型自主掌握了时空的概念，这是一种更高层的智能。更进一步，时空信息概念的分离也让「概念编辑」成为可能。

半耦合结构模型（SCS）

半耦合结构首先解耦时空信息（模仿人脑中的两条信息通路），并在分别处理时间和空间信息之后将二者耦合（模仿海马体）：

该研究通过堆叠这种半耦合的元结构来构建深度模型，其中时空信息始终以先解耦再融合的模式向后流动。

为了让 h_s 和 h_t 各司其职，研究者将 h_s 和 h_t 设计为不对称的结构，同时，使用两个特殊的监督目标 r_s、r_t 来进一步约束二者关注各自的工作。

该研究进一步提出了一种训练注意力机制。这种注意力机制控制模型在优化过程中学习哪种信息。例如在视频信息中，模型可以优先将注意力集中在空间信息上，待空间信息有效且稳定时，再逐步将模型训练的注意力转换到时间信息上。

SCS 的表现如何？

该研究展示了 SCS 在多项任务中与传统 LSTM 的性能对比结果：

SCS 在视频动作分类、自动驾驶、天气预报等 4 个任务上的性能均超越传统的序列模型。

概念编辑

有了时空分离的能力，SCS 就可以初步做到「概念编辑」。比如，通过编辑空间概念且保留时间概念，我们可以让一个原本用于预测狗运动轨迹的模型来预测猫的轨迹。这样就能以较小的代价实现模型的泛化，同时也拓宽了模型的使用场景，降低了部署难度。

概念编辑 demo

研究者让计算机看 Flappy Bird 的视频，然后看一张静态的 Mario 图片（外观形象）。在这个过程中，模型并没有接触到任何 Mario 在管道中穿梭的运动信息。但通过「概念编辑」，在测试时 SCS 可以准确地预测 Mario 的运动轨迹。

视频理解工具箱 AlphaVideo

在视频理解工具箱 AlphaVideo 中，除了上述 SCS 时空概念分解，研究者还提供了单阶段端对端训练的多目标跟踪模型 TubeTK 和视频动作检测模型 AlphAction。使用一行代码，即可调用预训好的各类模型。

AlphAction

AlphAction 是面向行为理解的开源系统，基于 MVIG 提出的交互理解与异步训练策略在 AVA 数据集上达到最优准确率，速度达到 10 帧每秒。其中包含的 15 个开源常见行为基本模型的 mAP 达到约 70%，接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 组提出的基于 Bounding-Tube 的单阶段训练模型（CVPR2020-oral），是首个单阶段端对端训练的多目标跟踪模型。它在 MOT-16 数据集上达到了 66.9 MOTA 的精度，是目前 online 模型仅在 MOT 训练数据下达到的最高精度。

TubeTK 可视化结果

Bounding-Tube 示意图。使用 bounding-tube 可以轻松跟踪到 bounding-box 无法检测到的被遮挡目标（图中黄色框）。
责任编辑:pj

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解耦

解耦

+关注

关注
0

文章
40

浏览量
11965
自动驾驶

自动驾驶

+关注

关注
788

文章
13995

浏览量
167672
机器智能

机器智能

+关注

关注
0

文章
55

浏览量
8659

如何理解LC表和选择关于TPS563202的LC

电子发烧友网站提供《如何理解LC表和选择关于TPS563202的LC.pdf》资料免费下载

发表于 08-26 10:02 •0次下载

如何<b class='flag-5'>理解</b>LC表和选择<b class='flag-5'>关于</b>TPS563202的LC

计算机视觉有哪些优缺点

计算机视觉作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革，也带来了诸多优势，但同时也伴随着一些挑战和局限性。以下是对计算机

发表于 08-14 09:49 •1282次阅读

什么是机器视觉opencv?它有哪些优势?

机器视觉（Machine Vision）是一种利用计算机和图像处理技术来模拟人类视觉系统的功能，实现对图像的识别、分析和理解的技术。OpenCV（Open Source Compute

发表于 07-16 10:33 •958次阅读

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉机器视觉，又称为计算机视觉，是指利用计算机、图像处理技术和人工智

发表于 07-16 10:23 •722次阅读

机器视觉的应用实例解析

机器视觉是一种利用计算机视觉技术对图像进行处理、分析和理解的技术。它在许多领域都有广泛的应用，包括工业自动化、医疗诊断、交通监控、安全监控等。一、引言机器视觉技术的发展可以追溯到2

发表于 07-16 10:19 •639次阅读

机器视觉的四大类应用是什么？

机器视觉是一种利用计算机和图像处理技术，模拟人类视觉系统，实现对图像的获取、处理、分析和理解的技术。它在工业、医疗、农业、交通等领域有着广泛的应用。以下是机器

发表于 07-16 10:17 •1685次阅读

计算机视觉的工作原理和应用

计算机视觉（Computer Vision，简称CV）是一门跨学科的研究领域，它利用计算机和数学算法来模拟人类视觉系统对图像和视频进行识别、理解、分析和处理。其核心目标在于使计算机能够

发表于 07-10 18:24 •2493次阅读

计算机视觉和机器视觉区别在哪

计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。一、定义计算机视觉计算机视觉是一门研究如何使计算机能够像人类一样

发表于 07-09 09:22 •590次阅读

计算机视觉和图像处理的区别和联系

数据的过程。计算机视觉的目标是使计算机能够像人类一样“看到”和理解图像或视频内容。 1.2 图像处理图像处理，也称为数字图像处理，是应用数学和计算机算法对图像进行分析、修改和合成的过程。图像处理的目的是改善图像质量、增强图像

发表于 07-09 09:16 •1671次阅读

计算机视觉属于人工智能吗

属于，计算机视觉是人工智能领域的一个重要分支。引言计算机视觉是一门研究如何使计算机具有视觉能力的学科，它涉及到图像处理、模式识别、机器学习等多个领域。计算机视觉的目标是让计算机能够

发表于 07-09 09:11 •1553次阅读

机器人视觉的应用范围

机器人视觉是一种将计算机视觉技术应用于机器人领域的技术，它使得机器人能够感知和理解周围环境，实现自主决策和执行任务。随着人工智能、机器学习、大数据等技术的快速发展，机器人视觉在各个领域

发表于 07-04 11:33 •826次阅读

机器视觉的硬件组成有哪些

机器视觉是一种利用计算机和图像处理技术来模拟人类视觉系统的技术。它涉及到图像的获取、处理、分析和理解，广泛应用于工业自动化、医疗诊断、智能交通、安防监控等领域。本文将详细介绍机器

发表于 07-04 10:51 •2134次阅读

机器视觉的应用流程是如何实现的

机器视觉是一种利用计算机和图像处理技术，模拟人类视觉系统对图像进行处理、分析和理解的技术。它在工业自动化、智能交通、医疗诊断、安防监控等领域有着广泛的应用。在机器

发表于 07-04 10:47 •542次阅读

机器视觉的关键技术有哪些

机器视觉作为人工智能领域的一个重要分支，通过模拟和模仿人类视觉系统，使计算机能够感知、理解和解释图像和视频数据。随着计算能力的提升和算法的进步，机器

发表于 06-06 15:57 •946次阅读

晶闸管的失效模式与机理

电路性能下降甚至系统瘫痪。因此，深入了解晶闸管的失效模式与机理，对于提高电路设计的可靠性具有重要意义。本文将从晶闸管的基本原理出发，详细探讨其失效模式与机理，并结合相关数字和信息进行说明。

发表于 05-27 15:00 •1740次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

关于人类视觉理解机理

评论