0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个通用的时空预测学习框架

CVer 来源:CVer 2023-06-19 10:27 次阅读

本文介绍CVPR2023的中稿论文:Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning。这篇论文介绍了一种用于高效时空预测的时间注意力单元(Temporal Attention Unit,TAU)。该方法改进了现有框架,对时间和空间上的依赖关系分别学习,提出了时间维度上的可并行化时序注意力单元,实现了高效的视频预测。

引言

时空预测学习是一种通过学习历史帧来预测未来帧的自监督学习范式,可以利用海量的无标注视频数据学习丰富的视觉信息,在气象预测、交通流量预测、人体姿势变化估计等领域有着广泛的应用场景。时空预测学习需要考虑视频中的空间相关性和时间演变规律,这是一项具有挑战性的任务。传统的方法主要基于循环神经网络来建模时间依赖关系,但是RNN有着计算效率低、难以捕捉长期依赖、容易出现梯度消失或爆炸等缺点。因此,如何设计一个高效、准确、稳定的时空预测学习模型,是一个亟待解决的问题。为了解决这个问题,我们首先研究现有的方法,并提出时空预测学习的通用框架,如下图所示。

2d2d77a2-0df2-11ee-962d-dac502259ad0.png

TAU

如下图所示,TAU模型不使用循环神经网络,而是使用注意力机制来并行化地处理时间演变。TAU模型将时空注意力分解为两个部分:帧内静态注意力和帧间动态注意力。帧内静态注意力使用小核心深度卷积和扩张卷积来实现大感受野,从而捕捉帧内的长距离依赖关系。帧间动态注意力使用通道间注意力的方式来学习不同帧之间的通道权重,从而捕捉帧间的变化趋势。

2d380db6-0df2-11ee-962d-dac502259ad0.png

TAU模块将时间注意力分为两部分:帧内静态注意力和帧间动态注意力。前者通过获得的大感受野捕捉帧内的长期依赖关系;而后者以挤压和激发的方式学习通道的注意力权重,以捕捉时间线上的时序演变。最后的注意力是动态注意力和静态注意力结合的产物。受ViTs和大核卷积的启发,研究者使用了深度卷积(DW Conv)、深度扩张卷积(DW-D Conv)和1x1通道卷积来建模大核卷积。

2d430680-0df2-11ee-962d-dac502259ad0.png 此外,我们还提出了一种新颖的差分散度正则化方法,用于优化时空预测学习的损失函数。该方法同时考虑了帧内误差和帧间变化量。通过将预测帧和真实帧之间的差分转换为概率分布,并计算它们之间的KL散度,来强制模型学习到视频中固有的变化规律。差分散度正则化(differential divergence regularization)是预测帧与其对应的真实帧之间的Kullback-Leibler(KL)散度。具体而言,它是预测帧差分和真实帧差分之间的KL散度。 2d5d6afc-0df2-11ee-962d-dac502259ad0.png

τ 代表温度参数,经验性地将其设置为0.1以增强概率分布的差异。直观来说,均方误差损失(MSE)仅考虑帧内误差,而差分散度正则化克服了这一缺点,迫使模型学习连续帧之间的差异并意识到固有的变化,以改善模型的预测。

因此目标损失函数:

2d7bb44e-0df2-11ee-962d-dac502259ad0.png

实验

Moving MNIST

下图是在Moving MNIST上测试的两个实例,对于随机运动的数字,预测与目标的绝对差异很细微,说明TAU能很好地处理时空预测:

2d87e066-0df2-11ee-962d-dac502259ad0.jpg

相对于SOTA的循环模型,TAU的性能增益是较大的,在三个度量指标下,TAU的表现都超越了其他方法:

2d8d0ed8-0df2-11ee-962d-dac502259ad0.jpg

TaxiBJ

在真实复杂环境的交通流量数据集上,TAU具有良好的表现:

2d9b603c-0df2-11ee-962d-dac502259ad0.png

不同数据的泛化

为了检验模型的泛化能力,我们先在KITTI原始数据上进行训练,接着使用Caltech dataset进行评估,评估时输入前十帧预测下一帧。

2daaf4f2-0df2-11ee-962d-dac502259ad0.png

灵活长度的预测

我们的模型可以通过模仿RNN,将预测的帧作为输入并递归产生预测来处理灵活长度的预测。对于KTH数据集,人体运动预测任务的难点不仅在于预测帧的灵活长度,还在于涉及人类意识随机性的复杂动力学,这增加了任务的困难程度。TAU可以从给定的10帧中预测接下来的20或40帧,也有出色的表现。

2dba6c16-0df2-11ee-962d-dac502259ad0.jpg

运行效率

此外,我们的模型不仅可以提高视频生成质量,还可以提高计算效率和训练速度。如下图所示,收敛速度极快,50轮训练即可达到MSE 35.0的水准。在相同实验环境下,TAU模型在基准数据集上每个周期只需要2.5分钟,而此前的SOTA方法需要7到30分钟不等。

2dd42110-0df2-11ee-962d-dac502259ad0.jpg

总结

本文提出了一个通用的时空预测学习框架,使用基于静态和动态结合的时间注意力模块替代循环单元,还引入了差分散度正则化方法来解决仅考虑帧内误差的MSE损失的问题,为高效的时空预测学习提供了新的范式。
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4656

    浏览量

    99489
  • 数据
    +关注

    关注

    8

    文章

    6599

    浏览量

    87968
  • 框架
    +关注

    关注

    0

    文章

    387

    浏览量

    17162
收藏 人收藏

    评论

    相关推荐

    深度学习发展的5主力框架

    在这篇文章中,我想向大家介绍推动深度学习发展的5主力框架。这些框架使数据科学家和工程师更容易为复杂问题构建深度学习解决方案,并执行更复杂的
    发表于 05-04 10:30 3952次阅读
    深度<b class='flag-5'>学习</b>发展的5<b class='flag-5'>个</b>主力<b class='flag-5'>框架</b>

    PLASTER:与深度学习性能有关的框架

    PLASTER 是与深度学习有关的框架,为致力于开发和部署基于 AI 的服务的人士提供了全方位指导。本文介绍了每个框架元素的测量方式,以
    的头像 发表于 06-22 15:07 3312次阅读

    谷歌发布机器学习框架名叫NSL的神经结构学习框架

    神经结构学习框架(NSL)的作用很大,它可以制作计算机视觉模型、执行自然语言处理(NLP)、从医疗记录或知识图等图形数据集中运行预测,还可以与 TensorFlow 机器学习平台配合使
    的头像 发表于 09-20 14:30 3198次阅读

    跳出人类思维框架的人工智能抗生素预测平台

    他们开发了跳出人类思维框架的人工智能抗生素预测平台,这个平台不需要知道药物的作用机制,甚至不需要科学家标注化学基团,它能
    的头像 发表于 03-10 11:51 1913次阅读

    全新的深度学习框架——计图

    清华大学计算机系胡事民教授研究团队提出了全新的深度学习框架——计图(Jittor)。Jittor是
    的头像 发表于 03-26 15:50 6607次阅读

    种用于交通流预测的深度学习框架

    交通流预测作为智能交通系统的关键问题,是国内外交通领域的硏究热点。交通流预测的主要挑战在于交通流数据本身具有复杂的时空关联,且易受各种社
    发表于 04-14 15:54 3次下载
    <b class='flag-5'>一</b>种用于交通流<b class='flag-5'>预测</b>的深度<b class='flag-5'>学习</b><b class='flag-5'>框架</b>

    基于时空特性的ST-LSTM网络位置预测模型

    针对现有位置预测研究多数忽略时间和空间之间关联性的问题,提岀种基于时空特性的长短期记忆模型( ST-LSTM)。基于LSTM网络添加单独处理用户移动行为时空信息的
    发表于 06-11 11:28 13次下载

    基于预测分析的时空众包在线任务分配算法

    基于预测分析的时空众包在线任务分配算法
    发表于 06-27 16:12 6次下载

    基于参数更新的迁移学习的统框架

    它提出基于参数更新的迁移学习的统框架,建立多种参数优化方法之间的联系,从而方便理解不同方法背后的关键设计,进而设计出只更新更少参数同时
    的头像 发表于 09-26 10:29 1106次阅读

    时空图神经网络预测学习应用解析

    在第四节中,我们介绍了STGNN的基本神经架构,增强了对STGNN中时空学习泛化范式的理解。然而,近年来出现了许多前沿方法来改进时空依赖关系的学习
    发表于 05-11 15:00 1927次阅读
    <b class='flag-5'>时空</b>图神经网络<b class='flag-5'>预测学习</b>应用解析

    通用时空预测学习框架实现高效视频预测案例

    TAU模型将时空注意力分解为两部分:帧内静态注意力和帧间动态注意力。帧内静态注意力使用小核心深度卷积和扩张卷积来实现大感受野,从而捕捉帧内的长距离依赖关系。
    发表于 06-19 10:25 364次阅读
    <b class='flag-5'>通用</b>的<b class='flag-5'>时空</b><b class='flag-5'>预测学习</b><b class='flag-5'>框架</b>实现高效视频<b class='flag-5'>预测</b>案例

    深度学习框架是什么?深度学习框架有哪些?

    深度学习框架是什么?深度学习框架有哪些?  深度学习框架
    的头像 发表于 08-17 16:03 2173次阅读

    深度学习框架区分训练还是推理吗

    深度学习框架区分训练还是推理吗 深度学习框架非常重要的技术,它们能够加速深度
    的头像 发表于 08-17 16:03 1145次阅读

    深度学习框架连接技术

    深度学习框架连接技术 深度学习框架能够帮助机器学习
    的头像 发表于 08-17 16:11 579次阅读

    深度学习框架和深度学习算法教程

    深度学习框架和深度学习算法教程 深度学习是机器学习领域中的
    的头像 发表于 08-17 16:11 856次阅读