深度学习在时间序列预测的总结和未来方向分析-电子发烧友网

来源：DeepHub IMBA

2023年是大语言模型和稳定扩散的一年，时间序列领域虽然没有那么大的成就，但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进，还出现了将数值时间序列数据与文本和图像合成的新体系结构(CrossVIVIT)，也出现了直接应用于时间序列的可能性的LLM，以及新形式的时间序列正则化/规范化技术(san)。

我们这篇文章就来总结下2023年深度学习在时间序列预测中的发展和2024年未来方向分析

Neurips 2023

在今年的NIPs上，有一些关于transformer 、归一化、平稳性和多模态学习的有趣的新论文。但是在时间序列领域没有任何重大突破，只有一些实际的，渐进的性能改进和有趣的概念证明。1、Adaptive Normalization for Non-stationary Time Series

论文介绍了一种“模型不可知的归一化框架”来简化非平稳时间序列数据的预测。作者让SAN分两步操作:训练一个统计预测模型(通常是ARIMA)，然后训练实际的深度时间序列基础模型(使用统计模型对TS数据进行切片、归一化和反归一化)。统计模型对输入时间序列进行切片，以便学习更健壮的时间序列表示并去除非平稳属性。作者指出:“通过对切片级特性进行建模，SAN能够消除局部区域的非平稳性。”SAN还显式地预测目标窗口的统计信息(标准差/平均值)。这使得它在处理非平稳数据时，与普通模型相比，能够更好地适应随时间的变化。采用transformer 模型作为基本预测模型，对典型的时间序列预测基准(如电力、交换、交通等)进行指标验证。作者发现SAN在这些基准数据集上持续提高了基本模型的性能(尽管他们没有测试Inverted Transformer，因为这篇论文是在Inverted Transformer之前发布的)。由于该模型结合了一个统计模型(通常是ARIMA)和一个普通的transformer ，我认为调优和调试(特别是在新的数据集上)可能会很棘手和麻烦。因为几乎所有的时间序列模型都将序列输入长度作为超参数。另外就是“切片”的切片与普通的序列窗口有何不同?作者还是没有说清楚。总的来说，我认为这仍然是一个相当强大的贡献，因为它的实验结果和即插即用属性。2、BasisFormerBasisFormer使用可学习和可解释的“basis”来改进一般的transformer 体系结构。这里的“basis”指的是创建一个类似于NBeats的神经“basis”(例如，为基于多项式的函数学习趋势、季节性等的系数)。该模型分为三个部分:基础模块、系数模块和预测模块。基模块试图以自监督的方式确定一组适用于历史和未来时间序列数据的数据基础趋势。basis模块通过对比学习和一个名为InfoNCE loss的特定损失函数（该函数试图学习未来和过去时间序列之间的联系）。coef模型试图“模拟时间序列和一组基础趋势之间的相似性”。对于coef模型，作者使用了一个交叉注意力模块，该模块将basis和时间序列作为输入。然后将输出输入到包含多个MLP的预测模块中。作者在典型的时间序列预测数据集(ETH1, ETH, weather, exchange)上评估他们的论文。发现BasisFormer比其他模型(Fedformer、Informer等)的性能提高了11-15%。BasisFormer还没有被拿来和Inverted Transformer比较，因为它还没有发布。似乎Inverted Transformer和可能的Crossformer 可能会略优于BasisFormer。还记的去年我们看到了“Are Transformers Effective for Time Series Forecasting?”这篇论文批评了许多Transformers 模型，并展示了一个简单的模型“D-Linear”如何超越它们。在2023年从BasisFromer开始，已经开始缓慢的解决这些问题，并超越上面提到的基准模型。这篇论文模型的技术是可靠的，但这篇论文优点难理解。因为作者介绍了学习“basis”的概念，但并没有真正解释这种方法的新颖性以及它与其他模型的不同之处。

3、Improving day-ahead Solar Irradiance Time Series Forecasting by Leveraging Spatio-Temporal Context论文提出了一种基于混合(视觉和时间序列)深度学习的架构，用于预测第二天的太阳能产量。太阳能的生产经常受到云层覆盖的影响，这在卫星图像数据中可以看到，但在数值数据中没有很好地体现出来。除了模型本身外，论文的另外贡献是研究人员构建并开源的多模态卫星图像数据集。作者描述了一个多级Transformers 架构，同时关注数值时间序列和图像数据。时间序列数据通过时间Transformers 图像通过视觉Transformers 。然后，交叉注意力模块将前两个模块的图像数据综合起来。最后数据进入一个输出预测的最终时态Transformers 。作者在论文中提到的另一个有用的想法被称为ROPE或旋转位置编码。这将在编码/位置嵌入中创建坐标对。这是用来描述从云层到太阳能站的距离。作者对他们的新数据集进行评估和基准测试，比较了Informer、Reformer、Crossformer和其他深度时间序列模型的性能。作者还在整合图像数据方面区分了困难和容易的任务，他们的方法优于其他模型。这篇论文提供了一个有趣的框架，ROPE的概念也很有趣，对于任何使用坐标形式的地理数据的人都有潜在的帮助。数据集本身对于多模态预测的持续工作非常有用，这是一项非常有益的贡献。

4、Large Language Models Are Zero-Shot Time Series Forecasters这篇论文探讨了预训练的llm能否直接以整数形式输入时间序列数据，并以零样本的方式预测未来数据。作者描述了使用GPT-3和GPT-4和开源LLMs不进一步修改结构直接与时间序列值交互的情况。最后还描述了他们对模型零样本训练行为起源的思考。作者假设，这种行为是提取知识的预训练的普遍通用性的结果。在上面提到的标准时间序列基准数据集评估他们的模型。虽然模型没有达到SOTA性能，但考虑到它完全是零样本并且没有额外的微调，所以表现还是很好的。

llm可以开箱即用地进行TS预测，因为它们都是在文本数据上训练的。这一领域可能值得未来进一步探索，这篇论文是一个很好的一步。但是该模型目前只能处理单变量时间序列

ICML 、ICLR 2023

除了Neurips之外，ICML和ICLR 2023还重点介绍了几篇关于时间序列预测/分析的深度学习的论文。以下是一些我觉得很有趣的，并且对未来一年仍有意义的建议:1、Crossformer

该模型是专门为多元时间序列预测(MTS)开发的。该模型采用维度分段嵌入(DSW)机制。DSW嵌入与传统嵌入的不同之处在于它采用二维格式的数据。并且跨变量和时间维度显式地从MTS数据生成段。该模型在标准MTS数据集(ETH, exchange等)上进行了评估：在发布时时优于大多数其他模型，例如Informer和DLinear。作者还对dSW进行了消融研究。这篇来自ICLR的关于的论文在预测河流流量时表现不错，但是是在一次预测多个目标时，性能似乎会下降很多。也就是说，它的表现肯定比Informer和相关的Transformers 模型要好。

2、Learning Perturbations to Explain Time Series Predictions

大多数用于深度学习解释的扰动技术都是面向静态数据(图像和文本)的。但是对于时间序列特别是多元TS需要更大范围的扰动来学习随机影响。作者提出了一种基于深度学习的方法，可以学习数据的掩码和相关的扰动，更好地解释特征的重要性。然后将掩码和扰动的输入传递给模型，并将输出与未扰动数据的输出进行比较。据两个输出之间的差值计算损失。越来越多的研究人员正在深入研究解释深度学习模型这是件好事。本文概述了现有的方法及其不足，并提出了一种改进的方法。我认为使用额外的神经网络来学习扰动的想法增加了不必要的复杂性,因为每当我们增加更多的层和额外的网络时，就会增加发生问题的概率，特别是在已经很大的网络上。别忘了奥卡姆剃刀定律如无必要，勿增实体

3、Learning Deep Time Index Models

本文通过光流和元学习来讨论预测，描述了学习如何预测非平稳时间序列。对于那些不熟悉的人来说，元学习通常被应用在计算机视觉数据集上，像MAML这样的论文可以对新的图像类进行少量的学习。MAML和其他模型都有一个内部循环和一个外部循环，其中外部循环教模型如何学习，内部循环对其进行微调以适应特定的任务。论文的作者采用了这一思想，并将其应用于几乎将每个非平稳性视为一个新的学习任务。新的“任务”是长时间序列序列的块。作者在ETH，temperature和exchange 数据集上测试了他们的模型。尽管他们的模型没有达到SOTA的结果，但它与当前的SOTA体系结构具有竞争力。这篇论文为时间序列预测提供了一个有趣的角度，相对于常规方法有了一个新的突破，我想就是他虽然没有超过SOTA但是还是被录用的原因之一吧。

4、Inverted Transformers are Effective for Time Series Forecasting

《Inverted Transformers》是2024年发表的一篇论文。这也是目前时间序列预测数据集上的SOTA。基本上，Inverted Transformers采用时间序列的Transformers架构并进行了翻转。整个时间序列序列用于创建令牌。然后，时间序列彼此独立进行嵌入表示。注意力对多个时间序列嵌入进行操作。它有点类似于Crossformer，但它的不同之处在于，它遵循标准Transformers架构。作者在标准时间序列数据集上评估模型目前优于所有其他模型，包括Informer, Reformer, Crossformer等。

这是一篇强大的论文，因为模型的表现优于现有的模型。但是在某些情况下，它优于模型的数值并不是那么显著。所以可以优先看看这篇论文并且进行测试。

TimeGPT

最后说说TimeGPT，它没有在任何主要会议上被接受，而且它的评估方法也优点可疑，由于它不幸地在互联网上获得了相当多的介绍，所以我们要再提一下：

1、作者没有将他们的结果与其他SOTA类型模型进行比较，只是引用“测试集包括来自多个领域的30多万个时间序列，包括金融、网络流量、物联网、天气、需求和电力。”并且没有提供测试集的链接，也没有在他们的论文中说明这些数据集是什么。

2、论文中架构图和模型体系结构的描述非常糟糕。这看起来就像是作者复制了其他论文的图表，强加上注意力的定义和LLM相关的流行词汇。

3、作者的Nixtla公司非常小，可能是一家小型初创公司，它是否有足够的计算资源来完全训练一个“成功的时间序列基础模型”。虽然这样说法优点歧视，但是如果我说我一个人用一周训练了一个LLM，那估计都没人相信，对吧。OpenAI、谷歌、亚马逊、Meta等公司提供足够的计算资源来创建庞大的模型。如果TimeGPT真的是一个简单的Transformers 模型，并在大量的时间序列数据上训练它，为什么其他机构，甚至个人不能用它的大量gpu做到这一点呢?答案是，事情肯定没那么简单。时间序列创建“基础模型”的能力目前还不够完善。多元时间序列预测的一个重要组成部分是学习协变量之间的依赖关系。MTS的维度在不同的数据集之间差异很大。对于具有文本数据的Transformers ，我们总是将一个单词映射到一个数字id，然后创建一个特定维度的嵌入。对于MTS，不仅值可以更改，而且在一个数据集上可能有100个变量，而在另一个数据集上只有10个变量。这使得几乎不可能设计所有用途的映射层来将不同大小的MTS数据集映射到公共嵌入维度。所以还记得我们前几天发的Lag-Llama，也只是单变量的预测。

在其他时间序列(即使是那些具有相同数量变量的时间序列)上预训模型不会产生改进的结果(至少在当前架构下不会)。

总结及未来方向分析

在2023年，我们看到了Transformers 在时间序列预测中的一些持续改进，以及llm和多模态学习的新方法。随着2024年的进展，我们将继续看到在时间序列中使用Transformers 架构的进步和改进。可能会看到在多模态时间序列预测和分类领域的进一步发展。

作者：Isaac Godfried

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30739

浏览量
268896
语言模型

语言模型

+关注

关注
0

文章
520

浏览量
10268
深度学习

深度学习

+关注

关注
73

文章
5500

浏览量
121113

时空引导下的时间序列自监督学习框架

考虑各个序列之间的关系。因此，本文提出的方法更适合作为时空预测领域的预训练模型。下面为大家详细介绍一下这篇文章。摘要相关时间序列分析

发表于 11-15 11:41 •240次阅读

时空引导下的<b class='flag-5'>时间</b><b class='flag-5'>序列</b>自监督<b class='flag-5'>学习</b>框架

深度学习中RNN的优势与挑战

循环神经网络（RNN）是深度学习领域中处理序列数据的基石。它们通过在每个时间步长上循环传递信息，使得网络能够捕捉

发表于 11-15 09:55 •323次阅读

如何使用RNN进行时间序列预测

时间序列预测在金融、气象、销售预测等领域有着广泛的应用。传统的时间

发表于 11-15 09:45 •283次阅读

LSTM神经网络在时间序列预测中的应用

时间序列预测是数据分析中的一个重要领域，它涉及到基于历史数据预测未来值。随着

发表于 11-13 09:54 •566次阅读

【「时间序列与机器学习」阅读体验】时间序列的信息提取

个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析和预测任务。特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的特征，

发表于 08-17 21:12

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

本人有些机器学习的基础，理解起来一点也不轻松，加油。作者首先说明了时间序列的信息提取是时间序列分析

发表于 08-14 18:00

【「时间序列与机器学习」阅读体验】+ 鸟瞰这本书

清晰，从时间序列分析的基础理论出发，逐步深入到机器学习算法在时间

发表于 08-12 11:28

【「时间序列与机器学习」阅读体验】+ 简单建议

这本书以其系统性的框架和深入浅出的讲解，为读者绘制了一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间

发表于 08-12 11:21

【《时间序列与机器学习》阅读体验】+ 了解时间序列

。可以探索现象发展变化的规律，对某些社会经济现象进行预测。利用时间序列可以在不同地区或国家之间进行对比分析，这也是统计

发表于 08-11 17:55

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

的应用也很广泛，用机器学习为时间分析带来新的可能性。人们往往可以通过过往的时间序列数据来预测

发表于 08-07 23:03

利用Matlab函数实现深度学习算法

在Matlab中实现深度学习算法是一个复杂但强大的过程，可以应用于各种领域，如图像识别、自然语言处理、时间序列

发表于 07-14 14:21 •2166次阅读

深度学习中的时间序列分类方法

的发展，基于深度学习的TSC方法逐渐展现出其强大的自动特征提取和分类能力。本文将从多个角度对深度学习在时

发表于 07-09 15:54 •877次阅读

基于深度学习的小目标检测

）的广泛应用，小目标检测的性能得到了显著提升。本文将详细探讨基于深度学习的小目标检测技术，包括其定义、挑战、常用方法以及未来发展方向。

发表于 07-04 17:25 •862次阅读

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

的火热，全球金融市场的金融时间序列（如黄金价格、股票、期货等）也应用以深度学习（DL）为首的现代人工智能模型不断进行分析和

发表于 06-25 15:00

时间序列分析的异常检测综述

时间序列是在不同时点记录一个或多个变量值的数据。例如，每天访问网站的人数、每月城市的 average 温度、每小时的股票价格等。时间序列非常

发表于 03-11 09:36 •616次阅读

搜索历史

深度学习在时间序列预测的总结和未来方向分析

Neurips 2023

ICML 、ICLR 2023

TimeGPT

总结及未来方向分析

评论

时空引导下的时间序列自监督学习框架

深度学习中RNN的优势与挑战

如何使用RNN进行时间序列预测

LSTM神经网络在时间序列预测中的应用

【「时间序列与机器学习」阅读体验】时间序列的信息提取

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

【「时间序列与机器学习」阅读体验】+ 鸟瞰这本书

【「时间序列与机器学习」阅读体验】+ 简单建议

【《时间序列与机器学习》阅读体验】+ 了解时间序列

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

利用Matlab函数实现深度学习算法

深度学习中的时间序列分类方法

基于深度学习的小目标检测

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

时间序列分析的异常检测综述