徐丸絮,沈吟东
(华中科技大学 人工智能与自动化学院,湖北 武汉 430074)
摘 要:传统的公交行程时间预测模型由于忽略了历史时刻中的信息,导致预测精度不理想。针对公交行程时间的时序性,提出一种基于 LSTM 神经网络的预测模型,并引入注意力(Attention)机制对其进行优化。首先,综合考虑多种影响因素,设计了多变量 LSTM 模块,将当前时刻的行程时间与历史时刻数据相关联,对其中的多维度特征进行信息提取;随后针对单一 LSTM 网络无法自动识别不同信息重要性的局限性,引入 Attention 机制,使模型聚焦重点信息、忽略冗杂信息;最后,采用实际公交 GPS数据验证了该方法的有效性。实验结果表明,与五种常见方法相比,该模型具有更高的精度。
中图分类号:TN99⁃34 文献标识码:A
文章编号:1004⁃373X(2022)03⁃0083⁃05
0 引 言
公交行程时间是智能交通系统的重要组成部分,准确的行程时间信息为公交智能优化排班、实时调度、公交交叉口优先控制等提供重要依据,对公交资源动态配置、城市交通结构规划等有深远意义。
近年来,国内外学者对这一问题展开了广泛研究,提出的预测模型主要包括4类:
1)卡尔曼滤波器模型[1⁃2]。如文献[1]分析了异构交通条件下时间的离散化模式,以此构建了基于卡尔曼滤波器的预测模型。但是该模型考虑因素较单一,且适用于线性系统,对于高度非线性的公交行程时间预测问题并不是很合适。
2)支持向量机(SVM)模型[3⁃4]。如文献[3]选取时段、天气等7维特性构建了改进的 SVM 预测模型,并在厦门BRT⁃1路的数据上验证了模型精度。但该类模型计算复杂度高,不能很好地处理大规模数据。
3)决策树模型。如文献[5]构建了一种基于梯度提升回归树(GBRT)的预测模型,测试结果比SVM和自回归平均法的预测精度有所提高。该模型可解释性强,但是存在模型速率低、易过拟合等问题。
4)神经网络模型。该模型在行程时间预测问题中使用最为广泛,如文献[6]将萤火虫算法与BP神经网络结合,构建了预测模型;文献[7]构建了面向动态站点的BP 神经网络预测模型,实现了跨越多个站点的预测;文献[8]通过采集到的历史和实时数据构建了神经网络。神经网络能够较好地拟合非线性问题,在行程时间预测问题上很有意义,然而公交行程时间具有时序性,即当前时刻行程时间与历史时刻密切相关,上述模型的不足之处在于仅考虑了当前时刻的信息,没有充分利用历史时刻的数据,导致模型精度受限。
深度学习与传统的学习方法相比,它具备更强大的数据学习和抽象能力。LSTM(Long Short⁃Term Memory)作为目前最热门的深度学习技术之一,能够保存历史信息,既继承了传统神经网络的优势,又能挖掘历史时刻数据,在处理时序问题上很有优势[9],近几年得到了广泛应用。文献[10]使用英国66个路段的数据构建了改进的LSTM模型;文献[11]采用LSTM网络进行预测,并与BP神经网络进行了对比,结果证明LSTM精度更优。然而传统的LSTM将输入序列转换为定长向量而保存所有的信息,使得模型记忆受限,在处理长序列问题时易丢失信息。
Attention机制的提出可以弥补这一缺陷,它能为不同信息赋予权重,加强对重要信息的记忆,忽略无关信息。近年来,结合注意力机制的神经网络成为研究的热点,被广泛应用于机器翻译、图像分类等领域,在公交行程时间预测问题上的研究相对较少。因此,本文提出一种基于Attention机制的LSTM预测模型,利用LSTM模块,对历史数据中多种因素同步分析,针对LSTM的局限性,融入Attention机制,自动抽取关键信息,优化模型。最后与五种常见方法进行对比发现,该模型有更高的预测精度。
1 问题定义
本文旨在基于公交企业积累的大量行程时间样本,设计一个行程时间预测方法。公交行程时间在不同日期、时段是随机变化的,与路况、事故等动态因素密切相关[12]。由于班次之间时间间隔较短,相邻班次之间的路段状况具有相似性,因此历史时刻的数据中蕴含着影响未来的信息,即当前时刻的行程时间与历史时刻有关,由此可见,公交行程时间具有时序性,是一个前后关联的时间序列。
根据行程时间的时序性,该问题可描述如下,由前s 个时刻的历史行程时间序列 [yt-s,⋯, yt-2 , yt-1](s代表时间步长度,即历史时刻个数)和历史特征[xt-s,⋯,xt-2, xt-1]预测t时刻的公交行程时间yt,即:
式中:xi=(xi,1,xi,2,⋯,xi,n)T代表第i时刻影响行程时间的多种因素的取值向量,n代表影响因素的个数;F为函数,代表预测值与输入值之间的某种映射关系。本文的目的就是找到合适的模型用于拟合这种复杂的非线性映射。
2 公交行程时间影响因素分析
常见的LSTM模型仅考虑“历史行程时间”这一种历史数据[10⁃11],然而行程时间受多种因素影响,如果模型仅对单变量进行处理,并不能充分考虑多种影响因素的变化。因此本节对行程时间影响因素进行分析,以期得到更全面的输入特征。
影响公交行程时间的不确定因素主要包括道路因素、交通因素、天气情况等[13]。道路和交通因素如路段状况、行人数量、乘客数量等信息,动态影响着行程时间;天气情况如降雨、降雪、大雾等会影响公交速度和司机反应时间,从而影响行程时间。
根据上述行程时间影响因素分析,本文选取了行驶特征集以描述道路和交通因素,选取了天气特征集以描述天气因素,以此作为模型输入。具体获取和处理如下:
1)行驶特征集
由于路况、人流等实时信息无法直接获取,为反映车辆行驶路段状况、人流量等信息,选取当天是否是周末、是否是高峰期等静态特征,同时提取车辆平均速度、车辆行驶方向等作为动态特征,用以反映实时交通状况。
2)天气特征集
采用网络爬虫获取结构化的天气数据,主要包含如下属性:时间、温度、气压、天气状况等。选取其中与行程时间密切相关的温度和天气状况作为天气特征集。
综上所述,选取的输入特征一共有6个,分别为当天是否是周末、是否是高峰期、车辆平均速度、车辆行驶方向、温度、天气状况,即影响因素的个数n=6。
3 基于 Attention⁃LSTM 的公交行程时间预测模型
公交行程时间是一个典型的时间序列,LSTM网络能自动保存历史序列信息,更好地利用其时序性。然而不同信息对于预测时刻的影响程度是随时间动态变化的,例如,对早晚高峰期来说,人流量对行程时间的影响要大于对平峰期的影响;单一的LSTM模型将输入序列转换为定长向量而保存所有的信息,并不能检测哪些是影响当前行程时间的重要部分,降低了信息的利用率;Attention机制的加入能解决这一问题,它为模型分配不同的注意力,使模型能自动处理不同信息的重要程度。本文尝试将LSTM与Attention机制结合,用于公交行程时间预测,本文提出的Attention⁃LSTM预测模型整体结构如图1所示。
由图1可见,该模型由4个部分组成:输入层负责将预处理后的数据转换成模型可读的形式;多变量LSTM模块负责对包含多种影响因素的输入数据进行处理,获取特征信息;Attention 机制负责学习一组注意力系数,对特征信息进行筛选;全连接层接收筛选后的特征信息,处理得到最终的行程时间预测结果。输入层和全连接层是模型完成预测任务必需的组件,其结构由数据本身的维度决定,整个模型的重点部分在于多变量 LSTM模块与Attention机制。
3.1 多变量 LSTM 模块
基本的LSTM网络是由多个记忆神经元按时间次序连接而成的[14]。经典的记忆神经元内部结构如图2所示。
由图2可见,记忆神经元内部由输入门it、遗忘门ft、输出门ot三种门结构组成,它们共同控制着信息的更新与遗忘,计算公式见式(2)~式(7):
式中:σ代表sigmoid函数;Ct和Ct-1分别代表LSTM单元在t 时刻和t-1时刻的状态;Ct 代表当前单元状态更新值;ht和ht-1分别为当前单元和上一单元的中间状态;wf,wi,wo,bf,bi和bo为模型训练得到的权重矩阵和偏移量。
由此可见,LSTM网络通过门结构对信息进行继承,能够实现更长期的记忆。本文利用这一特性,在基本LSTM的基础上设计了多变量LSTM模 块 ,该模块由两层LSTM网络 堆叠而成 ,在t时刻的输入为Ft=[yt-1, xt-1,1,xt-1,2,⋯,xt-1,n ]T,其不仅接收上一时刻的历史行程时间真实值yt-1,且对代表多种影响因素的序列[xt-1,1,xt-1,2,⋯,xt-1,n ]T进行处理,多变量的引入使模型从更多方面接收反映行程时间的信息,可以更充分地挖掘历史数据;最终获得整个模块在t时刻的输出向量[ht-s+1,⋯,ht-1,ht],其中蕴含着用于行程时间预测的多维度信息。
3.2 结合 LSTM 的Attention机制
本文引入的Attention机制结构如图3所示,其对LSTM模块的输出向量[ht-s+1 ,⋯,ht-1 ,ht]进行学习,得到一系列注意力系数[αt-s+1,⋯,αt-1,αt],用以表示每一中间状态的重要程度。最后对各中间状态加权求和得到输出序列H,计算公式见式(8)~式(10)
式中:V,W代表权重矩阵;b为相应的偏置值;et为计算t时刻注意力系数 αt的中间值。
由此可见,融合Attention机制后,模型可以自主学习各状态的重要程度,从复杂的数据中提取出重要的部分。
4 实验与分析
为了测试所提出模型的性能,基于真实数据进行实验,并与多种常见预测模型进行对比,以验证该模型的有效性。
4.1 数据预处理
本文采用某市290路公交车2017年1月1日—2月28日不同班次产生的GPS数据作为研究对象,该数据的每一行代表一条公交行程记录,每一列代表不同的属性;为了避免数据缺失对模型预测造成影响,采用缺失值的前 1天以及后 1天相同时刻的数据均值补全缺失数据。另外,为了使输入数据数量级保持一致,采用最大最小值归一化法,使数据都被限定在[0,1]范围内。
4.2 模型参数设置及评价
通过多次实验发现,当时间步长s为 9、LSTM隐含层节点数为8时模型表现最好。为了提高训练速率,采用批量训练的方式,每批含72组样本数据,为了避免过拟合,在每层 LSTM 网络后增加随机失活(dropout)层,参数设置为0.2,选择平均绝对误差(MAE)作为训练的损失函数,采用 Adam 算法对网络进行训练,迭代次数设置为 100次。
为评估模型的可靠性,本文同时采用平均绝对误差(MAE)与平均绝对相对误差(MAPE)评估模型的预测能力。具体见式(11)和式(12),其中yi表示预测值,yi表示真实值,m表示实验所用数据总量。
当MAE越小时,表示误差越小;当MAPE越小时,表示预测精确度越高。
4.3 结果分析
本文采用的数据集一共12157条,选择前9000条数据作为训练集,后3157条数据作为测试集,模型训练过程中误差变化趋势如图4所示。由图4可知 ,Attention⁃LSTM模型误差不断下降,较快达到收敛,最终误差降为0.544,说明训练结果良好。
为了以更直观的方式验证模型预测效果,利用该模型对测试集中随机选取的1000个样本进行预测,结果如图5所示。由图5可见,所提出的模型能够较好地拟合行程时间的剧烈变化。
为分析Attention机制的加入对模型的影响及有效性,对模型预测过程中不同时间步的注意力系数结果进行展示,如图6所示。
由图6可以看出:不同时间步对行程时间的影响程度不同,注意力系数使得模型重点关注第2,3,9个时间步,而对第5,6个时间步的关注较低,由此可见,Attention机制可以使模型自动关注重要的历史时刻,从而提高了模型对关键信息的筛选与利用。同时也说明,公交行程时间是一个明显的时序性数据,模型的注意力并非集中在距离预测点较近的时间步上,而是对长时间步中的信息都有关注。
为了进一步比较提出的Attention ⁃LSTM模型和其他模型的预测性能,本文构造了 BPNN、RNN、LSTM、GBRT、XGBoost等五种常见预测方法,在相同的测试集上进行预测,得到的预测结果如表 1所示。
根据表1可以得到如下结论:
1)与其他几种常见的预测模型相比,本文构建的Attention⁃LSTM 模型在各项指标中均为最优,在测试集中MAE=137.729,MAPE=4.952%。另外,与RNN 相比,预测精度提高了21.9s左右,精度提高了1.8%左右,证明了LSTM在处理公交行程时间这类长序列问题上的优势;与未融入Attention机制的LSTM 模型相比,预测结果提高了8.7s左右,精度提高了0.4% 左右,再次证明了Attention机制加入的有效性。
2)基于深度循环神经网络的这类模型(Attention⁃LSTM、LSTM 和 RNN)的预测性能明显优于传统的浅层学习方法(BPNN)和决策树类方法(GBRT、XGBoost),其原因在于模型深度和结构的提升能够更全面地捕捉数据中的信息,而循环神经网络类的模型能够很好地利用行程时间的时序性,充分利用历史数据,使得预测精度提高,说明了深度学习在预测问题上的有效性。
5 结 语
本文针对公交行程时间的时序性,提出了融入Attention机制的LSTM预测模型。该模型利用LSTM模块对多维度特征进行捕捉,并通过Attention机制克服了LSTM的局限性,利用模型对复杂信息进行筛选。实验结果表明,LSTM在行程时间预测问题上很有优势,Attention机制的引入,使模型能够自动关注重要的历史时刻,提高了模型的预测精度。同时,与五种常见预测方法相比,证明了该模型具有更高的预测可靠度,说明此方法具有较高的实用价值。
注:本文通讯作者为沈吟东。
参 考 文 献
[1] KUMAR B A,VANAJAKSHI L,SUBRAMANIAN S C. Pattern⁃based time ⁃ discretized method for bus travel time prediction[J]. Journal of transportation engineering, part A:systems,2017,143(6):04017012.
[2] DEESHMA M,VERMA A. Travel time modeling for bus trans⁃port system in Bangalore city [J]. Transportation research,2015,7(1):47⁃56.[3] 张洋,程恩 .基于 ε⁃支持向量机回归的快速公交到站时间预测[J].厦门大学学报(自然科学版),2017,56(3):442⁃448.
[4] BAI C,PENG Z R,LU Q C,et al. Dynamic bus travel timeprediction models on road with multiple bus routes [J]. Compu⁃tational intelligence and neuroscience,2015(3):432389.
[5] 龚越,罗小芹,王殿海,等 .基于梯度提升回归树的城市道路行程时间预测[J].浙江大学学报(工学版),2018,52(3):453⁃460.
[6] 彭新建,翁小雄. 基于萤火虫算法优化BP神经网络的公交行程时间预测[J]. 广西师范大学学报(自然科学版),2017,35(1):28⁃36.
[7] 韩勇,周林,高鹏,等 . 基于 BP 神经网络的公交动态行程时间预测方法研究[J].中国海洋大学学报(自然科学版),2020,50(2):142⁃154.
[8] XIE J M,CHOI Y K. Hybrid traffic prediction scheme for intel⁃ligent transportation systems based on historical and real ⁃ timedata [J]. International journal of distributed sensor networks,2017,13(11):74500.
[9] AGAFONOV A A,YUMAGANOV A S. Bus arrival time pre⁃diction using recurrent neural network with LSTM architecture[J]. Optical memory and neural networks,2019,28(3):222⁃230.
[10] DUAN Y J,YISHENG L V,WANG F Y. Travel time predic⁃tion with LSTM neural network [C]// 2016 IEEE 19th Interna⁃tional Conference on Intelligent Transportation Systems(ITSC). Rio de Janeiro,Brazil:IEEE,2016:1053⁃1058.
[11] 张威威,李瑞敏,谢中教 .基于深度学习的城市道路旅行时间预测[J].系统仿真学报,2017,29(10):2309⁃2315.
[12] 王殿海,汤月华,陈茜,等 . 基于 GPS 数据的公交站点区间行程时间可靠性影响因素[J]. 东南大学学报(自然科学版),2015,45(2):404⁃412.
[13] 王芳杰,王福建,王雨晨,等 .基于 LightGBM 算法的公交行程时间预测[J]. 交通运输系统工程与信息,2018,19(2):116⁃121.
[14] 王志建,李达标,崔夏 .基于 LSTM 神经网络的降雨天旅行时间预测研究[J].交通运输系统工程与信息,2020,20(1):137⁃144.
作者简介:
徐丸絮(1997—),女,江西鹰潭人,硕士研究生,研究方向为深度学习、公交行程时间预测。
沈吟东(1965—),女,安徽合肥人,博士,教授,博士生导师,研究方向为运筹与优化、公共交通规划与调度、智能公交系统。
编辑:黄飞
评论
查看更多