长短期记忆模型在低频数据预测中的应用
一、引言
新冠肺炎疫情发生以来,
经济社会各领域均受到较大冲击。以消费领域为例,2020年1—8月,北京市社零额同比下降14.1%。其中,2020年1—3月,北京市社零额规模缩减明显,同比下降21.5%;2020年4月以来,伴随北京市复工复产的逐步推进和疫情防控形势稳中向好,社零额降幅持续收窄,但恢复过程较为缓慢。
鉴于疫情滞后影响仍然存在,科学构建预测模型评估疫情对消费品市场的影响显得尤为重要。本文利用北京市社零额月度数据,引入3个影响社零额的变量,即常住人口规模、城镇居民人均可支配收入和居民消费价格指数,测算疫情对北京市社零额的影响程度和作用时滞,为后疫情时期支持北京市消费市场发展、促进消费潜力释放提供数据支撑。同时,通过深入分析单变量模型和多变量模型之间的适用性,为时间序列数据的预测分析提供可借鉴思路。
二、文献综述
(一)疫情对经济社会影响的研究
关于疫情对经济社会造成的影响,
国内很多学者都进行过相关研究。如朱迎波等(2003)利用双变量ARIMA 模型,
结合SARS 疫情发生后人们的心理发展变化曲线,研究三类心理发展变化情况下疫情对中国入境旅游人数的影响;孙玉环(2006)重点探讨ARMA 模型在预测SARS 对中国入境旅游外汇收入影响上的作用,并与传统的“同期比”法进行对比,结果表明,ARMA 模型充分考虑了时间序列自身的发展趋势,在测算重大突发事件的影响时比“同期比”法更准确客观。
(二)社会消费品零售总额预测方法研究时间序列分析方法是预测社零额的主要方法,包括自回归协整移动平均模型(ARIMA)、考虑季节影响的ARIMA 乘积模型、灰模型(GM )等。其中,张华初等(2006)使用1978—2004年的月度全国社零额数
摘要:新冠肺炎疫情对中国经济社会发展带来严重冲击,科学构建预测模型评估疫情影响显得尤为重要。本文以北京市社会消费品零售总额(以下简称社零额)为研究对象,分别构建单变量SARIMA 模型和单变量LSTM 模型,同时引入常住人口规模、城镇居民人均可支配收入和居民消费价格指数3个影响社零额的变量,构建多变量LSTM 模型拟合社零额时间序列数据,为低频时间序列数据的预测方法提供思路。结合模型预测效果,选取多变量LSTM 模型,对非疫情影响的2020年北京市社零额进行预测,通过实际值和预测值的对比,探讨新冠肺炎疫情对北京市社零额的影响。关键词:北京市;新冠
肺炎疫情;社会消费品零售总额;LSTM 模型中图分类号:C81
文献标识码:A
文章编号:2096-8647(2021)01-0024-05
DOI:10.13999/jki.tjllysj.2021.01.004作者简介:贺菁伟(1990—),女,北京人,统计师,研究方向为政府统计、经济政策;杨东谕(1992—),男,辽宁沈阳人,统计师,研究方向为商业统计、大数据应用。
贺菁伟1杨东谕2
(1.北京市统计应用研究所,北京100054;2.北京市商业经济调查总队,北京100054)
——
—以新冠肺炎疫情对北京市社会消费品零售总额的影响测算为例
据,构建了同时考虑时序滞后和季节影响的ARIMA 乘积模型,并将2005年全国社零额月度实际值用于模型的预测检验;李庭辉等(2012)引入城镇居民家庭人均可支配收入为自变量,使用经过季节调整的ARIMAX 模型对2002年第一季度至2011年第二季度的社零额数据进行拟合分析,
以拟合相对误差为依据对社零额统计质量进行评估;王志坚等(2014)对我国1953—2010年社零额年度数据进行ARMA 建模,并用该模型预测未来五年社零额的变化情况。
(三)LSTM 模型应用研究
长短期记忆模型(LSTM )是一种改进的循环神经网络模型(RNN),能够记住更长周期的信息,并且规避了RNN 中梯度爆炸和梯度消失的问题,
近年来在自然语言处理、文本分析等领域有较好的应用。同时,相关研究显示,LSTM 在预测领域表现出较强的对时序数据的处理能力。赵军豪等(2018)以微博数据为切入点,提出了融合情感分析和
深度学习的多变量预测模型(SA-LSTM ),结果表明,SA-LSTM 的预测精度显著高于ARIMA、LR、反向传播(BP )神经网络以及单变量LSTM 模型;吴翌琳等(2020)应用传统时间序列模型和神经网络模型,对基于某社交新闻类App 的日广告收入数据进行互联网企业广告收入预测研究,结果表明,基于时间序列和神经网络构建的组合模型对低频数据预测有较强的有效性和适用性。
三尧数据来源和预测模型(一)基础数据来源及数据处理
结合已有研究和统计实践,本文认为影响社零额的因素主要有以下几个方面:
一是人口因素。人是消费的主体和直接参与者,人的衣食住行必然与消费市场相连,
直接或间接影响社零额。通常来说,城市人口越多,其消费需求越旺盛,社零额也会随之增加。同时,人口的结构性变动也会影响社零额规模,主要体现在在总人口规模相似的前提下,城镇化率高的地区,其社零额通常大于城镇化率低的地区,即城镇居民的消费能力普遍强于农村居民。
二是居民消费水平因素。居民消费水平的变化直
接影响社零额,伴随居民收入的增加和生活水平的提高,人们对美好生活的追求推动消费结构升级,改善型、高端型消费需求持续涌现,
拉动社零额不断增长。三是价格因素。消费市场产业链较长,价格传导特点明显,即上中下游任一环节的价格变化,都会影响最终消费品的定价,
进而影响社零额。基于上述分析,我们以北京市统计局公布的数据为基础,
重点选取3个影响社零额的变量,即常住人口规模、城镇居民人均可支配收入和居民消费价格指数,以月度为单位(2008年1月—2019年12月)构建各指标时间序列数据。
由于各指标统计频率不尽相同,本文对4个变量数据分别进行处理:(1)根据公布的2005—2008年社零额1月和2月数据①,分别计算社零额1月和2月平均占比情况,并根据统计经验,将2009—2019年社零额1—2月累计数据换算成月度数据;(2)采用差值法,按月均增速变化对常住人口规模进行增补,形成月度数据;(3)根据公布的2005—2007年城镇居民可支配收入月度数据②,分别计算各月城镇居民可支配收入平均占比
(本年),将2008—2019年城镇居民可支配收入的季度数据和月度累计数据换算成月度数据;(4)将居民消费价格指数进行定基处理。
(二)模型预测方法1.LSTM 模型
LSTM 是一种改进的循环神经网络模型(RNN)。RNN 模型因为可能发生梯度消失现象所以只能短期
记忆。LSTM 在每个序列索引t 时刻向前传播的信息除了和RNN 一样的h t 外,还多了一个细胞状态C t ,并通过遗忘门、输入门和输出门三种门控状态来控制传输状态,可以记住需要长时间记忆的信息,忘记不重要的信息。LSTM 结构及表达式如下:
(1)遗忘门
遗忘门决定从细胞状态中丢弃的信息。表达式为:f t =σ(W f ×[h t-1,x t ]+b f )(1)
(2)输入门
输入门决定加入细胞状态中的新信息。表达式为:i t =σ(W i ×[h t-1,x t ]+b i )
(2)①根据国家统计局制度方法调整,2009年起,1—2月社会消费品零售总额指标按累计进行统计。②根据国家统计局制度方法调整,2008年起,居民收支数据按季度统计。
C ~t =tanh (W C ×[h t-1,x t ]+b C )(3)C t =f t ×C t-1+i t ×C ~t
(4)
(3)输出门输出门确定最终的输出值。表达式为:o t =σ(W o [h t-1,x t ]+b o )(5)h t =o t ×tanh (C t )
(6)
其中,f t 表示需要记忆的信息比例;σ表示sigmoid 激活函数;W 与b 分别表示权重与偏置;h t-1表示上一序列的输出;x t 表示本序列输入;i t 表示需要更新的信息比例;C ~t 表示更新的细胞信息;C t-1表示上一序列的细胞状态;C t 表示本序列的细胞状态;o t 表示需要输出的信息比例;h t 表示本序列的输出。
2.SARIMA 模型
SARIMA 模型在ARIMA 模型的基础上增加了对季节性因素的预测,加入季节性自回归、季节性移动平均和季节差分算子,转换为SARIMA (p,d,q)×(P,D,Q)S 模型,
其表达式为:φρ(B )Φρ(B S )(1-B )d (1-B S )D Y t =c+θq (B )ΘQ (B S
∈t (7)
其中,Y t 为在时刻t 下待预测的时间序列观测值;S 为季节周期长度(月度数据S=12);c 为常量;∈t 为残差序列;B 表示延迟或滞后算子,是原始时间序列观测值X t 滞后k 个周期的符号化体现;φρ(B
)表示p 阶自回归算子;θq (B )表示q 阶移动平均算子;(1-B)d
表示d 阶差分得到的非季节性平稳序列;Φρ(B S )表示P 阶季节性自回归算子;ΘQ (B S )表示Q 阶季节性移动平均算子;(1-B S )D 表示D 阶季节差分得到的季节性平
稳序列。
(三)模型评价指标选择
我们选取均方根误差(RMSE )和平均绝对百分比误差(MAPE)两个评价指标度量模型的预测能力。其中,RMSE 偏向于呈现模型整体的预测效果,常用于机器学习模型预测结果衡量的标准,
值越小表示预测效果越好。但由于社零额数据量级较大,
而测试集数据样本较小,因此本文利用MAPE 指标(值越小表示预测效果越好),通过计算误差在真实值中的占比情况,比较不同模型的预测准确性,进一步分析各模型预测效果。
RMSE=
1n
∑n i=1(y i -y ^i
)2√
(8)
MAPE=1n ∑n i=1y i -y ^i y i
×100(9)
其中,y i 是第i 个测试样本的真实值,y
^i 是第i 个测试样本的预测值,n 代表测试样本数量。
四尧实证结果与分析
本文通过建立单变量SARIMA 模型、单变量LSTM 模型和多变量LSTM 模型预测社零额。其中,单变量SARIMA 模型、单变量LSTM 模型只考虑社零额的时间序列数据;
多变量LSTM 模型引入影响社零额的3个变量,对社零额进行预测。
(一)SARIMA 模型预测
基于R 语言,选取2008年1月—2019年12月的社零额数据,
其中,利用2008年1月—2018年12月社零额建立SARIMA 模型,取2019年1—12月社零额作为测试集。第一步,通过ADF 单位根检验对原始序列进行平稳化处理,初步确定模型的差分d=1,季节性差分D=1。第二步,
绘制平稳化序列的ACF 和PACF 图,初步确定p、q、P、Q 的取值范围。第三步,采用低阶到高阶逐步实验的方法,根据AIC 准则检验和Ljung-Box 检验,确定拟合度最优模型SARIMA (1,1,1)×(0,1,0)12,预测出2019年1—12月社零额。
(二)LSTM 模型预测
1.单变量LSTM 模型预测。
基于Python 语言,利用单变量LSTM 模型进行预测,
选取2008年1月—2019年12月的社零额数据。第一步对数据进行归一化处理。第二步取2008年1月—2018年12月的社零额数据作为训练集,取2019年1—12月的社零额数据作为测试集。由于LSTM 具有记忆功能,本文在构建模型时将时间阶数设置为12,即认为每一时期的社零额与它前面12期(即1年)的社零额是相关的。故我们令模型的输出变量y t 为每一时期t 的社零额数据,令模型的输入变量X t 为它前面相邻12期的社零额数据,进而预测出单变量LSTM 模型中2019年1—12月社零额。
2.多变量LSTM 模型预测。对多变量LSTM 模型,选择2008年1月—2019年12月的社零额、常住人口规模、城镇居民人均可支配收入和居民消费价格指数数据。建模步骤与单变量LSTM 模型基本一致,其中,令模型的输出变量y t 为每一时期t 的社零额数据,令
模型的输入变量X t 为它前面相邻12期的社零额、常住人口规模、城镇居民人均可支配收入和居民消费
价格指数数据。由于该模型引入了影响社零额的3个变量,我们先将3个变量2008年1月—2018年12月的数据作为训练集,
分别建立单变量LSTM 模型,预测出3个变量2019年1—12月的值,进而预测多变量LSTM 模型中2019年1—12月的社零额。
(三)模型预测效果对比分析
利用模型评价指标,通过对模型效果的预测进行比对(见表1),可以得出如下结论:
表1各模型预测效果对比
注:2019年1月和2月真实值根据2019年1—2月累计值换算得出。附图模型预测效果对比图
(亿元)
1.LSTM 模型的预测效果好于SARIMA 模型。单变量LSTM 模型的RMSE 指标值小于单变量SARIMA
模型,即单变量LSTM 模型在精准性和稳定性上优于单变量SARIMA 模型。同时,单变量LSTM 模型MAPE 指标值更小,可以得出,基于本文数据建立的单变量LSTM 模型效果好于单变量SARIMA 模型,即在数据颗粒度较粗、数据量较小的情况下,LSTM 模型仍能显
示出较好的预测效果。
2.多变量模型优于单变量模型。单变量和多变量LSTM 模型的MAPE 指标值相近,多变量LSTM 模型RMSE 指标值小于单变量LSTM 模型,可以得出,基于本文数据建立的多变量LSTM 模型在测试集上的预测效果好于单变量LSTM 模型,引入的3个变量对社零额均有显著影响。
受新冠肺炎疫情影响,2020年1—8月,北京市社零额累计损失1012.8亿元。其中,在疫情暴发初期,即较为严重的一季度,北京市社零额累计损失703亿元,占累计总损失额的69.4%。随着全国疫情防控形势持续向好、北京市复工复产稳步推进、各类促消费政策有序出台等,2020年二季度以来,北京市社零额损失额逐月减少。2020年1—8月,北京市社零额实际值较预测值降低13.2%,降幅较2020年一季度收窄11.3个百分点。
六、结论与启示
本文以社零额指标为例,通过传统时间序列模型(SARIMA)和神经网络模型(LSTM),预测新冠肺炎疫情对北京市社零额的影响。在模型构建上,引入多维变量,建立多变量LSTM模型。模型预测结果显示,基于本文建立的时间序列数据,LSTM模型可以发挥神经网络优势,预测效果优于SARIMA模型。多变量LSTM模型的预测效果优于单变量LSTM模型,且引入的3个变量对社零额有显著影响。最后,利用拟合度较好的多变量LSTM模型,对2020年北京市社零额排除新冠肺炎疫情影响进行预测,结果表明,疫情对北京市社零额的负面影响逐渐减弱。
长短期记忆模型在处理复杂数据的应用效果普遍优于传统时间序列模型,但在处理低频率数据上较难体现其优势。本文引入多维变量,通过优化调整模型参数,证明了长短期记忆模型在处理传统时间序列数据方面仍可发挥较好的预测效果,为提升传统统计模型预测的准确性提供了经验。◆
参考文献:
[1]吴翌琳,南金伶.互联网企业广告收入预测研究——
—基于低频数据的神经网络和时间序列组合模型[J].统计研究,2020(05):94-103.
[2]赵军豪,李玉华,霍林,等.融合微博情感分析和深度学习的宏观经济预测方法[J].计算机应用,2018(11): 3057-3062.
[3]唐军.“十三五”时期北京市社会消费品零售总额的预测[J].经济统计学(季刊),2015(01):144-151. [4]王志坚,王斌会.基于ARMA模型的社会消费品零售总额预测[J].统计与决策,2014(11):77-79.
[5]李庭辉,许涤龙.基于匹配性的社会消费品零售总额数据质量评估研究[J].统计与决策,2012(08):24-27. [6]孙玉环.ARMA模型在测算重大突发事件影响中的应用[J].统计与决策,2006(14):24-26.
[7]张华初,林洪.我国社会消费品零售额ARIMA预测模型[J].统计研究,2006(07):58-60.
[8]朱迎波,葛全胜,魏小安,等.SARS对中国入境旅游人数影响的研究[J].地理研究,2003(05):551-559. [9]翟志宏,王贵銮.哪些因素影响了社会消费品零售总额的增长[EB/OL].[2002-07-02].v. cn/ztjc/ztfx/fxbg/200207/t20020712_14104.html.
北京疫情最新数据日期2020年1—2月2020年1—3月表22020年北京市社零额实际值与预测值比较
五、基于多变量LSTM模型的社零额预测分析
结合模型预测对比分析结果,我们利用多变量LSTM模型,预测非新冠肺炎疫情影响下2020年北京市社零额月度变化情况,探讨新冠肺炎疫情对北京市社零额的影响。
国家统计局根据第四次全国经济普查数据结果对全国及各省、自治区、直辖市2019年社会消费品零售
总额进行了修订,本文根据2019年公布的社零额数据和2020年社零额同比增速情况,对2020年社零额实际值进行调整。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。