SARFIMA模型在肾综合征出血热发病预测中的应用
齐畅1刘利利1李春雨1朱雨辰1张丹丹1王志强2李秀君「△
【提要】目的研究季节性自回归分数差分移动平均(SARFIMA)模型预测肾综合征岀血热(HFRS)发病率的效果,并与SARIMA模型进行比较。方法收集山东省2009年1月至2018年12月HFRS月发病数据,考虑时间序列的短记忆性和长记忆性,构建SARFIMA模型,以SARIMA模型作为对比,比较两个模型的预测准确性。结果山东省2009-2018年HFRS月发病率具有明显周期性和季节性特征。模型评估表明,SARFIMA模型具有更好的拟合度和预测能力。SARFIMA(1,0.33,3)(l,0,0)12:AIC=-629.76;RMSE=0.028;SARIMA(1,0,3)(1,1,0)12:AIC=-356.43;RMSE= 0.033。结论SARFIMA模型能较好地拟合山东省HFRS月发病率的动态变化,且预测效果优于SARIMA模型。因此,SARFIMA模型可用于HFRS发病率的预测。
【关键词】时间序列分析季节性自回归分数差分移动平均季节性自回归移动平均肾综合征岀血热预测【中图分类号】R181【文献标识码】A DOI10.3969/j.issn.1002-3674.2021.01.004
Application of SARFIMA Model in Predicting Incidence of Hemorrhagic Fever with Renal Syndrome
Qi Chang,Liu Lili,Li Chunyu,et al(Department of Biostatistics,School of Public Health,Cheeloo College of Medicine, Shandong Univers ity(250012),Jinan)
[Abstract]Objective To explore the effect of seasonal autoregressive fractional moving average(SARFIMA)model to predict the incidence of hemorrhagic fever with renal syndrome(HFRS),and compare it with SARIMA model.Methods The monthly incidence data of HFRS in Shandong Province from January2009to December2018were collected,and the short­term and long-term memory of the time series was considered to construct a SARFIMA model.The SARIMA model was used to compare with SARFIMA.Results During the study period,the time series of HFRS in Shandong Province has obvious periodic and seasonal characteristics.The fitting and forecast effect of SARFIMA model was better than SARIMA.SARFIMA (1,0.33,3)(1,0,0)12:AIC=-629.76;RMSE=0.028;SARIMA(1,0,3)(IJ,。)—AIC=-356.43;RMSE=0.033. Conclusion SARFIMA model can be used to predict the incidence of HFRS.
[Key words]Time series analysis;SARFIMA;SARIMA;Hemorrhagic fever with renal syndrome;Prediction
肾综合征出血热(hemorrhagic fever with renal syndrome,HFRS)是一种自然疫源性疾病,在世界各地广泛流行,并且报告HFRS的国家数量不断增加*[1]。中国是疫情最严重的国家[2],其中山东省自1962年报告第一例HFRS以来,一直是发病最严重的地区之一[3]。时间序列分析被广泛用于传染病预测研究[4-6],其中,季节性自回归移动平均(seasonal autore­gressive integrated moving average,
SARIMA)模型已用于预测许多传染病的短期波动[7-9]。SARIMA模型的数据准备和操作相对简单易行,定量预测结果较为准确[10]。然而,在许多时间序列中存在长记忆过程[11],尽管长期观测值之间的相关性很小,但在分析时不应被忽略[12-13]。季节性自回归分数差分移动平均(sea-sonal autoregressive fractionally integrated moving aver­age,SARFIMA)模型同时考虑了序列的短记忆性和长
*基金项目:国家自然科学基金(81673238);国家重点研发计划项目(2019YFC1200500,2019YFC1200502)
1.山东大学齐鲁医学院公共卫生学院生物统计学系(250012)
2.山东省疾病预防控制中心传染病防治所
△通信作者:李秀君,E-mail:xjli@sdu.edu 记忆性,有助于提高模型拟合和预测的准确性[⑷。
本研究将SARFIMA模型应用于HFRS月发病率序列,同时考虑序列的短记忆性和长记忆性以进行更准确的预测。
资料与方法
1.研究资料
收集山东省2009年1月至2018年12月HFRS 的发病报告数据,数据来源于山东省疾病预防控制中心疾病报告信息系统。病例诊断标准为《流行性出血热诊断标准》(WS278-2008)。人口数据来源于《山东统计年鉴》。
2.SARFIMA模型介绍
ARFIMA模型由Granger于1980年提出[15-16], Porter-Hudak于1990年对其进一步扩展,提出了SARFIMA模型[17]。长记忆性序列的自相关函数的衰减比短记忆性序列所具有的几何衰减慢,称为双曲线衰减。SARFIMA模型允许对序列进行分数差分,从而使差分参数d可以采用分数值,同时考虑了序列的季节性。
简单分数差分的季节性类似模型如下:
(1-B s)%"t(1)其中d是分数差分分量,d e(-0.5,0.5),将模型(1)推广为具有分数差分季节性分量的模型,即SARFI­MA模型,可以表示为:
(1-B s)d O(B)兀=0(B)s t(2)其中0(B)和0(B)分别是自回归多项式和移动平均多项式(均包括季节分量)。d取整数值时将简化为SARIMA模型。对于平稳过程,d在-0.5到0.5之间变化,其中d=0表示短记忆性,-0.5<d<0表示中期记忆性,0<d<0.5表示长记忆性[18]。Hurst指数(H)可以度量时间序列的长记忆
性,它与时间序列的自相关及其随滞后的增加而减小的速率有关[19]。d 与H之间的关系为:d=H-0.5;如果H>0.5,则表示一个长记忆性时间序列[20]。
3.建立模型
山东省2009年1月至2018年12月HFRS月发病率根据山东省同期人口数求得。用Hurst指数检验HFRS月发病率序列的长记忆性。如果序列具有足够强的长记忆性,则可以构建SARFIMA模型。绘制HFRS月发病率的时序图,并用单位根检验(Augmen­ted Dickey-Fuller,ADF)判断其是否平稳,若为非平稳序列,通过差分转换为平稳序列后,用季节性分解查看序列的季节性[21]。计算自相关系数(autocorrelation function,ACF)和偏自相关系数(partial autocorrelation function,PACF),确定模型阶数。在SARFIMA模型的拟合函数中指定模型阶数和季节性分量。基于存在多种模式的假设,SARFIMA拟合函数将从多个起点开始优化,通过比较对数似然值得到最优模型[20]。同时建立SARIMA模型,利用赤池信息准则(Akaike in­formation criterion,AIC)比较两者的拟合优度。建模步骤如图1。
4.统计学处理
采用R软件(3.6.0版)进行统计分析,统计建模采用“arfima”和“ts”程序包。2009年1月至2017年12月的数据用于构建模型,2018年1月至12月的数据用于验证预测。假设检验的水准为0.05。
结果
山东省2009-2018年HFRS月发病率呈现明显的周期性和季节性(图2)。2010年2月发病率最低,为0.02/10万,2012年11月发病率最高,为0.48/10万。ADF检验表明原序列平稳(Dickey-Fuller= -3.95,P=0.01),不需要进行差分。原序列的ACF 和PACF图显示了季节性滞后的缓慢衰减(图3)。使用季节性差分(在滞后12个周期后减去观测值)消除季节性特征。季节差分序列的ACF和PACF有一些明显的峰值。由此确定AR(p)和MA(q)的阶数。Hurst指数(H=0.68>0.5)表明HFRS序列具有较强的长记忆性。SARFIMA模型计算了非季节性和季节性分数差分参数,并通过比较模型的对数似然值,得到SARFIMA拟合的最佳模型SARFIMA(1,0.33,3)(1, 0,0)12,AIC=-629.76,模型表达式为(1+0.959B) (1-0.305B12)(1-B)0.325兀=(1+1.590B+0.611B2 -0.020B3)s t。残差图和Ljung-Box检验表明残差是白噪声。作为对比,我们同时构建了SARIMA模型SARIMA(1,0,3)(1,1,0)12,AIC=-356.43。
(A)0.5「
4
.3
.2
.1O
a
o.a
o.
G0I
二)
<
<
/
图1SARFIMA模型建模步骤B)
时间(年)
图2山东省2009-2018年HFRS月发病率时
序图与季节性分解图
图3序列自相关图(ACF)和偏自相关图(PACF)
图4显示了两个模型的拟合与预测效果,从图中可以看出,两个模型的拟合值与原序列的接近程度相当。
SARFIMA模型的预测趋势比SARIMA更接近实际值,95%置信区间比SARIMA窄,并且其区间覆盖了所有实际值。通过RMSE、MAE和MAPE对两个模型的比较,可以发现SARFIMA模型对HFRS序列的预测更准确(表1)o
表1SARFIMA和SARIMA模型的准确性比较
RMSE MAE MAPE SARFIMA(1,0.33,3)(1,0,0)120.0280.01720.118
SARIMA(1,0,3)(1,1,0)120.0330.02122.297
讨论
山东省是我国HFRS发病最多的省份之一,分析预测山东省HFRS的发病趋势具有重要的公共卫生意义,可以为疾病防控提供依据。时间序列将各种因素的综合效应归于时间变量中,根据历史数据随时间变化的规律,建立模型进行外推[22]O SARIMA模型是常见的时间序列分析方法之一,被广泛用于传染病预测。对于具有长记忆性的时间序列,SARFIMA可能比SA­RIMA模型的预测更为准确[23]O本研究分析了山东省HFRS月发病率的季节性与长期趋势,并对SARI­MA与SARFIMA模型的预测效果进行了比较。
基于足够的观察(观测值大于50)所构建的时间序列模型可以获得较为满意的预测结果[10]o若观测数较少,则参数估计效果较差。对于SARFIMA模型,应考虑数据的时间跨度大,并且其长期记忆性较强。
在我们的研究中,用于构建模型的HFRS数据的长度为108,时间跨度为2009年1月至2017年12月,Hurst指数显示其长记忆性较强。山东省HFRS月发病率的季节性明显,存在一个较高的秋冬峰与一个较低的春峰。研究中的两个模型均考虑了季节性成分,并取得了良好的拟合效果。模型构建的结果表明,在模型拟合中考虑分数差分的SARFIMA模型优于SA­RIMA模型,AIC差值为73.33,拟合效果得到了提升。通过比较两个模型的精度指标可以发现,SARFIMA 的预测效果明显优于SARIMA。
Granger和Joyeux提出,ARFIMA可能会提供更好的长期预测[11]。因此,我们对HFRS月发病率进行了长期预测(以3年预测为例),SARFIMA与SARI­MA的长期预测准确性相当,SARFIMA的长期预测没有明显优势,超过12步(1年)的预测值比真实值要低,偏差较大。可能根据历史数据进行估算的模型,预测时间越长,预测误差越大[24],此外我们的数据有限,根据更多的观测数据得到的长期预测结果可能更好,传染病受多种因素影响,进行长期预测时,变动分量会更大。
SARFIMA模型作为时间序列分析方法,有其自身的局限性。由于HFRS等传染病受多种因素的影响,各种影响因素随时间而不断变化,所以SARFIMA 模型更适用于影响因素较为稳定的短期预测。因为模型无法将影响发病的其它因素纳入模型,所以其预测精度有限。在以后的研究中,可以将SARFIMA-X模型与其他外生解释变量进行拟合[25],或者与其他预测模型相结合[11],作进一步的探索。
本研究通过对山东省HFRS月发病率数据建立SARFIMA模型进行拟合及预测,并与SARIMA模型进行比
较,证实了SARFIMA模型能较好地拟合山东省HFRS月发病率的动态变化,且预测效果优于SA­RIMA模型,可用于HFRS发病率的短期预测。
参考文献
[1]Tian H,Stenseth NC.The ecological dynamics of hantavirus disea­ses:From environmental variability to disease prevention largely based on data from China.PLoS Negl Trop Dis,2019,13(2): e0006901.
[2]郑兆磊,王珮竹,许勤勤,等•山东省2010-2016年肾综合征出血
热流行与时空分布特征分析.中华流行病学杂志,2018,39(1):58-62.
[3]刘勇,刘静,翟文济,等.2008-2011年山东省肾综合征出血热流
行状况及其防治对策•预防医学论坛,2012,18(2):107-109.
[4]李秀君,康殿民,曹杰,等.时间序列模型在肾综合征出血热发病
率预测中的应用•山东大学学报(医学版),2008,46(5):547-549.
[5]丁磊,丁淑军,张萌,等•应用时间序列分析研究秋冬型恙虫病时
间分布特征及趋势.中华流行病学杂志,2012,33(7):698-701. [6]Rasmussen IS,Mortensen LH,Krause TG,et al.The association be­
tween seasonal influenza-like illness cases and foetal death:a time se­ries analysis.Epidemiology and Infection,2018:1-7.
[7]杨其松,朱蒙曼,张天琛,等.ARIMA模型在宜春市肾综合征出血
热发病率预测中的应用.中国卫生统计,2018,35(5):713-719. [8]李润滋,章涛,梁玉民,等.SARIMA模
型在流行性腮腺炎发病预
测中的应用•山东大学学报(医学版),2016,54(9):82-86.
[9]张静,刘志东,劳家辉,等•基于时间序列分解法预测肾综合征出
血热发病趋势和季节性.中国公共卫生,2018,34(7):1038-1041.
[10]Cryer JD,Chan KS.Time Series Analysis:With Applications in R.
New York:Springer Science,2008.
[11]Javedani SH,Enayatifar R,Guimaraes FG,et al.Combining ARFIMA
models and fuzzy time series for the forecast of long memory time se­ries.Neurocomputing,2016,175(Part A):782-796.
[12]Hosking JRM.Fractional differencing.Biometrika,1981,68(1):
165-176.
[13]张世英,刘菁•长记忆性时间序列及其预测•预测,1999,(3):49-50.
[14]Choi K,Hammoudeh S.Long Memory in Oil and Refined Products
Markets.Energy Journal,2009,30(2):97-116.
[15]Granger CWJ.Long Memory Relationships and the Aggregation of
Dynamic Models.Journal of Econometrics,1980,14:227-238.[16]Granger CWJ,Joyeux R.An introduction to long-memory time series
models and fractional differencing.Journal of Time Series Analysis, 1980,1(1):15-29.
[17]Porter-Hudak S.An Application of the Seasonal Fractionally Differ­
enced Model to the Monetary Aggregates.Journal of the American Statistical Association,1990,85(410):338-344.
[18]Beaulieu C,Killick R,Ireland D,et al.Considering long-memory
when testing for changepoints in surface temperature:A classification approach based on the time-varying spectrum.Environmetrics,2019:e2568.
[19]Hurst HE.Long-term storage capacity of reservoirs.Transactions of
the American Society of Civil Engineers,1951,116:770-808. [20]Veenstra JQ.Persistence and Anti-persistence:Theory and Software.
The School of Graduate and Postdoctoral Studies,Western Universi-ty,2013.
[21]Hillmer SC,Tiao GC.An ARIMA-Model-Based Approach to Season­
al Adjustment.Journal of the American Statistical Association,1982, 77(377):63-70.
[22]彭志行,鲍昌俊,赵杨,等.ARIMA乘积季节模型及其在传染病发
病预测中的应用•数理统计与管理,2008,27(2):362-368.
[23]Bhardwaj G,SwansonNR.An empirical investigation of the useful­
ness of ARFIMA models for predicting macroeconomic and financial time series.Journal of Econometrics,2006,131(1-2):539-578.
[24]王燕•应用时间序列分析(第四版).中国人民大学出版社,2015.
[25]Bos CS,Franses PH,Ooms M.Inflation,forecast intervals and long-
memory regression.International Journal of Forecasting,2002,18
(2):243-264.
(责任编辑:邓妍)
(上接第13页)
参考文献
[1]任涛,吕筠,余灿清,等•疫情后时代我国公共卫生教育和人才队
伍建设的思考.中华预防医学杂志,2020,54(5):457464.
[2]黄宏,刘晓冬•新型冠状病毒肺炎疫情下对公共卫生人才队伍建
设的再思考•温州医科大学学报,2020,50(4):268-271.
[3]李颖,李莉,牛玉存,等.国家新型公共卫生与预防医学体系建立
的几点思考•中华预防医学杂志,2020,54(5):469474.
[4]Sullivan LM,Velez A,Edouard VB,et al.Realigning the Master of
Public Health(MPH)to Meet the Evolving Needs of the Work­force.Pedagogy in Health Promotion,2018,4(4):301-311.
[5]李长坤•基于灰关联分析与因子分析法的卫生资源配置水平综
合评价方法研究.中国卫生统计,2019,36(4):541-544.
[6]曹佳,李颖•新冠肺炎疫情下军队疾病预防控制体系建设和公共
卫生应急人才培养的思考•第三军医大学学报,2020,42(9):855-860.
[7]李菊梅,曹严华•我国全日制公共卫生硕士专业学位研究生培养
模式现状分析与优化.中华医学教育杂志,2016,36(3):456459.
[8]任涛,吴瑶,宋菁,等•中国公共卫生与预防医学专业研究生实践
应急处理能力的供需矛盾分析.中华预防医学杂志,2019(8):
855-857.
[9]高静,罗敏,胡月•导师资本何以影响研究生培育质量:6城市15
所高校的数据•教育学报,2018,14(6):97-105.
[10]王红,欧阳宗书,袁雯,等•深化专业学位研究生教育综合改革提
高专业学位研究生培养质量•学位与研究生教育,2016,0(1):7-
24.
[11]胡春平,刘斯伟,许烨婧•研究生教育质量影响因素分析•吉林省
教育学院学报:上旬,2016,0(6):105-111.
[12]刘星,何纳,汪玲,等.以健康为中心的公共卫生硕士培养模式探
索•上海预防医学,2018,30(10):803-808.
[13]杨莉,孙美平,刘慧慧,等•我国高校专业硕士研究生双导师制的
发展与启示.中国继续医学教育,2019,11(15):9-11.
[14]Zwanikken PAC,Huong NT,Ying XH,et al.Outcome and impact of
Master of Public Health programs across six countries:education for change.Human Resources for Health,2014,12(1):1-10.construct用法
[15]Harvey M,McGladrey M.Explaining the origins and distribution of
health and disease:an analysis of epidemiologic theory in core Master of Public Health coursework in the United States.Critical Public Health,2019,29(1):5-17.
(责任编辑:郭海强)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。