疾病监测  2014, Vol. 29 Issue (10): 827-832

扩展功能

文章信息

胡跃华, 廖家强, 冯国双, 郭莹, 于石成, 马家奇
HU Yue-hua, LIAO Jia-qiang, FENG Guo-shuang, GUO Ying, YU Shi-cheng, MA Jia-qi
自回归移动平均模型在全国手足口病疫情预测中的应用
Application of multiple seasonal autoregressive integrated moving average model in prediction of incidence of hand foot and mouth disease in China
疾病监测, 2014, 29(10): 827-832
Disease Surveillance, 2014, 29(10): 827-832
10.3784/j.issn.1003-9961.2014.10.018

文章历史

收稿日期:2014-05-16
自回归移动平均模型在全国手足口病疫情预测中的应用
胡跃华1, 廖家强2, 冯国双1, 郭莹3, 于石成1, 马家奇1    
1. 中国疾病预防控制中心信息中心卫生统计室, 北京 102206;
2. 四川大学华西公共卫生学院卫生统计教研室, 四川 成都 610041;
3. 北京协和医学院公共卫生学院, 北京 100006
摘要目的 探讨应用时间序列基于季节性差分的自回归移动平均模型(autoregressive integrated moving average,ARIMA)预测全国手足口病的发病情况。方法 利用“中国疾病预防控制信息系统”中的“疾病监测信息报告管理系统”(又称“传染病疫情信息网络直报系统”)的资料,应用SPSS 19.0统计软件、采用ARIMA,对全国2009年1月至2012年12月手足口病逐月发病情况进行建模和拟合,利用所得到的模型对2013年1-6月的发病情况进行预测,并评价其预测效果。结果 分析结果显示,手足口病发病以年为周期,1年中5-6月为高发月。非季节移动平均参数滞后两次后为0.532,t检验的P值为0.003,差异有统计学意义。BIC=21.955,Ljung-Box统计量检验残差序列为白噪声序列。最佳ARIMA(0,1,2),(0,1,0)12预测的平均相对误差为0.52,预测效果一般。按照不同发病模式分为两层后分别建立ARIMA,平均相对误差为0.12,预测效果好。结论 对监测数据进行时间序列分析是用于传染病预测的一个重要的工具。分析发现中国不能用一个ARIMA拟合手足口病资料,因地区间发病的变异和模式不同;按手足口病的发病模式将各省分为单峰和双峰两层, 分别拟合ARIMA,模型拟合效果更好。
关键词自回归移动平均模型     手足口病     预测    
Application of multiple seasonal autoregressive integrated moving average model in prediction of incidence of hand foot and mouth disease in China
HU Yue-hua1, LIAO Jia-qiang2, FENG Guo-shuang1, GUO Ying3, YU Shi-cheng1 , MA Jia-qi1     
1. Chinese Center for Disease Control and Prevention, Beijing 102206, China;
2. Huaxi Public Health School, Sichuan University, Chengdu 610041, Sichuan, China;
3. Public Health School, Peking Union Medical College, Beijing 100006, China
Abstract:Objective To predict the incidence of hand foot and mouth disease(HFMD)in China by using multiple seasonal autoregressive integrated moving average(ARIMA)model, and provide scientific evidence for the improvement of HFMD prevention and control. Methods The ARIMA model was established based on the monthly case numbers of HFMD in China from January 2009 to June 2013,which was collected from national disease reporting information system, by using SPSS 19.0 software. The model was used to predict the incidence of HFMD during January-June 2013. Results The annual incidence peak of HFMD occurred during May-June. There were significant difference between the fitted multiple seasonal moving average coefficients and the non-seasonal moving average coefficients(0.532). Through the test of parameters and goodness of fit as well as white-noise residuals, we established the ARIMA(0,1,2)(0,1,0)12, of which Bayesian Information Criterion(BIC)=21.955 and the mean error of the model was 0.52. The model was not fitted well. After the provinces were categorized into two strata by the incidence pattern of HFMD, the ARIMA was employed to fit two models respectively, the prediction was improved and the mean error of the model was 0.12. Conclusion Time series analysis for historical reporting data is an important tool for communicable disease surveillance. ARIMA model is suitable to predict the incidence of HFMD in China, but due to the different incidence patterns of HFMD in different provinces the prediction can be improved by fitting different ARIMA model.
Key words: Autoregressive integrated moving average     Hand foot and mouth disease     Prediction    

手足口病(hand food and mouth disease,HFMD)是由多种肠道病毒引起的常见传染病,以婴幼儿发病为主。近几年来,中国HFMD疫情呈现发病强度高、高峰持续时间长、疫情分布广泛等特点。2008年5月2日HFMD正式纳入丙类传染病管理,各级医疗机构须按照《中华人民共和国传染病防治法》和《传染病信息报告管理规范》的有关规定进行网络直报。HFMD已不再是一种陌生的疾病,从研究趋势可见,随着社会的发展以及人们健康和保健意识的提高,人们不仅满足于掌握和了解HFMD的传播规律,更期望能准确预测不同情况下HFMD的传播特征和流行趋势。由于传染病在时间、空间上具有特定的分布模式,且其分布特征随自然与社会环境等因素的变化而变化,而在不断出现的各种新因素干扰下,HFMD的传播规律变得更为错综复杂,尽管国内外专家在HFMD治疗和防制取得了一定进展,但不同时期、不同地区发生的肠道病毒感染往往呈现不同的流行特点,包括临床特征都有着或多或少的差异,目前缺少全国范围和更长时间跨度的流行病学研究,在人群中的流行模式也没有形成一套完整的理论,对HFMD进行可靠的预测,对于HFMD的科学防控具有重要的指导意义。HFMD资料是一个与时间有关的序列,利用这一资料,建立时间序列的模型,可以较好地对其发病进行预测和监测。及时发现异常,并采取相应的控制措施,可以达到使HFMD的危害降到最低的目的。本文采用自回归移动平均模型(autoregressive integrated moving average model,ARIMA)对全国HFMD的发病数进行时间序列分析并建立预测模型,为HFMD预防控制提供科学依据。 1材料与方法 1.1资料来源

2009年1月1日至2013年6月30日HFMD监测数据:来源于“中国疾病预防控制信息系统”中的“疾病监测信息报告管理系统”(“传染病疫情信息网络直报系统”),以发病日期为标准日期,以月为基本时间统计单位计算各年HFMD发病数。 1.2方法

数据存储和数据管理采用Excel 2010、SPSS 19.0、SAS 9.2软件;应用SPSS 19.0软件对资料进行统计分析。 1.3时间序列模型

ARIMA的建模过程按以下阶段进行[1, 2]:①序列特征及平稳化:应用时间序列图、自相关系数函数图(ACF图)、偏自相关系数函数图(PACF图)分析序列特征(趋势性、季节性)及平稳性。若序列平稳,进行平稳序列的时间序列分析; 若序列不平稳,结合本文序列特征,采用了普通差分和季节性差分等合适的数据预处理方法,实现序列平稳化后进行分析。本研究中对发病数序列进行1次差分和1次季节性差分,使最终所分析的序列为平稳化序列。②模型的识别:根据ACF图、PACF图和SPSS模型拟合结果,进行模型的初步识别和定阶。③参数估计和模型诊断:利用非线性最小二乘法估计模型参数。参数估计后,对模型的残差序列进行白噪声检验,用以判断ARIMA的适合性。对于残差而言相互独立就为白噪声,原假设是数据是相互独立分布的,如果P足够大则接受原假设,认为残差相互独立,为随机性误差,说明ARIMA模型比较适合,不需要重新选择模型。依据赤池信息量准则(Akaike information criterion,AIC)和贝叶斯信息准则(Bayesian Information Criterions,BIC)确定模型阶数,如不恰当则返回第二阶段,重新选定模型。通过不断改变模型的阶数并调试比较,确定残差序列为白噪声,AIC与标准化BIC值最小且模型较为简洁的为最佳模型。④预测应用:根据HFMD春季高发,以及ARIMA短期预测效果好的特点,用选定的模型对2013年1 6月HFMD发病数做预测并与实际发病数进行比较,以此验证模型的效果。 2结果 2.1HFMD流行趋势及空间分布分析

对全国资料2009年1月1日至2012年12月31日的HFMD发病数绘制时序分布图(图 1)。由图 1可以看出,HFMD 全年各月均有发病,从2010年开始,发病数呈现上升趋势。每年发病数从4月开始上升,5 6月出现峰值,次年1 2月发病数最低。2011年12月出现小高峰。以春季发病为主,具有明显的季节性。

图 1 2009年1月31日至2012年12月31日 全国HFMD发病数时序分布 Figuer 1 Time distribution of HFMD cases in China, 1 January 2009-31 December 2012
2.2模型识别

2009年1月1日至2012年12月31日全国HFMD发病数序列存在明显的季节性趋势,季节性周期为12个月。为不平稳序列,需进行差分处理使其平稳化。对发病数序列进行1次差分和1次季节性差分,序列做自相关分析图(即ACF图,图 2)和偏相关分析图(即PACF图,图 3),ACF图显示相关系数在延迟数目>2的时候均落入置信区间并逐渐趋于0,说明该时间序列具有平稳性。PACF图显示偏自相关系数序列均接近0,只有两个相对偏离,可初步判断该序列用于二阶移动平均模型。

图 2 原始时间序列经一阶差分和一阶季节性差分后的ACF图 Figuer 2 Time series after the first order difference and first-order seasonal difference of ACF

图 3 原始时间序列经一阶差分和一阶季节性差分后的PACF图 Figuer 3 Time series after the first order difference and first-order seasonal difference of PACF
2.3参数估计与诊断检验

根据数据季节性的特征以及对PCAF图的分析初步判断模型为ARIMA(p,1,2)(P,1,Q)12,模型的参数采取从低阶到高阶逐个进行尝试的办法。备选模型的拟合优度检验经过多次试验,根据模型的检验结果和参数之间的相关性进行调试、检验,选取AIC值和标准化BIC值最小和R2最大的模型为最佳模型。模型ARIMA(0,1,2)(0,1,0)12的R2=0.784表明方程拟合度很好。AIC值=10.288标准化BIC值=21.955,在拟合的所有模型中最小。采用Ljung-Box方法检验残差白噪声,残差序列的自相关系数及偏相关系数均在95%CI以内(图 4),残差为白噪声;Ljung-Box统计量为11.074,P=0.805,表明残差为随机性误差;且模型中的参数检验具有意义(表 1)。因此,ARIMA(0,1,2)(0,1,0)12模型为最优模型。

图 4 模型拟合优度检验的残差自相关、偏自相关系数 Figuer 4 Coefficient of residual ACF and residual PACF by model test of goodness of fit

表 1 全国HMFD发病数的ARIMA模型参数估计 Table 1 ARIMA model parameter estimation of national HMFD incidence
参数估计值标准误t值P值
常数-114.9774177.948-0.0280.978
差分1---
MA 滞后10.0100.1640.0600.953
MA滞后20.5320.1663.2120.003
季节性差分1---
2.4预测

按照ARIMA建模方法,对全国2009年1月1日至2012年12月31日的HFMD发病数建模,并用该模型对全国2013年1月1日至2013年6月30日发病数进行预测,得到预测数据(表 2),预测的平均 相对误差为0.52。模型拟合图(图 5)可 见预测值与观测值相比虽然趋势相同但是具体预测值与观测值相差较大。可见ARIMA(0,1,2)(0,1,0)12模型的预测效果一般。

图 5 ARIMA(0,1,2)(0,1,0)12模型拟合图 Figuer 5 Fitting of ARIMA(0,1,2)(0,1,0)12 model

表 2 2013年1月1日至2013年6月30日观测值与预测值的比较 Table 2 Observed value and predicted value, 1 January-30 June 2013
月份观测值预测值绝对误差相对误差
157 511143 53386 0221.50
233 76483 80550 0411.48
390 52652 786-37 740-0.42
4178 182136 516-41 666-0.23
5261 671388 527126 8560.48
6307 834410 656102 8220.33
平均相对误差0.52

对全国31个省直辖市的2009年1月1日至2012年12月31日的HFMD资料分别绘制发病数时序分布图,发现2种明显的发病模式。北京、天津、河北、山东、辽宁等15个北方省市呈现明显的单峰模式(即不明显双峰模式,见图 6),而上海、江苏、浙江、安徽、福建等16个南方省市则呈现明显的双 峰模式(图 7)。由图 6可见除了2009年3 7月间出现2个明显高峰外,2010 2012年3年均在5 6 月呈现一个明显的高峰,这与全国情况相同。图 7则 显示2009 2012年每年均在4 5月和11月出现2个明显发病高峰,特别是2011年和2012年越发明显。

图 6 全国HFMD发病数时序分布的单峰模式(2009.1.1-2012.12.31) Figuer 6 Single peak pattern of HFMD incidence

图 7 全国HFMD发病数时序分布的双峰模式 (2009.1.1-2012.12.31) Figuer 7 Double peak pattern of HFMD incidence

以这两种发病模式分层,按照上文叙述的分析过程分别建立ARIMA并对全国2013年1月1日至2013年6月30日的HFMD发病数进行预测。结果得出2个模型:北方城市的单峰模式,即不明显双峰模式最优模型为ARIMA(0,1,0),(1,1,0)12(模型1),南方城市双峰模式最优模型为ARIMA(0,0,0),(1,1,0)12(模型2),见表 3。结果可见,将全国资料分为两层分别得出2个模型,综合对全国2013年1月1日至2013年6月30日的HFMD发病进行预测。平均相对误差为0.12,比全国只用一个模式拟合时的相对误差明显减小。证明因地区发病的变异和模式不同在中国应用分层的ARIMA预测HFMD发病数效果更好。

表 3 分层对2013年1月1日至2013年6月30日观测值与预测值的比较 Table 3 Stratified observed value and predicted value,1 January-30 June 2013
月份观测值模型1预测值模型2预测值全国预测值绝对误差相对误差
157 5116 129.8565 269.8871 399.7313 888.730.24
233 7644 368.5954 228.5158 597.1024 833.100.74
390 5264 185.4544 325.7648 511.21-42 014.80-0.46
4178 18216 079.09110 332.78126 411.90-51 770.10-0.29
5261 67172 424.83261 033.13333 458.0071 786.960.27
6307 834108 405.10264 103.74372 508.8064 674.840.21
平均相对误差0.12
3讨论

传染病受到众多不确定因素的影响,这使得在传染病预测预警上存在着诸多的困难,导致了传染病早期预防控制工作一直较为滞后。因此如何及时有效地预测预警传染病的暴发流行一直是传染病预测控制工作 的重点[3, 4, 5]。目前,已有诸多数学 模型运用到传染病的预测预警当中。但当在预测处于变化中的传染病疫情时,疫情数据呈现出较大的波动,降低了其反映真实暴发流行情况的能力,进一步使模型的预测效能降低[6]。时间序列模型克服了影响预测对象的因素错综复杂或有关影响因素数据资料无法获得的难题[7],将复杂因素的综合效应统一蕴含到时间变量中,建立时间序列模型,以达到预测的目的。ARIMA是时间序列分析中重要而基本的模型之一,能够较好地描述时序的变动情况,特别适用于时序规律不明显,或有明显季节性和周期性的情况[8],广泛应用于传染病发病率的预测,特别是针对有季节性变动的时间序列提出的建模方法[9, 10]/sup>。

本研究通过对2009 2012年HFMD发病情况的分析来看,全国每年HFMD发病数从4月开始上升,5 6月出现峰值,次年1 2月发病数最低。以春季发病为主,具有明显的季节性。北方省市和南方省市出现两种不同的发病模式。北京、天津、河北、山东、辽宁等15个北方省市呈现明显的单峰模式,即不明显双峰模式。北方省市 2009年3 7月见出现2个明显高峰,2010 2012年均在5 6月呈现一个明显的高峰。而上海、江苏、浙江、安徽、福建等16个南方省市则呈现明显的双峰模式,即2009 2012年每年均在4 5月和11月出现2个明显发病高峰,特别是2011年和2012年越发明显。可能与南北方气候有关[11]。本研究根据实际发现的全国HFMD发病情况进行了分层ARIMA分析方法的应用,针对北方省市和南方省市分别建立模型并预测,平均相对误差仅为0.12,比全国只用一个模式拟合时的相对误差(0.52)明显减小。不同模型预测值与实际观测值的比较也可以明显地看出,全国分层建立ARIMA后的预测值比全国ARIMA预测值更接近于实际的观测值。分层建立ARIMA的分析方法不仅对HFMD的研究有重要的意义,而且对其他传染病的时间序列分析甚至对整个传染病防控工作有重要的提示作用。

ARIMA适用于具有典型趋势特征变化数据的预测[12]。ARIMA要求时间序列长度在30个数据以上[13],本文以2009 2012年共48个月的发病数为基础建立模型,并对2013年上半年6个月的发病数进行预测并与实际发病数进行对比。ARIMA对2013年1 6月进行预测发现2013年5 6月仍为发病高峰期;与2013年实际发病情况一致。说明ARIMA对未来6月内的预测值在HFMD发病情况未发生显著变化时,能较好地预测HFMD未来的走势及发病数;在发病情况发生显著变化时(如发生暴发或流行时),即可直观地判定出疫情走势的变更,并通过相关的信息系统发出预警信息,为尽早介入并采取针对性的防控措施提供有效的科学依据[14]。以往文献多在地区范围进行ARIMA建模[15, 16],或者HFMD以外的其他传染病在全国范围进行建模[17],而本研究在全国范围,以4年共48个月的HFMD发病数为基础建立ARIMA预测预警模型,在国内众多基于ARIMA的文献中实属罕见。本研究另一个重要的创新点在于首次应用分层建立ARIMA的方法对全国水平进行预测,这对其他传染病在全国水平上的建模及预测预警起到了重要的提示和示范作用。综上所述,对于全国HFMD甚至其他传染病发病的预测可以根据不同地区的发病模式分层后分别估计出最优ARIMA,再综合几种模型共同对全国进行预测,并根据预测发出预警,具有加强传染病防控工作的实际应用价值。

参考文献
[1] Zhang WT. Advanced tutorial of SPSS[M]. Beijing: China Higher Education Press,2004.(in Chinese) 张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,2004.
[2] Li YT,Zhang HW,Ren H,et al. Application of time series analysis in the prediction of incidence trend of influenza-like illness in Shanghai[J].Chinese Journal of Preventive Medicine,2007,41(6):496-498.(in Chinese) 李燕婷,张宏伟,任宏,等.上海市流感样病例发病趋势的时间序列分析和预测模型研究[J].中华预防医学杂志,2007,41(6):496-498.
[3] Yang Z, Ye ZH, You AG, et al.Application of multiple seasonal ARIMA model in prediction of tuberculosis incidence[J]. Chinese Journal of Public Health,2013,29(4):469.(in Chinese) 杨召,叶中辉,尤爱国,等,乘积季节ARIMA模型在结核病发病率预测中的应用[J].中国公共卫生,2013,29(4):469.
[4] Song Q. On the weight convergence of Elman networks[J].IEEE Trans Neural Netw,2010,21(3):463.
[5] Lai SJ, Ji ZJ, Jin LM, et al. The overview of evaluating contents and indicators on early warning system of infectious disease outbreak[J]. Chinese Journal of Epidemiology,2009,30(6):637.(in Chinese) 赖圣洁,季中杰,金连梅,等.传染病暴发早期预警系统评价内容及其指标[J].中华流行病学杂志,2009,30(6):637.
[6] Wang BG, Qu B, Guo HQ, et al.Mathematical model of infectious disease prediction research[J]. Chinese Journal of Health Statistics,2007,24(5):536.(in Chinese) 王丙刚,曲波,郭海强,等.传染病预测的数学模型研究[J].中国卫生统计,2007,24(5):536.
[7] Qi L, Li G, Li Q.Applications of ARIMA model on predictive incidence of influenza[J]. Acta Academiae Medicinae Militaris Tertiae,2007,29(3):267-269.(in Chinese) 漆莉,李革,李勤.ARIMA模型在流行性感冒预测中的应用[J].第三军医大学学报,2007,29(3):267-269.
[8] Lan YJ, Shen GA, Li H, et al. Time trend analysis and forecasting of Sichuan province pneumoconiosis [J].Journal of Occupational Health and Damage,2001,16(4):204-206.(in Chinese) 兰亚佳,沈国安,李宏,等.四川省尘肺病时间趋势分析与预测[J].职业卫生与病伤,2001,16(4):204-206.
[9] Zhu YB, Li X, Su F.Clinical epidemiological observation of a hospital in hefei in 71 cases of epidemic cerebrospinal meningitis[J].Acta Universitis Medicinalis Anhui,2008,43(1):111-112.(in Chinese) 朱永兵,李旭,苏菲. 合肥市某医院71例流行性脑脊髓膜炎的临床流行病学观察[J].安徽医科大学学报,2008,43(1):111-112.
[10] Xu YY, Wen L, Li SL, et al.Forecast research on hepatitis B in army by randomly time series analysis[J].Modern Preventive Medicine,2008,35(18):3475-3478.(in Chinese) 徐元勇,温亮,李申龙,等.应用随机时间序列分析法对军队乙型肝炎疫情的预测研究[J].现代预防医学,2008,35(18):3475-3478.
[11] Zeng LH, Ren M, Zhao PL, et al. A exploration and study of the relationships of hand-foot-mouth disease(HFMD)and the climate[J]. Chinese Journal of Experimental and Clinical Virology,2011,25(3):227-229.(in Chinese) 曾立华,任敏,赵培利,等. 手足口病与气候关系的探讨和研究[J].中华实验和临床病毒学杂志,2011,25(3):227-229.
[12] Xiang LH, Guo ZP, Yang XT, et al.Research progress of statistical forecasting on morbidity tendency of infectious diseases[J].Strait Journal of Preventive Medicine,2010,16(6):27-29.(in Chinese) 向伦辉,郭祖鹏,杨兴堂,等.传染病发病趋势常见统计预测方法的研究进展[J].海峡预防医学杂志,2010,16(6):27-29.
[13] Shi JX, Zhang WZ, Ji GQ, et al. Application of ARIMA model in forecasting and early warning of influenza-like illness[J].Capital Journal of Public Health,2010,4(1):12-16.(in Chinese) 史继新,张文增,冀国强,等,ARIMA模型在流感样病例预测预警中的应用[J].首都公共卫生,2010,4(1):12-16.
[14] Munoz-Tuduri M,Garcia-Moro C,Waiker PL. Time series analysis of the epidemidogcal transition in Minorca 1634-1997[J].Hum Biol,2006,78(4):619-634.
[15] Pan H, Zheng Y, Wu HY, et al. ARIMA model on prediction of hand-foot-mouth disease incidence in Shanghai[J].Journal of Preventive Medicine Information,2011,27(6):408-411.(in Chinese) 潘浩,郑杨,吴寰宇,等. ARIMA模型预测上海市手足口病发病趋势[J]. 预防医学情报杂志,2011,27(6):408-411.
[16] Pan H, Hu JY, Wu HY, et al. Comparison of GM(1, 1)gray model and ARIMA model in forecasting the incidence of hand-foot-mouth disease in Shanghai[J]. Chinese Journal of Disease Control and Prevention,2011,15(5):52-55.(in Chinese) 潘浩,胡家瑜,吴寰宇,等.GM(1,1)灰色模型和ARIMA模型在上海市手足口病发病率预测应用中的比较研究[J].中华疾病控制杂志,2011,15(5):52-55.
[17] Jin RF, Qiu H, Zhou X. Forecasting incidence of intestinal infectious diseases in mainland China with ARIMA model and GM(1,1)model[J]. Fudan University Journal of Medical Sciences,2008,35(5):675-680.(in Chinese) 金如锋,邱宏,周霞. ARIMA模型和GM(1,1)模型预测全国3种肠道传染病发病率[J].复旦学报:医学版,2008,35(5):675-680.