扩展功能
文章信息
- 胡跃华, 廖家强, 冯国双, 郭莹, 于石成, 马家奇
- HU Yue-hua, LIAO Jia-qiang, FENG Guo-shuang, GUO Ying, YU Shi-cheng, MA Jia-qi
- 自回归移动平均模型在全国手足口病疫情预测中的应用
- Application of multiple seasonal autoregressive integrated moving average model in prediction of incidence of hand foot and mouth disease in China
- 疾病监测, 2014, 29(10): 827-832
- Disease Surveillance, 2014, 29(10): 827-832
- 10.3784/j.issn.1003-9961.2014.10.018
-
文章历史
- 收稿日期:2014-05-16
2. 四川大学华西公共卫生学院卫生统计教研室, 四川 成都 610041;
3. 北京协和医学院公共卫生学院, 北京 100006
2. Huaxi Public Health School, Sichuan University, Chengdu 610041, Sichuan, China;
3. Public Health School, Peking Union Medical College, Beijing 100006, China
手足口病(hand food and mouth disease,HFMD)是由多种肠道病毒引起的常见传染病,以婴幼儿发病为主。近几年来,中国HFMD疫情呈现发病强度高、高峰持续时间长、疫情分布广泛等特点。2008年5月2日HFMD正式纳入丙类传染病管理,各级医疗机构须按照《中华人民共和国传染病防治法》和《传染病信息报告管理规范》的有关规定进行网络直报。HFMD已不再是一种陌生的疾病,从研究趋势可见,随着社会的发展以及人们健康和保健意识的提高,人们不仅满足于掌握和了解HFMD的传播规律,更期望能准确预测不同情况下HFMD的传播特征和流行趋势。由于传染病在时间、空间上具有特定的分布模式,且其分布特征随自然与社会环境等因素的变化而变化,而在不断出现的各种新因素干扰下,HFMD的传播规律变得更为错综复杂,尽管国内外专家在HFMD治疗和防制取得了一定进展,但不同时期、不同地区发生的肠道病毒感染往往呈现不同的流行特点,包括临床特征都有着或多或少的差异,目前缺少全国范围和更长时间跨度的流行病学研究,在人群中的流行模式也没有形成一套完整的理论,对HFMD进行可靠的预测,对于HFMD的科学防控具有重要的指导意义。HFMD资料是一个与时间有关的序列,利用这一资料,建立时间序列的模型,可以较好地对其发病进行预测和监测。及时发现异常,并采取相应的控制措施,可以达到使HFMD的危害降到最低的目的。本文采用自回归移动平均模型(autoregressive integrated moving average model,ARIMA)对全国HFMD的发病数进行时间序列分析并建立预测模型,为HFMD预防控制提供科学依据。 1材料与方法 1.1资料来源
2009年1月1日至2013年6月30日HFMD监测数据:来源于“中国疾病预防控制信息系统”中的“疾病监测信息报告管理系统”(“传染病疫情信息网络直报系统”),以发病日期为标准日期,以月为基本时间统计单位计算各年HFMD发病数。 1.2方法
数据存储和数据管理采用Excel 2010、SPSS 19.0、SAS 9.2软件;应用SPSS 19.0软件对资料进行统计分析。 1.3时间序列模型
ARIMA的建模过程按以下阶段进行[1, 2]:①序列特征及平稳化:应用时间序列图、自相关系数函数图(ACF图)、偏自相关系数函数图(PACF图)分析序列特征(趋势性、季节性)及平稳性。若序列平稳,进行平稳序列的时间序列分析; 若序列不平稳,结合本文序列特征,采用了普通差分和季节性差分等合适的数据预处理方法,实现序列平稳化后进行分析。本研究中对发病数序列进行1次差分和1次季节性差分,使最终所分析的序列为平稳化序列。②模型的识别:根据ACF图、PACF图和SPSS模型拟合结果,进行模型的初步识别和定阶。③参数估计和模型诊断:利用非线性最小二乘法估计模型参数。参数估计后,对模型的残差序列进行白噪声检验,用以判断ARIMA的适合性。对于残差而言相互独立就为白噪声,原假设是数据是相互独立分布的,如果P足够大则接受原假设,认为残差相互独立,为随机性误差,说明ARIMA模型比较适合,不需要重新选择模型。依据赤池信息量准则(Akaike information criterion,AIC)和贝叶斯信息准则(Bayesian Information Criterions,BIC)确定模型阶数,如不恰当则返回第二阶段,重新选定模型。通过不断改变模型的阶数并调试比较,确定残差序列为白噪声,AIC与标准化BIC值最小且模型较为简洁的为最佳模型。④预测应用:根据HFMD春季高发,以及ARIMA短期预测效果好的特点,用选定的模型对2013年1 6月HFMD发病数做预测并与实际发病数进行比较,以此验证模型的效果。 2结果 2.1HFMD流行趋势及空间分布分析
对全国资料2009年1月1日至2012年12月31日的HFMD发病数绘制时序分布图(图 1)。由图 1可以看出,HFMD 全年各月均有发病,从2010年开始,发病数呈现上升趋势。每年发病数从4月开始上升,5 6月出现峰值,次年1 2月发病数最低。2011年12月出现小高峰。以春季发病为主,具有明显的季节性。
2.2模型识别2009年1月1日至2012年12月31日全国HFMD发病数序列存在明显的季节性趋势,季节性周期为12个月。为不平稳序列,需进行差分处理使其平稳化。对发病数序列进行1次差分和1次季节性差分,序列做自相关分析图(即ACF图,图 2)和偏相关分析图(即PACF图,图 3),ACF图显示相关系数在延迟数目>2的时候均落入置信区间并逐渐趋于0,说明该时间序列具有平稳性。PACF图显示偏自相关系数序列均接近0,只有两个相对偏离,可初步判断该序列用于二阶移动平均模型。
2.3参数估计与诊断检验
根据数据季节性的特征以及对PCAF图的分析初步判断模型为ARIMA(p,1,2)(P,1,Q)12,模型的参数采取从低阶到高阶逐个进行尝试的办法。备选模型的拟合优度检验经过多次试验,根据模型的检验结果和参数之间的相关性进行调试、检验,选取AIC值和标准化BIC值最小和R2最大的模型为最佳模型。模型ARIMA(0,1,2)(0,1,0)12的R2=0.784表明方程拟合度很好。AIC值=10.288标准化BIC值=21.955,在拟合的所有模型中最小。采用Ljung-Box方法检验残差白噪声,残差序列的自相关系数及偏相关系数均在95%CI以内(图 4),残差为白噪声;Ljung-Box统计量为11.074,P=0.805,表明残差为随机性误差;且模型中的参数检验具有意义(表 1)。因此,ARIMA(0,1,2)(0,1,0)12模型为最优模型。
参数 | 估计值 | 标准误 | t值 | P值 |
常数 | -114.977 | 4177.948 | -0.028 | 0.978 |
差分 | 1 | - | - | - |
MA 滞后1 | 0.010 | 0.164 | 0.060 | 0.953 |
MA滞后2 | 0.532 | 0.166 | 3.212 | 0.003 |
季节性差分 | 1 | - | - | - |
按照ARIMA建模方法,对全国2009年1月1日至2012年12月31日的HFMD发病数建模,并用该模型对全国2013年1月1日至2013年6月30日发病数进行预测,得到预测数据(表 2),预测的平均 相对误差为0.52。模型拟合图(图 5)可 见预测值与观测值相比虽然趋势相同但是具体预测值与观测值相差较大。可见ARIMA(0,1,2)(0,1,0)12模型的预测效果一般。
月份 | 观测值 | 预测值 | 绝对误差 | 相对误差 |
1 | 57 511 | 143 533 | 86 022 | 1.50 |
2 | 33 764 | 83 805 | 50 041 | 1.48 |
3 | 90 526 | 52 786 | -37 740 | -0.42 |
4 | 178 182 | 136 516 | -41 666 | -0.23 |
5 | 261 671 | 388 527 | 126 856 | 0.48 |
6 | 307 834 | 410 656 | 102 822 | 0.33 |
平均相对误差 | 0.52 |
对全国31个省直辖市的2009年1月1日至2012年12月31日的HFMD资料分别绘制发病数时序分布图,发现2种明显的发病模式。北京、天津、河北、山东、辽宁等15个北方省市呈现明显的单峰模式(即不明显双峰模式,见图 6),而上海、江苏、浙江、安徽、福建等16个南方省市则呈现明显的双 峰模式(图 7)。由图 6可见除了2009年3 7月间出现2个明显高峰外,2010 2012年3年均在5 6 月呈现一个明显的高峰,这与全国情况相同。图 7则 显示2009 2012年每年均在4 5月和11月出现2个明显发病高峰,特别是2011年和2012年越发明显。
以这两种发病模式分层,按照上文叙述的分析过程分别建立ARIMA并对全国2013年1月1日至2013年6月30日的HFMD发病数进行预测。结果得出2个模型:北方城市的单峰模式,即不明显双峰模式最优模型为ARIMA(0,1,0),(1,1,0)12(模型1),南方城市双峰模式最优模型为ARIMA(0,0,0),(1,1,0)12(模型2),见表 3。结果可见,将全国资料分为两层分别得出2个模型,综合对全国2013年1月1日至2013年6月30日的HFMD发病进行预测。平均相对误差为0.12,比全国只用一个模式拟合时的相对误差明显减小。证明因地区发病的变异和模式不同在中国应用分层的ARIMA预测HFMD发病数效果更好。
月份 | 观测值 | 模型1预测值 | 模型2预测值 | 全国预测值 | 绝对误差 | 相对误差 |
1 | 57 511 | 6 129.85 | 65 269.88 | 71 399.73 | 13 888.73 | 0.24 |
2 | 33 764 | 4 368.59 | 54 228.51 | 58 597.10 | 24 833.10 | 0.74 |
3 | 90 526 | 4 185.45 | 44 325.76 | 48 511.21 | -42 014.80 | -0.46 |
4 | 178 182 | 16 079.09 | 110 332.78 | 126 411.90 | -51 770.10 | -0.29 |
5 | 261 671 | 72 424.83 | 261 033.13 | 333 458.00 | 71 786.96 | 0.27 |
6 | 307 834 | 108 405.10 | 264 103.74 | 372 508.80 | 64 674.84 | 0.21 |
平均相对误差 | 0.12 |
传染病受到众多不确定因素的影响,这使得在传染病预测预警上存在着诸多的困难,导致了传染病早期预防控制工作一直较为滞后。因此如何及时有效地预测预警传染病的暴发流行一直是传染病预测控制工作 的重点[3, 4, 5]。目前,已有诸多数学 模型运用到传染病的预测预警当中。但当在预测处于变化中的传染病疫情时,疫情数据呈现出较大的波动,降低了其反映真实暴发流行情况的能力,进一步使模型的预测效能降低[6]。时间序列模型克服了影响预测对象的因素错综复杂或有关影响因素数据资料无法获得的难题[7],将复杂因素的综合效应统一蕴含到时间变量中,建立时间序列模型,以达到预测的目的。ARIMA是时间序列分析中重要而基本的模型之一,能够较好地描述时序的变动情况,特别适用于时序规律不明显,或有明显季节性和周期性的情况[8],广泛应用于传染病发病率的预测,特别是针对有季节性变动的时间序列提出的建模方法[9, 10]/sup>。
本研究通过对2009 2012年HFMD发病情况的分析来看,全国每年HFMD发病数从4月开始上升,5 6月出现峰值,次年1 2月发病数最低。以春季发病为主,具有明显的季节性。北方省市和南方省市出现两种不同的发病模式。北京、天津、河北、山东、辽宁等15个北方省市呈现明显的单峰模式,即不明显双峰模式。北方省市 2009年3 7月见出现2个明显高峰,2010 2012年均在5 6月呈现一个明显的高峰。而上海、江苏、浙江、安徽、福建等16个南方省市则呈现明显的双峰模式,即2009 2012年每年均在4 5月和11月出现2个明显发病高峰,特别是2011年和2012年越发明显。可能与南北方气候有关[11]。本研究根据实际发现的全国HFMD发病情况进行了分层ARIMA分析方法的应用,针对北方省市和南方省市分别建立模型并预测,平均相对误差仅为0.12,比全国只用一个模式拟合时的相对误差(0.52)明显减小。不同模型预测值与实际观测值的比较也可以明显地看出,全国分层建立ARIMA后的预测值比全国ARIMA预测值更接近于实际的观测值。分层建立ARIMA的分析方法不仅对HFMD的研究有重要的意义,而且对其他传染病的时间序列分析甚至对整个传染病防控工作有重要的提示作用。
ARIMA适用于具有典型趋势特征变化数据的预测[12]。ARIMA要求时间序列长度在30个数据以上[13],本文以2009 2012年共48个月的发病数为基础建立模型,并对2013年上半年6个月的发病数进行预测并与实际发病数进行对比。ARIMA对2013年1 6月进行预测发现2013年5 6月仍为发病高峰期;与2013年实际发病情况一致。说明ARIMA对未来6月内的预测值在HFMD发病情况未发生显著变化时,能较好地预测HFMD未来的走势及发病数;在发病情况发生显著变化时(如发生暴发或流行时),即可直观地判定出疫情走势的变更,并通过相关的信息系统发出预警信息,为尽早介入并采取针对性的防控措施提供有效的科学依据[14]。以往文献多在地区范围进行ARIMA建模[15, 16],或者HFMD以外的其他传染病在全国范围进行建模[17],而本研究在全国范围,以4年共48个月的HFMD发病数为基础建立ARIMA预测预警模型,在国内众多基于ARIMA的文献中实属罕见。本研究另一个重要的创新点在于首次应用分层建立ARIMA的方法对全国水平进行预测,这对其他传染病在全国水平上的建模及预测预警起到了重要的提示和示范作用。综上所述,对于全国HFMD甚至其他传染病发病的预测可以根据不同地区的发病模式分层后分别估计出最优ARIMA,再综合几种模型共同对全国进行预测,并根据预测发出预警,具有加强传染病防控工作的实际应用价值。
[1] | Zhang WT. Advanced tutorial of SPSS[M]. Beijing: China Higher Education Press,2004.(in Chinese) 张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,2004. |
[2] | Li YT,Zhang HW,Ren H,et al. Application of time series analysis in the prediction of incidence trend of influenza-like illness in Shanghai[J].Chinese Journal of Preventive Medicine,2007,41(6):496-498.(in Chinese) 李燕婷,张宏伟,任宏,等.上海市流感样病例发病趋势的时间序列分析和预测模型研究[J].中华预防医学杂志,2007,41(6):496-498. |
[3] | Yang Z, Ye ZH, You AG, et al.Application of multiple seasonal ARIMA model in prediction of tuberculosis incidence[J]. Chinese Journal of Public Health,2013,29(4):469.(in Chinese) 杨召,叶中辉,尤爱国,等,乘积季节ARIMA模型在结核病发病率预测中的应用[J].中国公共卫生,2013,29(4):469. |
[4] | Song Q. On the weight convergence of Elman networks[J].IEEE Trans Neural Netw,2010,21(3):463. |
[5] | Lai SJ, Ji ZJ, Jin LM, et al. The overview of evaluating contents and indicators on early warning system of infectious disease outbreak[J]. Chinese Journal of Epidemiology,2009,30(6):637.(in Chinese) 赖圣洁,季中杰,金连梅,等.传染病暴发早期预警系统评价内容及其指标[J].中华流行病学杂志,2009,30(6):637. |
[6] | Wang BG, Qu B, Guo HQ, et al.Mathematical model of infectious disease prediction research[J]. Chinese Journal of Health Statistics,2007,24(5):536.(in Chinese) 王丙刚,曲波,郭海强,等.传染病预测的数学模型研究[J].中国卫生统计,2007,24(5):536. |
[7] | Qi L, Li G, Li Q.Applications of ARIMA model on predictive incidence of influenza[J]. Acta Academiae Medicinae Militaris Tertiae,2007,29(3):267-269.(in Chinese) 漆莉,李革,李勤.ARIMA模型在流行性感冒预测中的应用[J].第三军医大学学报,2007,29(3):267-269. |
[8] | Lan YJ, Shen GA, Li H, et al. Time trend analysis and forecasting of Sichuan province pneumoconiosis [J].Journal of Occupational Health and Damage,2001,16(4):204-206.(in Chinese) 兰亚佳,沈国安,李宏,等.四川省尘肺病时间趋势分析与预测[J].职业卫生与病伤,2001,16(4):204-206. |
[9] | Zhu YB, Li X, Su F.Clinical epidemiological observation of a hospital in hefei in 71 cases of epidemic cerebrospinal meningitis[J].Acta Universitis Medicinalis Anhui,2008,43(1):111-112.(in Chinese) 朱永兵,李旭,苏菲. 合肥市某医院71例流行性脑脊髓膜炎的临床流行病学观察[J].安徽医科大学学报,2008,43(1):111-112. |
[10] | Xu YY, Wen L, Li SL, et al.Forecast research on hepatitis B in army by randomly time series analysis[J].Modern Preventive Medicine,2008,35(18):3475-3478.(in Chinese) 徐元勇,温亮,李申龙,等.应用随机时间序列分析法对军队乙型肝炎疫情的预测研究[J].现代预防医学,2008,35(18):3475-3478. |
[11] | Zeng LH, Ren M, Zhao PL, et al. A exploration and study of the relationships of hand-foot-mouth disease(HFMD)and the climate[J]. Chinese Journal of Experimental and Clinical Virology,2011,25(3):227-229.(in Chinese) 曾立华,任敏,赵培利,等. 手足口病与气候关系的探讨和研究[J].中华实验和临床病毒学杂志,2011,25(3):227-229. |
[12] | Xiang LH, Guo ZP, Yang XT, et al.Research progress of statistical forecasting on morbidity tendency of infectious diseases[J].Strait Journal of Preventive Medicine,2010,16(6):27-29.(in Chinese) 向伦辉,郭祖鹏,杨兴堂,等.传染病发病趋势常见统计预测方法的研究进展[J].海峡预防医学杂志,2010,16(6):27-29. |
[13] | Shi JX, Zhang WZ, Ji GQ, et al. Application of ARIMA model in forecasting and early warning of influenza-like illness[J].Capital Journal of Public Health,2010,4(1):12-16.(in Chinese) 史继新,张文增,冀国强,等,ARIMA模型在流感样病例预测预警中的应用[J].首都公共卫生,2010,4(1):12-16. |
[14] | Munoz-Tuduri M,Garcia-Moro C,Waiker PL. Time series analysis of the epidemidogcal transition in Minorca 1634-1997[J].Hum Biol,2006,78(4):619-634. |
[15] | Pan H, Zheng Y, Wu HY, et al. ARIMA model on prediction of hand-foot-mouth disease incidence in Shanghai[J].Journal of Preventive Medicine Information,2011,27(6):408-411.(in Chinese) 潘浩,郑杨,吴寰宇,等. ARIMA模型预测上海市手足口病发病趋势[J]. 预防医学情报杂志,2011,27(6):408-411. |
[16] | Pan H, Hu JY, Wu HY, et al. Comparison of GM(1, 1)gray model and ARIMA model in forecasting the incidence of hand-foot-mouth disease in Shanghai[J]. Chinese Journal of Disease Control and Prevention,2011,15(5):52-55.(in Chinese) 潘浩,胡家瑜,吴寰宇,等.GM(1,1)灰色模型和ARIMA模型在上海市手足口病发病率预测应用中的比较研究[J].中华疾病控制杂志,2011,15(5):52-55. |
[17] | Jin RF, Qiu H, Zhou X. Forecasting incidence of intestinal infectious diseases in mainland China with ARIMA model and GM(1,1)model[J]. Fudan University Journal of Medical Sciences,2008,35(5):675-680.(in Chinese) 金如锋,邱宏,周霞. ARIMA模型和GM(1,1)模型预测全国3种肠道传染病发病率[J].复旦学报:医学版,2008,35(5):675-680. |