疾病监测  2016, Vol. 31 Issue (6): 492-497

扩展功能

文章信息

陈小英, 张义, 刘峰, 王林江, 李广智, 陈飒
CHEN Xiao-ying, ZHANG Yi, LIU Feng, WANG Lin-jiang, LI Guang-zhi, CHEN Sa
ARIMA模型在宝鸡市手足口病预警预测中的应用
Application of ARIMA model in prediction of hand foot and mouth disease in Baoji City
疾病监测, 2016, 31(6): 492-497
Disease Surveillance, 2016, 31(6): 492-497
10.3784/j.issn.1003-9961.2016.06.012

文章历史

收稿日期:2015-09-16
ARIMA模型在宝鸡市手足口病预警预测中的应用
陈小英1,2, 张义2, 刘峰2, 王林江2, 李广智2, 陈飒2     
1. 陕西省宝鸡市疾病预防控制中心, 陕西 宝鸡 721006;
2. 陕西省疾病预防控制中心现场流行病学培训项目, 陕西 西安 710054
摘要: 目的 利用时间序列分析方法动态研究手足口病发病趋势,探讨合理的预测模型,为宝鸡市制定手足口病的预防控制措施提供决策依据。 方法 应用时间序列分析方法对宝鸡市2008-2014年手足口病月发病数据进行分析并建立预测模型,对建立的预测模型进行参数估计、模型诊断、模型评价,选择最优预测模型,利用所得到的模型对2015年1-6月的发病情况进行预测,并评价其预测效果。 结果 通过参数和模型拟合优度检验以及残差白噪声序列检验,得到模型ARIMA (1,1,1) (0,1,1)12,R2=0.820,标准化的BIC=10.507,Ljung-Box=4.631(P=0.995),2015年1-6月手足口病月发病数预测值和实际值的平均相对误差仅为2.34%,实际值都在95%可信区间内,建立的ARIMA模型的拟合精度和预测效果较为理想。 结论 ARIMA模型能较好的模拟宝鸡市手足口病的发病趋势,预测效果可信。
关键词ARIMA 模型     手足口病     预测    
Application of ARIMA model in prediction of hand foot and mouth disease in Baoji City
CHEN Xiao-ying1,2, ZHANG Yi2, LIU Feng2, WANG Lin-jiang2, LI Guang-zhi2, CHEN Sa2     
1. Baoji Prefecture Center for Disease Control and Prevention, Baoji 721006, Shaanxi, China;
2. Field Epidemiology Training Project, Shaanxi Provincial Center for Disease Control and Prevention, Xi'an 710054, Shaanxi, China
Abstract: Objective To analyze the incidence trends of hand foot and mouth disease (HFMD) dynamically, explore the appropriate HFMD predictive model and provide evidence for the prevention and control of HFMD in Baoji. Methods Time series analysis wasconducted by using the monthly incidence data of HFMD in Baoji from 2008 to 2014, and a predictive model was established after parameter estimation and model evaluation. The model was used to predict the incidence of HFMD during January-June 2015. Results Through the test of parameters and goodness as well as white-noise residuals, we finalized the model ARIMA(1, 1, 1) (0, 1, 1)12, R2=0.820, of which BIC(Bayeian Information Criterion)=10.507, Ljung-Box=4.631, P=0.995.The average relative error between the predictive value and the actual value of the monthly incidence of HFMD during January-June in 2015 was 2.34%.The actual values were within 95%CI of the predictive values. The established ARIMA model was good in fitting precision and prediction effect. Conclusion The model could predict the incidence trend of HFMD for early warning of the disease.
Key words: ARIMA model     Hand foot mouth disease     Prediction    

手足口病(HFMD)是一种以柯萨奇病毒A 组16 型和肠道病毒71 型为主感染所引起的病毒性急性传染病,以发热、口腔炎和手足、臀部皮疹为主要症状,多发生于5 岁以下的婴幼儿,夏秋季易流行。该病可引起脑炎、脑脊髓炎、脑膜炎、循环衰竭等严重并发症,导致儿童死亡。此病传染性强,传播途径复杂,在短时间内即可造成暴发及流行[1]。2008 年3月我国安徽省阜阳市暴发大规模手足口病疫情并出现死亡病例[2],之后全国多个城市相继出现手足口病暴发[3-4]。2008 年5 月2 日,我国将手足口病纳入丙类法定报告传染病管理。近年来全国各地的手足口病疫情形势严峻,报告病例数呈不断上升的趋势[5],已经成为我国突出的公共卫生问题之一[6]。宝鸡市自手足口病纳入丙类传染病报告以来,手足口病报告数呈现逐年上升趋势,自2010年起发病率始终位居丙类传染病发病数前2位,防控形势严峻。

传染病预测是根据传染病发生、发展规律及有关因素,用分析判断和数学模型等方法对传染病的发生、发展和流行趋势作出预测,是制定预防和控制传染病的长期或近期应对策略的前提[7]。本研究以宝鸡市手足口病的月发病数为基础,应用时间序列分析法对其发病情况建模,并预测其发病趋势,为早期发现手足口病的流行并制定相关防治策略提供依据。

1 资料与方法 1.1 资料来源

2008年5月1 日至2015年6 月30 日手足口病监测数据: 来源于“中国疾病预防控制信息系统”中的“疾病监测信息报告管理系统”(“传染病疫情信息网络直报系统”),以发病日期为标准日期,以月为基本时间统计单位计算各年手足口病发病数。

1.2 方法 1.2.1 基本思想

ARIMA模型即自回归滑动平均模型,是由Box 和Jenkings 于20世纪70 年代初提出的著名时间序列预测方法,故又称Box-Jenkings 模型[8-9]。该方法可以用时间序列的过去和现在预测值预测未来值[10-11]。标准的ARIMA 模型为ARIMA(p,d,q)(P,D,Q)s,其中p、q 分别表示自相关函数(ACF)和偏自相关函数(PACF)的阶,d 表示差分的次数,P、Q、D 分别表示季节性自相关函数和偏自相关函数的阶和差分的次数,s 表示季节性的周期即循环长度[12-14]

1.2.2 建模过程

①数据预处理:首先判断原序列是否平稳,若为非平稳序列,则变换为平稳序列,根据变换后序列的自相关和偏自相关图,确定非季节差分阶数d 和季节差分阶数D。②模型参数估计:根据变换后平稳时间序列的自相关和偏自相关图,估计模型的p、P、q、Q 值,采用最大似然估计或最小二乘法估计等对初步估计模型进行检验。③模型诊断检验:模型参数估计后,对模型残差是否为白噪声进行检验,若残差序列不是白噪声序列,意味着残差序列还存在有未被提取的信息,需要进一步改进模型。④模型的筛选:为了得到最佳模型,可借助拟合优度统计量来比较各个模型的优劣,最常用的是调整后的决定系数、AIC 和SC 统计量。⑤模型的预测:运用模型预测2015年16月手足口病发病情况。

1.3 统计学分析

数据存储和数据管理采用Excel 2010、SPSS 22.0软件; 并对资料进行统计学分析。

2 结果 2.1 手足口病流行趋势分析

绘制宝鸡市2008年5月1日至2014年12月31日的手足口病发病数曲线图(图 1)。发现手足口病全年各月均有发病,从2010 年开始,发病数基本呈现上升趋势。每年发病数从4月开始上升,56 月出现高峰,具有明显的季节性和长期趋势,呈现非平稳性特征。

图 1 2008-2014年宝鸡市手足口病月发病数曲线 Figure 1 Incidence curve of HFMD in Baoji 2008-2014
2.2 模型识别

对原始数据采取自然对数转换、一阶差分和一次季节差分,消除序列的长期趋势和季节效应,差分后的时间序列图较平稳(图 2),从ACF和PACF(图 3~4)可以看出,除了延迟2、12阶的自相关系数在2倍标准差范围之外,其他阶数的自相关系数都在2倍标准差范围内波动,可以判断该序列具有短期相关性,进一步判定序列平稳,初步确定ARIMA(p,d,q) × (P,D,Q)12中的d和D分别为1和1。对于参数p,q 的识别,通过观察差分后序列的ACF 图和PACF 图,初步确定p=1,q=1。参数P,Q 的判断较为困难,但根据文献,参数P,Q超过2 阶的情况很少见,采取从低阶到高阶逐个进行尝试的办法[15],根据模型的拟合优度、残差情况以及系数间的相关性进行综合判断。

图 2 2009-2015年宝鸡市手足口病月发病数经自然对数转换和1 阶12 步差分后序列图 Figure 2 Sequence chart of incidence of HFMD in Baoji after logarithmic transformation and 1 stage and 12 step difference,2009-2015
图 3 2008-2014年宝鸡市手足口病月发病数经平稳化后的ACF 函数图 Figure 3 AFP function graph of incidence of HFMD in Baoji after smooth processing,2008-2014
图 4 20082014年宝鸡市手足口病月发病数经平稳化后的PACF 函数图 Figure 4 PAFP function graph of incidence of HFMD in Baoji after smooth processing,2008-2014
2.3 参数估计与诊断检验

参数估计、模型拟合优度统计量指标选取标准化BIC值最小和R2 最大进行评价,最终选择模型ARIMA(1,1,1) (0,1,1)12模型为最佳模型,标准化的BIC=10.507,R2=0.820,常数项为870.402(t=-0.792,P=0.431),自回归参数ARl=0.357(t=2.619,P=0.011),MAl=-0.764 (t=7.581,P <0.001),季节移动平均参数SMAl=0.769(t=3.741,P<0.001)。采用Ljung-Box 方法检验残差白噪声,结果显示,Ljung-Box统计量为Q=4.631,P=0.995,提示残差序列为白噪声。图 5 显示,残差序列ACF 值和PACF 值均落入随机区间内,提示模型信息提取比较充分,时间序列各项之间没有相关性。

图 5 模型ARIMA(1,1,1) × (0,1,1)12残差序列ACF、PACF 函数图 Figure 5 AFP and PAFP function graphs of 12 residual series of ARIMA(1,1,1) (0,1,1)12 model
2.4 模型预测

最优模型为ARIMA(1,1,1)(0,1,1)12:lnYt=0.357lnYt-1-0.764lnYt-1+0.769lnYt-12+0.82。运用模型ARIMA(1,1,1)(0,l,1)12拟合2015年16月某病逐月发病数,并预测2015 年16月的手足口病发病数,图 6显示了该模型对2015年16月的月发病数预测值及其95%可信区间,其动态趋势与实际发病基本一致。2015年16月手足口病发病数与预测值相差较小,实际值与预测值绝对误差的绝对值最大为84,最小为48,相对误差率仅为2.34%。可见模型对实际值进行了较好的拟合,见表 1

表 1 2015年1-6月宝鸡市手足口病发病数预测值 Table 1 Prediction of HFMD incidence in Baoji, January-June,2015
月份 实际值(例) 预测值(例) 发病数预测值(95%CI) 相对误差(%)
12373 1~2142.17
266912~28010.50
353108 2~3781.04
434038872~8680.14
5897981416~17110.09
69681043457~17930.08
图 6 2015年16月宝鸡市手足口病发病率预测结果(/10 万) Figure 6 Prediction of HFMD incidence in Baoji,January-June,2015(/lakh)
3 讨论

ARIMA 模型是目前应用较多的时间序列预测方法之一,其综合考虑疾病的季节性、周期性、随机性等可能影响序列平稳性的因素,提高了模型的拟合和预测效果,同时借助模型的参数进行了量化表达,在传染病预测中具有广泛的适用性[16]。ARIMA 预测模型既有传统回归分析的优点又发挥了移动平均的长处,具有适用范围广,实用性强、预测误差小的特点,是一种预测精确度较高的短期预测方法[17]。近年来,该方法已广泛应用于传染病的预测研究[18-19]

手足口病具有传染性强,传播途径多,病原学复杂,患者可多次重复感染等特点,容易在短时间造成大面积流行[20]。本研究利用2008年5月至2014年12月宝鸡市手足口病发病资料,通过识别、估计、诊断等过程拟合建立ARIMA 模型预测其发病趋势,探讨此种预测方法的可行性。分析结果显示模型ARIMA(1,1,1) (0,1,1)12的各月手足口病发病数预测值与实际值基本一致,实际值均落入95%可信区间内,并对宝鸡市2015年16月的手足口病发病数进行预测,显现出较好的适用效果,提示ARIMA 模型对宝鸡市手足口病月发病数进行预测具有可行性。但因手足口病的发病率受到诸多未知随机因素的影响[21],在实际应用中,应尽可能的收集时间序列足够长的序列数据,对已建立的模型采用新的观测值进行验证,并不断加入新的观测值,以修正或重新拟合更能反映实际情况的手足口病预测模型,以期得到最满意的预测效果[22]

预测手足口病流行趋势是采取预防措施和评估干预效果的重要内容[23]。在疫情监测工作中,根据预测数据的可信区间,可以判断实际发病率是否在正常范围波动,传染病的发病是否为散发、是否按照既往的规律发生变化。如果实际发病率在预测值95%可信区间内波动,则表明疫情基本正常;如果超出,则表明疫情已不同于以往流行规律,应警惕传染病暴发或流行的可能性[24]。本研究显示ARIMA 模型能较好地用于手足口病发病的短期预测,根据预测数据有针对性地开展防治工作,有助于提高疾病预防控制工作的能力[25]。根据预测结果,2015年56月宝鸡市手足口病的发病率将呈现高峰。

不同的传染病有着不同的发病模式,不同的预测模型也有着不同的数学理论基础和适用条件。尽管ARIMA 模型的建立已有一套明确的规则,适用于各种复杂的模式[26],但在实际运用中仍存在弊端。没有一种数学模型可以实现对一段时间历史数据的完全拟合和预测,所以要在实际工作中不断发现问题、总结经验,以提高监测数据的质量;同时加强对数学模型的研究,分析采用何种方法和模型进行预测效果更好[27-28]。这样才能为传染病防控工作提供更为可靠的数据和建议。

参考文献
[1] 中华人民共和国卫生部.手足口病预防控制指南[S].北京:中华人民共和国卫生部,2009. The Ministry of Health of the People's Republic of China. Guideline of hand foot and mouth disease prevention and control[S]. Beijing:The Ministry of Health of the People's Republic of China,2009. (in Chinese)
[2] Wan JF, Zhu LY, Liu H, et al. Analysis on epidemiology of hand-foot-mouth disease(71 infection) in Puyang city[J]. Anhui Medical Journal, 2008, 29 (4) : 344–345 .(in Chinese) 万俊峰, 朱理业, 刘红, 等. 阜阳市手足口病(EV71感染) 疫情流行病学分析[J]. 安徽医学,2008,29 (4) :344–345.
[3] Sun JL, Zhang J. A review on the advancement of epidemiology on hand-foot-mouth disease[J]. Chinese Journal of Epidemiology, 2009, 30 (9) : 973–976 .(in Chinese) 孙军玲, 张静. 手足口病流行病学研究进展[J]. 中华流行病学杂志,2009,30 (9) :973–976.
[4] Yang F, Ren LL, Xiong ZH, et al. Enterovirus 71 outbreak in the People's Republic of China in 2008[J]. J Clin Microbiol, 2009, 47 (7) : 2351–2352 .
[5] Yuan J, Lu JY, Liu DJ, et al. Epidemiological analysis on hand foot and mouth disease in Shajing Street of Baoan District in Shenzhen city from 2006-2011[J]. Occupation and Health, 2012, 28 (23) : 2939–2941 .(in Chinese) 袁坚, 陆剑勇, 刘德坚, 等. 2006-2011年深圳市沙井街道手足口病流行病学分析[J]. 职业与健康,2012,28 (23) :2939–2941.
[6] Liao YX, Lu Y, Mei SJ, et al. Epidemiological characteristics ofhand foot and mouth disease in Shenzhen city from 2009-2013[J]. Practical Preventive Medicine, 2015, 22 (1) : 69–71 .(in Chinese) 廖玉学, 路滟, 梅树江, 等. 2009-2013年深圳市手足口病流行特征分析[J]. 实用预防医学,2015,22 (1) :69–71.
[7] Yin ZY, Fang CF. Infectious disease forecasting and earlywarning method[J]. Chinese Journal of Health Statistics, 2010, 27 (2) : 218–220 .(in Chinese) 尹志英, 方春福. 传染病预警预测方法探讨[J]. 中国卫生统计,2010,27 (2) :218–220.
[8] 方积乾, 陆盈, 张晋昕, 等. 现代医学统计学(时间序列分析方法及其医学应用)[M]. 北京: 人民卫生出版社, 2002 . Fang JQ, Lu Y, Zhang JX, et al. Modern medical statistics (time series analysis method and its application in medicine)[M]. Beijing: People's Medical Publishing House, 2002 .
[9] Wolfson LJ, Grais RF, Luquero FJ, et al. Estimates of measles case fatality ratios:a comprehensive review of community-based studies[J]. Int J Epidemiol, 2009, 38 (1) : 192–205 .
[10] 王燕. 应用时间序列分析[M]. 北京: 中国人民大学出版社, 2006 . Wang Y. Application of time series analysis[M]. Beijing: Renmin University of China Press, 2006 .
[11] 张文彤. SPSS 11统计分析教程(高级篇)[M]. 北京: 北京希望电子出版社, 2002 . Zhang WT. SPSS 11 statistical analysis course (Advanced)[M]. Beijing: Beijing Hope Electronic Press, 2002 .
[12] Chen F, Wang XT, Zhu HX. Mixture exponential-cyclical-model and its applications in analyzing the seasonal fluctuation of disease[J]. Journal of Nantong Medical College, 1996, 16 (3) : 301–302 .(in Chinese) 陈峰, 王啸天, 朱和新. 混合指数周期模型及其在疾病季节性分析中的应用[J]. 南通医学院学报,1996,16 (3) :301–302.
[13] Peng ZH, Bao CJ, Zhao Y, et al. Weighted Markov chains for forecasting and analysis in Incidence of infectious diseases in Jiangsu Province, China[J]. J Biomed Res, 2010, 24 (3) : 207–214 .
[14] Bowerman BL, O'Connell RT. Forecasting and time series:an applied approach[M]. Beijing: China Machine Press,, .
[15] Wang ZQ, Wu XQ. Application of multiple seasonal autoregressive integrated moving average model in forecasting the number of discharged patients[J]. Chinese Medical Record, 2015, 16 (2) : 73–76 .(in Chinese) 王舟强, 吴小琴. ARIMA乘积季节模型在出院人数预测中的应用[J]. 中国病案,2015,16 (2) :73–76.
[16] Peng ZX, Bao CJ, Zhao Y, et al. ARIMA Product Season Model and its application on forecasting in incidence of infectious disease[J]. Application of Statistics and Management, 2008, 27 (2) : 362–368 .(in Chinese) 彭志行, 鲍昌俊, 赵扬, 等. ARIMA乘积季节模型及其在传染病发病预测中的应用[J]. 数理统计与管理,2008,27 (2) :362–368.
[17] Zhang ZW, Lu ZP, Zeng YM, et al. Application of autoregressive integrated moving average model in forecasting bacillary dysentery in Dongguan city[J]. Journal of Public Health and Preventive Medicine, 2013, 24 (4) : 43–45 .(in Chinese) 张泽武, 卢展鹏, 曾耀明, 等. ARIMA模型在东莞市细菌性痢疾预测中的应用[J]. 公共卫生与预防医学,2013,24 (4) :43–45.
[18] Yin ZD, Luo HM, Li YX, et al. The application of autoregressive integrated moving average model on the prediction of Japanese encephalitis cases[J]. Chinese Journal of Vaccines and Immunization, 2010, 16 (5) : 457–461 .(in Chinese) 尹遵栋, 罗会明, 李艺星, 等. 时间序列分析(自回归求和移动平均模型) 在流行性乙型脑炎预测中的应用[J]. 中国疫苗和免疫,2010,16 (5) :457–461.
[19] Chen C, Tian X, Zhou JH, et al. Building and application of ARIMA model on Mumps epidemic[J]. Chinese Journal of Public Health, 2012, 28 (2) : 252–253 .(in Chinese) 陈超, 田鑫, 周剑惠, 等. 流行性腮腺炎疫情时间序列模型建立与应用[J]. 中国公共卫生,2012,28 (2) :252–253.
[20] Cai XH, Wan QP, Wu YS, et al. Application of ARIMA model in predicting incidence trend of hand-foot-mouth disease in Zhabei district, Shanghai[J]. Practical Preventive Medicine, 2012, 19 (3) : 381–384 .(in Chinese) 蔡小虹, 万秋萍, 吴益生, 等. ARIMA模型预测上海市闸北区手足口病发病趋势[J]. 实用预防医学,2012,19 (3) :381–384.
[21] Tu ZB, Li H, Liu MB, et al. Application of multiple seasonal autoregressive integrated moving average mode l in prediction of incidence of hand foot and mouth disease[J]. Disease Surveillance, 2014, 29 (11) : 871–874 .(in Chinese) 涂志斌, 李辉, 刘明斌, 等. 自回归移动平均模型乘积季节模型在南昌市手足口病疫情预测中的应用[J]. 疾病监测,2014,29 (11) :871–874.
[22] Wang P, Chen BH, Kong DG, et al. Journal of Public Health and Preventive Medicine,2015,26(1):26-29[J]. Journal of Public Health and Preventive Medicine, 2015, 26 (1) : 26–29 .(in Chinese) 汪鹏, 陈邦华, 孔德广, 等. 求和自回归移动平均模型在武汉市手足口病疫情预测预警中的应用[J]. 公共卫生与预防医学,2015,26 (1) :26–29.
[23] Huang XX, Zhang SX, Zhao JW, et al. Prediction of monthly hand foot and mouth disease incidence in China by using autoregressive integrated moving average model[J]. Disease Surveillance, 2013, 28 (5) : 396–399 .(in Chinese) 黄晓霞, 张顺先, 赵俊伟, 等. 采用自回归移动平均模型预测中国手足口病月发病率[J]. 疾病监测,2013,28 (5) :396–399.
[24] Wu JB, Ye LX, You EK. Prediction of incidence of notifiable contagious diseases by application of time series model[J]. Journal of Mathematical Medicine, 2007, 20 (1) : 90–92 .(in Chinese) 吴家兵, 叶临湘, 尤尔科. ARIMA模型在传染病发病率预测中的应用[J]. 数理医药学杂志,2007,20 (1) :90–92.
[25] Qiu L, Yu HL, Li HL, et al. Application of autoregressive integrated moving average model in predicting incidence of bacillary dysentery in Shaanxi[J]. Disease Surveillance, 2014, 29 (5) : 403–406 .(in Chinese) 邱琳, 郁会莲, 李红蕾, 等. 求和自回归移动平均模型在陕西省细菌性痢疾发病预测中的应用[J]. 疾病监测,2014,29 (5) :403–406.
[26] Glynn P, Sigman K. Independent sampling of a stochasticprocess[J]. Stoch Process Appl, 1998, 74 (2) : 151–164 .
[27] Wang J, Zhou MG, Hu J, et al. Application of ARIMA model inpredicting tuberculosis incidence in Jiangxi[J]. Disease Surveillance, 2012, 27 (6) : 462–467 .(in Chinese) 王健, 周脉耕, 胡嘉, 等. 求和自回归移动平均模型在江西省结核病发病预测中的应用[J]. 疾病监测,2012,27 (6) :462–467.
[28] Feng D, Han XN, Zhao WJ, et al. Using ARIMA model to surveillance and forecast the incidence rate of notifiableinfectious diseases in Mainland China[J]. Chinese Journal of Disease Control and Prevention, 2007, 11 (2) : 140–143 .(in Chinese) 冯丹, 韩晓娜, 赵文娟, 等. 中国内地法定报告传染病预测和监测的ARIMA模型[J]. 疾病控制杂志,2007,11 (2) :140–143.