疾病监测, 2013, 28(5): 396-399
DOI: 10.3784/j.issn.1003-9961.2013.5.017
Prediction of monthly hand foot and mouth disease incidence in China by using autoregressive integrated moving average model
HUANG Xiao-xia1, ZHANG Shun-xian2, ZHAO Jun-wei1, SI Bo-yun1, WANG Shi-wen1, WANG Ying1
Institute for Viral Disease Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 102206, China
Abstract
Objective To predict the monthly incidence of hand foot and mouth disease (HFMD) in the mainland of China by using autoregressive integrated moving average (ARIMA) model and provide evidence for the prevention and control of HFMD and more application of ARIMA model in communicable disease prevention and control. Methods According to the time series of reported monthly incidence of HFMD in China from 2008 to 2011, the ARIMA model predicting monthly HFMD incidence in China was established with the incidence of HFMD from January to July 2012 as demonstration data. Results The model predicting monthly incidence of HFMD in China is ARIMA (1,0,0,) (0,1,0)12, in which autoregressive (AR1) is 0.779 (t=7.315,P<0.001), Ljung-Box Q has no statistical significance (Ljung-Box Q=10.328, P=0.889) and residuals is the white noise. The average of the relative error between actual and predicted values from January to July in 2012 is 28.62% (maximum 44.57%, minimum 4.92%). Conclusion ARIMA can be used in the prediction of monthly HFMD incidence. More original data are needed in order to optimize the model.
Keywords:    hand foot and mouth disease   monthly incidence   autoregressive integrated moving average  

采用自回归移动平均模型预测中国手足口病月发病率
黄晓霞1, 张顺先2, 赵俊伟1, 司拨云1, 王世文1, 王英1
1. 中国疾病预防控制中心病毒病预防控制所, 北京 102206;
2. 甘肃省疾病预防控制中心
摘要
目的 采用自回归移动平均(autoregressive integrated moving average, ARIMA)模型对中国(未含香港、澳门和台湾地区)的手足口病月发病率进行预测,为手足口病预防控制提供参考依据,为ARIMA在传染病预防控制中的运用提供新的领域。 方法 根据2008-2011年全国手足口病月报告发病率时间序列,以2012年1-7月的月发病率作为验证数据,建立中国手足口病月发病率的ARIMA模型。 结果 我国手足口病月发病率模型为ARIMA(1,0,0)(0,1,0)12,模型自回归参数AR1=0.779 (t=7.315,P<0.001),残差分析统计量经检验差异无统计学意义(Ljung-Box Q=10.328,P=0.889),提示残差为白噪声。2012年1-7月实际值与预测值的相对误差平均值为28.62%,最大44.57%,最小4.92%。 结论 ARIMA可用于我国手足口病月发病率的预测,模型预测效果的优化有待原始数据进一步积累。
关键词:    手足口病   月发病率   自回归移动平均模型  

内容大纲
1 材料与方法
1.1 资料来源
1.2 ARIMA模型分析步骤
1.2.1 时间序列分析的条件
1.2.2 模型识别
1.2.3 模型的参数估计和检验
1.2.4 模型的诊断
1.2.5 模型预测
1.3 分析软件
2 结果
2.1 2008-2011年全国手足口病月发病率
2.2 序列的平稳化
2.3 模型识别及定阶、参数估计、诊断
2.4 模型预测
3 讨论
  手足口病(hand-foot-mouth disease, HFMD)自2008年5月成为法定报告的丙类传染病以来,连续几年报告发病率位居全国传染病前几位(2009年居第3位,2010-2011年中国居第1位),同时也是造成5岁以下儿童死亡的重要原因之一,已成为不可忽视的公共卫生问题。预测预报发病水平是手足口病预防控制工作的一项重要内容,本文尝试采用自回归移动平均模型(autoregressive integrated moving average, ARIMA),这一在时间序列分析中数学理论较成熟的方法[1],对我国手足口病的月发病率水平进行预测,为预防控制工作提供参考依据。
1 材料与方法
1.1 资料来源
  根据中国疾病预防控制信息系统中的《疾病监测信息报告管理系统》,按照已审核状态,分别下载2008-2012年7月全国手足口病分月报告发病率(未含香港、澳门和台湾地区),形成所需的时间序列数据库。
1.2 ARIMA模型分析步骤
  季节性时间序列采用乘积季节模型,即ARIMA(p,d,q)×(P,D,Q)s。其中d为平稳化过程中差分的阶数,p、q为自回归和移动平均阶数。P、Q为季节性自回归和移动平均阶数,D为季节差分阶数,S为季节周期。ARIMA的建模步骤如下:
1.2.1 时间序列分析的条件
  ARIMA模型只适合于平稳序列的分析,实际应用中要将非平稳序列通过数据转换和(或)差分处理变为平稳序列。
1.2.2 模型识别
  确定模型ARIMA(p,d,q)或ARIMA(p,d,q)(P,D,Q)s中的参数p、d、q和P、D、Q及S。根据差分次数分别确定模型中的d和D,p、q值可由自相关函数(ACF)和偏自相关函数图(PACF)得到[2]。季节模型的参数P、Q阶数一般在2以内,分别取0、1、2试验,选择其中最佳模型[3]
1.2.3 模型的参数估计和检验
  采用极大似然法或最小二乘法估计模型参数,在各参数有统计学意义的基础上,根据拟合优度统计量比较模型的优劣。采用标准化的贝叶斯准则(BIC)比较模型的拟合优度,值较小的模型较好。
1.2.4  模型的诊断
  对模型的残差序列进行白噪声检验,检验方法是计算Box-Jenkins统计量(Q值)。
1.2.5 模型预测
  根据建立的时间序列预测模型,对未来时间序列变动的趋势进行点估计和区间估计。
1.3 分析软件
  采用SPSS 19.0软件进行ARIMA模型分析时,首先通过Date命令建立时间序列,运用Analyze命令观察数据的平稳性和建立模型,如时间序列不平稳,运用Transform命令对数据进行平稳化处理。
2 结果
2.1 2008-2011年全国手足口病月发病率
  图1显示全国手足口病月发病率的特点是波动较大,呈明显的季节性,每年以5-7月发病率最高,同时图2、3自相关(ACF)和偏自相关(PACF)函数图既不截尾也不拖尾,提示该时间序列为非平稳性序列。
2.2 序列的平稳化
  首先对2008-2011年全国手足口病月发病率数据进行平方根转换减小数据方差,然后对转换后的时间序列进行一次季节性差分提取季节信息, 差分后的时间序列图、ACF和PACF图接近平稳,同时确定ARIMA(p,d,q)×(P,D,Q)12中的d和D分别为0和1。见图4~6。

图1 2008-2011年全国手足口病月发病率
Figure 1 Monthly incidence of HFMD in China,2008-2011
2008-2011年全国手足口病月发病率

图2 2008-2011年全国手足口病月发病率ACF函数图
Figure 2 ACF of monthly incidence of HFMD in China,2008-2011
2008-2011年全国手足口病月发病率ACF函数图

图3 2008-2011年全国手足口病月发病率PACF函数图
Figure 3 PACF of monthly incidence of HFMD in China,2008-2011
2008-2011年全国手足口病月发病率PACF函数图

图4 2008-2011年全国手足口病月发病率差分序列图
Figure 4 Seasonal difference of monthly incidence of HFMD in China,2008-2011
2008-2011年全国手足口病月发病率差分序列图

图5 2008-2011年全国手足口病月发病率季节差分ACF函数图
Figure 5 ACF of seasonal difference of monthly incidence of HFMD in China,2008-2011
2008-2011年全国手足口病月发病率季节差分ACF函数图

图6 2008-2011年全国手足口病月发病率季节差分PACF函数图
Figure 6 PACF of seasonal difference of monthly incidence of HFMD in China,2008-2011
2008-2011年全国手足口病月发病率季节差分PACF函数图

2.3 模型识别及定阶、参数估计、诊断
  本研究的模型结构为ARIMA(p,0,q)(P,1,Q)12。根据季节性差分后ACF、PACF的函数图,当lag=1时,ACF和PACF值都超出了可信区间,提示该序列在一阶以内相关性较大。当lag﹥1时,ACF出现拖尾,PACF截尾,参照几种常见ARIMA模型自相关分析标准图[2],可初步确定P=1,q=0。对季节模型参数P,Q的识别,分别取0、1、2逐个试验[3]。参数估计、模型拟合优度统计量指标选择平稳R2、均方根误差、BIC。为了得到最佳模型,选择标准化BIC最小(-1.373)、平稳R2(0.583)、均方根误差相对较小(0.456)的ARIMA(1,0,0)(0,1,0)12模型,其Ljung-Box Q=10.328,P=0.889,残差序列为白噪声。图7显示,残差序列ACF、PACF均落入随机区间内,提示模型信息提取比较充分,时间序列各项之间没有相关性。
2.4 模型预测
  以2008-2011年全国手足口病月发病率时间序列拟合ARIMA(1,0,0)(0,1,0)12后,再以2012年1-7月全国手足口病月发病率为验证数据进行预测,根据预测值与实际值的相对误差判断模

图7 模型ARIMA(1,0,0)(0,1,0)12残差序列ACF、PACF函数图
Figure 7 ACF and PACF of residual series of ARIMA (1,0,0)×(0,1,0)12
模型ARIMA(1,0,0)(0,1,0)<sub>12</sub>残差序列ACF、PACF函数图

型的预测效果,见表1,并绘制实际值和预测值序列图,见图8。本模型从区间估计上,预测结果总体趋势与实际情况一致,实测值未超出95%可信限范围。从点值估计上,1、7月预测值高于实际值,2-6月预测值低于实际值。在预测的精度上,2012年1-7月平均相对误差28.62%,最大44.57%,最小4.92%。

图8 2008-2012年全国手足口病月发病率趋势预测图
Figure 8 Predication of monthly incidence of HFMD in China,2008-2012
2008-2012年全国手足口病月发病率趋势预测图

表1 2012年1-7月全国手足口病月发病率预测值与实际值比较
Table 1 Comparison of actual and predicted values of monthly incidence of HFMD in China, January-July,2012
月份实际月发病率(/10万)月发病率预测值(/10万)月发病率预测值95%CI相对误差(%)
13.795.47 2.07~10.5044.57
23.022.50 0.19~7.4117.24
37.394.91 0.90~12.1233.58
417.7110.66 3.72~21.1639.84
534.4621.4210.57~36.0537.85
628.4627.0614.45~43.594.92
718.5522.7011.22~38.1822.36
平均相对误差28.62

3 讨论
  时间序列分析方法包括指数平滑法、移动平均法、自回归模型、ARIMA等。其中ARIMA模型常用于传染病的预测 。该方法的突出特点是以时间综合代替诸如温度、季节、病原体变化、预防控制干预等影响因素,依据历史数据建立ARIMA模型进行外推预测,为传染病疫情研判和干预效果评价提供参考。
预测手足口病流行趋势是采取预防措施和评估干预效果的重要内容。本文利用模型拟合值的95%可信限绘制2012年1-12月的月发病率预警图,当月发病率实测值高于95%可信区间的上限提示异常,以警惕暴发流行的风险。较为理想的情况是,预测发病率与预防控制的资源相结合更有意义。本研究未采用一般性差分是因为目前数据尚有限,长期趋势的研判仍有待时间的推移,另外随着干预力度的加大,手足口病疫情上升的趋势将会得到改变。
本文提出的手足口病月发病率ARIMA模型提示季节因素和前一个月发病水平对疫情影响较大,预测值的趋势与实际值一致,而1、4、5月相对误差较大,预测精度的提高仍有待后续数据的积累,对于已建立的模型将随着不断积累的实际值加以修正。

参考文献
[1] Zhang JX, He DW, Wang YL. Application of ARIMA Model in forecasting the demand for consumable materials in Hospital hygiene[J]. Chinese Journal of Hospital Statistics,1999,6(4):210-212.(in Chinese) 张晋昕,何大卫,王亚拉. ARIMA模型在医院卫生消耗材料需求量预测中的应用[J].中国医院统计,1999,6(4):210-212.
[2] Sun ZQ. Medical Statistics (second edition)[M].Beijing:People's Health Publishing House,2006. (in Chinese) 孙振球.医学统计学[M]. 第2版.北京:人民卫生出版社,2006.
[3] Yang PR,Tian H, Yan CY. Application of autoregressive integrated moving average model in forecasting of the monthly incidence rate in Baoji[J]. Journal of Public Health and Preventive Medicine,2012,23(1):16-19. (in Chinese) 杨培荣,田辉,严钏元. 自回归移动平均模型在宝鸡市细菌性痢疾月发病率预测中的应用[J]. 公共卫生与预防医学,2012,23(1):16-19.
[4] Feng D, Han XN, Zhao WJ, et al.Using ARIMA model to surveillance and forecast the incidence rate of NotⅠfiable infectious diseases in Mainland China[J]. Chinese Journal of Disease Control and prevention,2007,11(2):140-143. (in Chinese) 冯丹,韩晓娜,赵文娟,等. 中国内地法定报告传染病预测和监测的ARIMA模型[J].疾病控制杂志,2007,11(2):140-143.
[5] Jin RF, Huang CG, Qiu H, et al. Forecasting incidence of Tuberculosis in a city with four types of models[J].Modern Preventive Medicine,2008,35(24):4866-4869. (in Chinese) 金如锋,黄成钢,邱宏,等. 4种模型对我国某地区肺结核发病率的预测[J].现代预防医学,2008,35(24):4866-4869.
[6] Huang DS, Guo HQ, Shen TF, et al. Application of SARMA model in forecasting incidence of Hemorrhagic fever with Renal Syndrome[J].Mathematics in Practice and Theory,2009,39(23):100-106. (in Chinese) 黄德生,郭海强,沈铁峰,等. SARIMA模型在肾综合征出血热发病率预测中的应用. 数学的实践与认识,2009,39(23):100-106.
[7] Yin ZD, Luo HM, Li YX, et al. The application of autoregressive integrated moving average model on the prediction of Japanese encephalitis cases[J].Chinese Journal of Vaccines and Immunization,2010,16(5):457-461. (in Chinese) 尹遵栋,罗会明,李艺星,等. 时间序列分析(自回归求和移动平均模型)在流行性乙型脑炎预测中的应用[J].中国疫苗和免疫,2010,16(5):457-461.
[8] Peng ZX, Tao H, Jia CM, et al. Application of times series analysis on the prediction and warning of Measles outbreaks[J].Chinese Journal of Health Statistics,2010,27(5):459-463. (in Chinese) 彭志行,陶红,贾成梅,等.时间序列分析在麻疹疫情预测预警中的应用研究[J].中国卫生统计,2010,27(5):459-463.
[9] Chen C, Tian X, Zhou JH, et al. Building and application of ARIMA model on Mumps epidemic[J].Chinese Journal of Public Health,2012,28(2):252-253. (in Chinese) 陈超,田鑫,周剑惠,等. 流行性腮腺炎疫情时间序列模型建立与应用[J]. 中国公共卫生,2012,28(2):252-253.