疾病监测  2018, Vol. 33 Issue (1): 54-58

扩展功能

文章信息

郑代坤, 谭毅, 李佳, 王军, 马帅, 沈忠周
Zhen Daikun, Tan Yi, Li Jia, Wang Jun, Ma Shuai, Shen Zhongzhou
基于自回归求和移动平均模型预测我国手足口病月报告发病数
Prediction of monthly reported cases of hand foot and mouth disease by ARIMA model in China
疾病监测, 2018, 33(1): 54-58
Disease Surveillance, 2018, 33(1): 54-58
10.3784/j.issn.1003-9961.2018.01.013

文章历史

收稿日期:2017-09-03
基于自回归求和移动平均模型预测我国手足口病月报告发病数
郑代坤1, 谭毅2, 李佳3, 王军1, 马帅4, 沈忠周4     
1. 重庆市万州区疾病预防控制中心, 重庆 万州 404020;
2. 重庆市开州区疾病预防控制中心, 重庆 开州 405499;
3. 重庆市云阳县疾病预防控制中心, 重庆 云阳 404500;
4. 北京协和医学院公共卫生学院, 北京 100730
摘要目的 建立适合预测我国手足口病月报告发病人数的自回归求和移动平均(ARIMA)乘积季节模型,并评价其预测效果。方法 收集2010年3月至2017年7月我国手足口病月发病报告人数资料。通过R软件使用2010年3月至2017年1月的数据建立ARIMA乘积季节模型,并用2017年2-7月手足口病月发病报告人数评估该模型的预测效果,并对2017年8-12月的数据进行预测。结果 我国手足口病月发病报告数呈明显的周期性,且以24个月为一个周期重复,不具有长期趋势;建立了ARIMA(1,0,1)(0,1,1)24模型对我国手足口病月发病报告数进行预测;通过将预测数据与实际数据相比较,该模型预测绝对误差的平均值和相对误差的平均值分别为22 505.47和15.71%。结论 基于本研究的数据,ARIMA(1,0,1)(0,1,1)24模型可以拟合我国手足口病的月报告发病人数,可用于预测;同时也可为我国制定手足口病方面的防控措施以及评价防控效果提供科学的参考依据。
关键词手足口病    自回归求和移动平均模型    预测    
Prediction of monthly reported cases of hand foot and mouth disease by ARIMA model in China
Zhen Daikun1, Tan Yi2, Li Jia3, Wang Jun1, Ma Shuai4, Shen Zhongzhou4     
1. Wanzhou County Center for Disease Control and Prevention, Wanzhou 404020, Chongqing, China;
2. Kaizhou County Center for Disease Control and Prevention, Kaizhou 405499, Chongqing, China;
3. Yunyang County Center for Disease Control and Prevention, Yunyang 404500, Chongqing, China;
4. School of Public Health, Peking Union Medical College, Beijing 100730, China
Corresponding author: Shen Zhongzhou, E-mail:szz90123@163.com.
Abstract: Objective To establish an autoregressive integrated moving average(ARIMA)model for the prediction of hand foot and mouth disease(HFMD)incidence in China and evaluate its forecosting ability. Methods The ARIMA model was established by using the incidence data of HFMD in China from March 2010 to January 2017 with software Excel 2007 and the incidence data of HFMD from February to July 2017 was used to evaluate the prediction abiliy of the model. Results The incidence of HFMD had obvious periodicity in China, i.e. 24 months. The ARIMA(1, 0, 1)(0, 1, 1)24 model was established to predict the incidence of HFMD in China. Compared with actual data from February to July 2017, the mean of absolute error and the relative error were 22 505.47 and 15.71%, respectively. Conclusion Based on the results of this study, the ARIMA(1, 0, 1)(0, 1, 1)24 model can be used for the fitting of HFMD incidence in China. It can not only predict the case number but also provide reference for the development of evaluation of prevention and control measures.
Key words: Hand foot and mouth disease     Autoregressive integrated moving average model     Prediction    

手足口病多见于10岁以下儿童,以<4岁所占比例最大[1-2]。手足口病患者一旦发病,没有特异性的药物进行治疗,且由其所导致的死亡已经位居丙类法定报告传染病的首位[3-4]。2008年以来,手足口病在全国广泛流行,并常在托幼机构中呈现出局部暴发的态势,对儿童健康带来较大威胁。构建合理的模型进行科学的预测,对手足口病风险的评估和实际防控工作指导意义重大[5],采用季节性自回归滑动平均混合模型预测手足口病的发病是目前最常用的方法之一[6],该方法的突出特点是以历史数据建立自回归求和移动平均(ARIMA)模型进行外推预测,为传染病疫情监测和干预措施效果的评价提供了科学的参考[7]。本研究利用全国手足口病报告发病资料,根据发病周期性、季节性等特征,探讨建立ARIMA模型开展手足口病发病情况的预测。

1 资料与方法 1.1 资料来源

手足口病月报告发病数(发病数)资料来源于国家卫生和计划生育委员会疾病预防控制局网站公布的全国法定传染病月疫情统计数据[8],收集2010年3月至2017年1月全国手足口病发病人数用于构建模型,2017年2—7月的数据用于模型检验,并利用该模型对2017年8—12月的发病数据进行预测。

1.2 研究方法

ARIMA模型预测手足口病的发病是目前最常用的方法之一。ARIMA模型是自回归移动平均(ARMA)模型的一种特殊形式,ARMA模型还有另外两种形式,一是当ARMA过程为纯自回归过程时称为AR模型,二是当ARMA过程为纯移动平均过程时称为MA模型。ARIMA模型主要应用于非平稳序列建模,对非平稳序列进行平稳化处理后即可按照ARMA模型的方法建立模型。建立ARIMA模型一般有4个步骤:预处理、模型识别、模型检验和预测[9]。①预处理:包括平稳性和纯随机性检验。平稳性检验可以通过时序图、自相关系数图(auto correlation function,ACF)和偏自相关系数图(partial auto correlation function,PACF)以及增广DF检验,即ADF检验(augmented dickey-fuller)得出。②模型识别:根据ACF和PACF图选择适当的p、q、P、Q值拟合ARIMA(p,d,q)(P,D,Q)s模型,备选模型可以为多个也可根据R软件中自带的“auto. arima()”函数进行拟合,本文将同时使用这两种方法进行模型拟合。③模型检验:检验拟合的模型是否有效,如果一个模型拟合有效则有效模型的残差将不再蕴含任何信息,即残差序列为白噪声序列;反之则认为模型拟合不够有效,应重新拟合。在可能有多个备选模型通过白噪声检验时根据最小信息量准则AIC(akaike information criterion)和SBC(schwartz-bayes criterion)准则进行模型优化,使两者都达到最小值(通常情况下根据AIC就可进行判断)的模型就可以认为是相对最优模型。④模型预测:用相对最优模型对建模外几个月的发病情况进行预测并估计该种模型的预测能力并进行预测。在结合本次研究的实际情况和参考了相关的文献[10]绘制了本次研究的具体流程图(图 1)。

图 1 流程图 Figure 1 Flow chart
1.3 统计学分析

使用Excel 2007软件建立数据库,使用R-3.1.3软件建模和预测。

2 结果 2.1 发病人数的基本特征

通过观察原始序列的时序图可以看出(图 2):①我国每年手足口病的报告数相对平稳,并无明显的增长趋势。②报告病例数呈现明显的周期性,相同峰之间的间隔为24个月,而不是通常所认为的12个月。③全国水平的手足口病月发病数在每年的2月最低,在4—6月达到最高峰,并且在10或11月会有一个“抬头”的趋势,但趋势并不太明显;虽然每年会有两个高峰,但意义较大的峰是4—6月出现的峰。

图 2 原始序列时序图 Figure 2 Time series chart of monthly reported HFMD cases in China, March 2010 -January 2017
2.2 模型构建 2.2.1 预处理及序列平稳化

通过绘制原始序列的时序图,发现该时序图并无明显的增长趋势,通过观察时序图可以发现手足口病的发生是具有周期性的,但无法确定周期长短。因此本研究首先进行了周期为12个月的12步差分处理,得到差分后相应的时序图以及ACF和PACF图(图 34),由ACF图我们也能看出周期性提取的并不充分,仍有周期蕴含在差分后的序列之中。

图 3 12步差分后的自相关系数(ACF)图 Figure 3 ACF of monthly reported HFMD cases after 12 periodical differences
图 4 12步差分后的偏自相关系数(PACF)图 Figure 4 PACF of monthly reported HFMD cases after 12 periodical differences

随后,对序列进行了周期为24个月的24步差分,得到ACF和PACF图(图 56)。通过观察ACF图可以看出在一阶后显著为零,且近乎都在2倍的标准差的范围内波动,说明序列平稳,可以进行建模。

图 5 24步差分后的自相关系数(ACF)图 Figure 5 ACF of monthly reported HFMD cases after 24 periodical differences
图 6 24步差分后的偏自相关系数(PACF)图 Figure 6 PACF of monthly reported HFMD cases after 24 periodical differences
2.2.2 模型识别

通过观察24步差分后的ACF图可以看出其在1阶后显著为零,在1阶和24阶处显著不为零,而在48阶处显著为零,可以认为在24阶截尾,因此q=1、Q=1;通过观察PACF图可以看出在1阶后显著为零,在24阶处接近2倍标准差线,也是截尾的性质,故考虑p=1、P=1或0。有两种可能的组合模型:ARIMA(1,0,1)(1,1,1)24和ARIMA(1,0,1)(0,1,1)24

2.2.3 模型检验和优化

通过对这两种可能的模型分别建模比较,得出两种模型的残差白噪声检验结果和AIC值。通过比较白噪声检验结果以及AIC值(表 1),因ARIMA(1,0,1)(0,1,1)24有更好的白噪声检验结果和更小的AIC值,故选择ARIMA(1,0,1)(0,1,1)24模型作为本研究的最优模型。

2.3 模型预测

确定最优模型后对建模之外6个月的数据(2017年2—7月)进行预测,用以评估模型的预测能力,见表 2。结果显示真实值都在预测值95%的可信区间范围内,且预测的相对误差最大为36.1%,平均相对误差为15.7%。之后用此模型对2017年8—12月的数据进行预测(表 3)。

表 1 拟建模型及残差白噪声检验表 Table 1 Results of different models'white noise test
拟建模型 滞后阶数 AIC值
6 12 18 24
ARIMA(1,0,1)(1,1,1)24 p=0.714 p=0.890 p=0.962 p=0.981 1 424.550
ARIMA(1,0,1)(0,1,1)24 p=0.818 p=0.927 p=0.973 p=0.940 1 424.370
表 2 ARIMA(1,0,1)(0,1,1)24模型预测效果评估 Table 2 Evaluation of ARIMA(1, 0, 1)(0, 1, 1)24 model's prediction effect
月份 真实值 预测值 95%CI 绝对误差 相对误差
2 38 654 42 567.141 -26 621.985 ~ 111 756.267 3 913.141 0.101
3 61 225 68 870.920 -20 863.467 ~ 158 605.306 7 645.920 0.125
4 112 898 153 622.836 58 674.098 ~ 248 571.574 40 724.836 0.361
5 211 189 266 272.253 169 839.457 ~ 362 705.049 55 083.253 0.261
6 308 789 321 190.061 224 323.959 ~ 418 056.163 12401.061 0.040
7 277 680 262 415.389 165 422.046 ~ 359 408.732 15264.611 0.055
平均值 22 505.470 0.157
表 3 ARIMA(1,0,1)(0,1,1)24模型对8—12月进行预测的预测值表 Table 3 Prediction value of HFMD from August to December 2017 by ARIMA(1, 0, 1)(0, 1, 1)24 model
月份 预测值 95%CI
8 157 274.865 60 244.658~ 254 305.073
9 161 346.151 64 307.215~ 258 385.086
10 138558.779 41 524.534~ 235 593.024
11 135168.801 38 160.573~ 232 177.028
12 112 297.741 15380.766~ 209 214.716
3 讨论

本研究通过分析我国2010年3月至2017年7月手足口病发病数,结果显示手足口病发生具有长期稳定性的趋势,总体上以周期为2年不断循环发生。但是也不排除在某些具体地区手足口病的发生呈现上升趋势。从全国水平来看每年大约有两个高峰,第1个高峰出现在4—6月,可能手足口病的发生和发展随着温度和湿度的增加有升高的趋势[1112];第2个相对小的高峰出现在10—11月。这两个高峰的现象与南方地区相似,但是我国的北方地区每年的手足口病通常只有1个高峰[1314],原因可能是北方冬季比较寒冷且干燥,不利于肠道病毒的传播。

关于模型的选择,大多数研究进行了一阶差分去除长期趋势,然后进行12步差分去除周期趋势。本研究最初进行了一阶12步差分,但差分后建立模型的预测效果并不是很理想。如黄晓霞等[7]使用12步差分的方式建立ARIMA(1,0,0)(0,1,0)12模型,但是结果显示其实际值与预测值的相对误差平均值为28. 62%,最大为44. 57%,最小为4. 92%。本研究重新观察原始序列的时序图,经过讨论后发现手足口病的发病周期为24个月更为理想。于是对序列进行24步的差分,分析后发现相对误差降低,最大36. 07%,最小4. 02%,平均为15.71%,提示模型拟合的准确度得到了改善。有文献提示拟合模型预测的平均误差不宜超过10%[15],本研究的平均误差超过10%,分析其可能的原因:一是受到接种疫苗因素的影响,肠道病毒71型灭活疫苗于2016年上半年正式上市,于2016年下半年在较大范围人群中进行了接种;由于疫苗的保护率较高,使得新发手足口病的儿童数相对减少,所以可能会对模型的预测结果带来相应的影响;二是模型预测精度可能受到气候因素对发病的影响,导致预测值偏大;三是我们对模型的使用和理解不够,有待于更多的磨合。

利用ARIMA模型对每个季节周期中相同时间点的序列值进行分析,可以提取其中的季节趋势,并针对每个季节周期内部序列的变化提取其中的非季节性成分,因此可借助模型对我国手足口病发病率进行早期预测、预警,为未来一段时间制定相应的手足口病的防控策略提供参考依据,从而减少决策的盲目性,有利于采取正确的干预措施,减少疾病流行对儿童健康的影响[16-17]

作者贡献:

郑代坤  ORCID:0000⁃0002⁃6414⁃2548

郑代坤:研究设计、数据核查与数据分析、论文撰写

沈忠周:研究整体设计、文章修改

谭毅、李佳:研究设计及核查论文内容

王军、马帅:研究设计、数据收集及整理

参考文献
[1]
马晓梅, 刘颖, 杨梦利, 等. 手足口病月发病率ARIMA乘积季节模型预测探讨[J]. 现代预防医学, 2017, 44(9): 1541-1544, 1560.
Ma XM, Liu Y, Yang ML, et al. Multiple seasonal ARIMA model in prediction of the monthlyincidence of the hand, foot and mouth disease[J]. Mod Prev Med, 2017, 44(9): 1541-1544, 1560.
[2]
Ventarola D, Bordone L, Silverberg N. Update on hand, foot and mouth disease[J]. Clin Dermatol, 2015, 33(3): 340-346. DOI:10.1016/j.clindermatol.2014.12.011
[3]
Zhang XY, Hou FS, Qiao ZJ, et al. Temporal and long -term trend analysis of class C notifiable diseases in China from 2009 to 2014[J]. BMJ Open, 2016, 6(10): e11038. DOI:10.1136/bmjopen.2016.011038
[4]
Bian LL, Wang YP, Yao X, et al. Coxsackievirus A6:a new emerging pathogen causing hand, foot and mouth disease outbreaks worldwide[J]. Expert Rev Anti infect Ther, 2015, 13(9): 1061-1071. DOI:10.1586/14787210.2015.1058156
[5]
杨小兵, 孔德广, 江高峰. ARIMA乘积季节模型在手足口病发病预测中的应用研究[J]. 中国预防医学杂志, 2016, 17(3): 207-211.
Yang XB, Kong DG, Jiang GF. Application of multiple seasonal ARIMA model in the prediction of the incidence of hand, foot and mouth disease[J]. Chin Prev Med, 2016, 17(3): 207-211. DOI:10.16506/j.1009-6639.2016.03.012
[6]
王永斌, 柴峰, 李向文, 等. ARIMA模型与残差自回归模型在手足口病发病预测中的应用[J]. 中华疾病控制杂志, 2016, 20(3): 303-306.
Wang YB, Chai F, Li XW, et al. Application of ARIMA model and auto-regressive model in prediction on incidence of hand, foot and mouth disease[J]. Chin J Dis Control & Prev, 2016, 20(3): 303-306. DOI:10.16462/j.cnki.zhjbkz.2016.03.022
[7]
黄晓霞, 张顺先, 赵俊伟, 等. 采用自回归移动平均模型预测中国手足口病月发病率[J]. 疾病监测, 2013, 28(5): 396-399.
Huang XX, Zhang SX, Zhao JW, et al. Prediction of monthly hand, foot and mouth disease incidence in China by using autoregressive integrated moving average model[J]. Dis Surveill, 2013, 28(5): 396-399. DOI:10.3784/j.issn.1003-9961.2013.5.017
[8]
国家卫生和计划生育委员会. 疫情播报[EB/OL]. [2017-08-19]. http://www.moh.gov.cn/zwgk/yqbb3/ejlist.shtml.
National health and family planning commission of the PRC. Epidemic broadcast[EB / OL]. [2017-08-19]. http://www.moh.gov.cn/zwgk/yqbb3/ejlist.shtml.
[9]
王燕. 时间序列分析—基于R[M]. 4版. 北京: 中国人民大学出版社, 2015.
Wang Y. Time Series Analysis with R[M]. 4th ed. Beijing: China Renmin University Press, 2015.
[10]
赵肖肖, 朱宁, 黄黎平. 基于ARIMA模型的时间序列建模算法和实证分析[J]. 桂林电子科技大学学报, 2012, 32(5): 410-415.
Zhao XX, Zhu N, Huang LP. Modeling algorithm and empirical analysis based on the time series of the ARIMA model[J]. J Guilin Univ Electr Technol, 2012, 32(5): 410-415. DOI:10.3969/j.issn.1673-808X.2012.05.015
[11]
Wang C, Cao K, Zhang YJ, et al. Different effects of meteorological factors on hand, foot and mouth disease in various climates:a spatial panel data model analysis[J]. BMC Infect Dis, 2016, 16: 233. DOI:10.1186/s12879-016-1560
[12]
郭萃. 三种主要传染病与气象因素的关系研究[D]. 广州: 南方医科大学, 2016.
Guo C. Relationship between three major communicable diseases and meteorological factors[D]. Guangzhou: South Medical University, 2016. http://cdmd.cnki.com.cn/Article/CDMD-12121-1016260862.htm
[13]
Xing WJ, Liao QH, Viboud C, et al. Hand, foot and mouth disease in China, 2008 — 2012:an epidemiological study[J]. Lancet Infect Dis, 2014, 14(4): 308-318. DOI:10.1016/S1473-3099(13)70342-6
[14]
Zhuang ZC, Kou ZQ, Bai YJ, et al. Epidemiological research on hand, foot and mouth disease in mainland China[J]. Viruses, 2015, 7(12): 6400-6411. DOI:10.1016/S1473-3099(13)70342—6
[15]
耿娟. ARIMA模型在医院门诊量预测中的应用[J]. 中国卫生统计, 2014, 31(4): 643-645.
Geng J. The application of ARIMA model in forecasting the amount of outpatient[J]. Chin J Health Stat, 2014, 31(4): 643-645. DOI:10.3390/v7122947
[16]
Zhang JN, Kang YC, Yang Y, et al. Statistical monitoring of the hand, foot and mouth disease in China[J]. Biometrics, 2015, 71(3): 841-850. DOI:10.1111/biom.12301
[17]
裴迎新, 刘慧慧. 对中国传染病监测发展方向的思考[J]. 疾病监测, 2014, 29(4): 327-330.
Pei YX, Liu HH. Discussion on future development of communicable disease surveillance in China[J]. Dis Surveill, 2014, 29(4): 327-330. DOI:10.3784/j.issn.1003-9961.2014.04.018