疾病监测  2016, Vol. 31 Issue (2): 136-140

扩展功能

文章信息

李丽丽, 董瑞强, 石磊, 黄少平, 阚震
LI Li-li, DONG Rui-qiang, SHI Lei, HUANG Shao-ping, KAN Zhen
季节性求和自回归移动平均模型在北京市房山区感染性腹泻发病趋势预测中的应用
Application of seasonal autoregressive integrated moving average model in predicting incidence of infectious diarrhea in Fangshan district of Beijing
疾病监测, 2016, 31(2): 136-140
Disease Surveillance, 2016, 31(2): 136-140
10.3784/j.issn.1003-9961.2016.02.012

文章历史

收稿日期: 2015-06-30
季节性求和自回归移动平均模型在北京市房山区感染性腹泻发病趋势预测中的应用
李丽丽 , 董瑞强, 石磊, 黄少平, 阚震    
北京市房山区疾病预防控制中心, 北京 房山 102488
摘要: 目的 构建北京市房山区感染性腹泻发病的季节性求和自回归移动平均(seasonal autoregressive integrated moving average,SARIMA)模型并进行预测。方法 应用R 3.0.1软件程序包中的TSA对2004-2013年房山区感染性腹泻月发病率构建模型,并对2014年各月感染性腹泻月发病率进行预测和评价。结果 SARIMA(0, 0, 2)(0, 1, 1)12模型较好地拟合既往时间段月发病率,对2014年发病趋势拟合平均相对误差为19.164%,对年发病率拟合平均相对误差为2.303%。结论 SARIMA(0, 0, 2)(0, 1, 1)12模型能够很好拟合感染性腹泻月发病率数据,可用于房山区感染性腹泻发病趋势的短期预测,为下一步采取针对性防控措施提供科学依据。
关键词: 感染性腹泻    季节性求和自回归移动平均模型    时间序列分析    
Application of seasonal autoregressive integrated moving average model in predicting incidence of infectious diarrhea in Fangshan district of Beijing
LI Li-li , DONG Rui-qiang, SHI Lei, HUANG Shao-ping, KAN Zhen    
Fangshan District Center for Disease Control and Prevention, Beijing, Beijing 102488, China
Abstract: Objective To establish a seasonal autoregressive integrated moving average (SARIMA) model to predict the transmission trend of infectious diarrhea in Fangshan district of Beijing. Methods A SARIMA model was established based on the monthly incidence data of infectious diarrhea from 2004 to 2013 in Fangshan by using software R 3.0.1 TSA. We evaluated the fitting results of observed values and predicted values, and used this model to predict and analyze the transmission trend of infectious diarrhea by using the incidence data of infectious diarrhea in Fangshan from January to December 2014. Results SARIMA (0, 0, 2) (0, 1, 1)12 was fitted well with the observed values. The average relative error of the model fitted to the selected actual case data was 19.164%. The average relative error of the model in annual incidence was 2.303%. Conclusion SARIMA (0, 0, 2) (0, 1, 1)12 can be applied to predict short-term incidences of infectious diarrhea in Fangshan, which would provide scientific evidence for the evaluation of prevention and control of infectious diarrhea.
Key words: Infectious diarrhea    Seasonal autoregressive integrated moving average model    Time-series analysis    

感染性腹泻病是由病原微生物及其产物或者寄生虫引起的以腹泻为主要临床表现的一组急性肠道传染病,是当今重要的全球性公共卫生问题之一[1]。在发展中国家,每年超过250万人死于急性感染性腹泻病[2]。房山区地处华北平原与太行山交界地带,是首都北京的西南门户。细菌性痢疾和其他感染性腹泻分别位于北京市房山区甲、乙类和丙类法定传染病发病首位,而且细菌性痢疾临床诊断符合率低,故笔者将该地区细菌性痢疾和其他感染性腹泻统称感染性腹泻,进行合并分析。本次研究利用2004-2014年感染性腹泻的疫情资料,采用季节性求和自回归移动平均(seasonal autoregressive integrated moving average,SARIMA)模型构建发病预测模型,对房山区感染性腹泻报告的发病率进行分析、预测,为早期采取针对性预防控制措施提供依据。

1 材料与方法 1.1 资料来源

2004-2014年北京市房山区感染性腹泻疫情资料来源于中国疾病预防控制信息系统,选用现住址为房山区的临床诊断病例及实验室确诊病例为研究对象。人口资料来源于房山区统计局年鉴数据。2004-2014年房山区感染性腹泻累计报告31 080例,年均报告发病率为286.274/10万;其中,2009年发病率最低,为242.773/10万,2006年发病率最高,为330.153/10万;不同年份之间感染性腹泻发病率差异有统计学意义(χ2=243.595,P=0.000)。

1.2 基本原理

时间序列分析将预测对象随时间变化形成的序列看做一个随机序列,也就是说,除纯属偶然原因引起的个别序列值外,时间序列是依赖于时间t的一组随机变量,可以从该时间序列的过去值及现在值预测未来值[3]。综合考虑到房山区感染性腹泻数据的趋势变化、季节性变化、周期变化及随机干扰,本研究中采用的模型是SARIMA,其结构为(p,d,q) (P,D,Q)S,其中p表示自回归阶数,d表示非季节差分次数,q表示移动平均阶数,P表示季节性自回归阶数,D表示季节性差分的次数,Q表示季节性移动平均阶数,s表示季节性周期。

1.3 构建模型基本步骤 1.3.1 序列预处理

感染性腹泻月发病率数据要符合平稳性要求,如果为非平稳数据,要通过一阶差分、二阶差分,季节差分或者是数据转换,保证在构建模型前序列平稳。

1.3.2 模型识别

通过分析感染性腹泻发病的自相关函数(auto-correlation function,ACF)图和偏自相关函数(partial auto-correlation function,PACF)图,初步确定模型可能的阶数。

1.3.3 参数估计与模型诊断

利用2004-2013年房山区感染性腹泻月发病率估计模型参数,并对估计的模型参数进行显著性检验。分析模型拟合值和真实值的残差e,通过对残差序列做ACF图、PACF图、Ljung-Box 及游程检验判定残差序列是否为白噪声序列,如果e不是白噪声序列,说明残差序列仍存在有用信息,信息提取不充分,模型需要改进。依据赤池信息准则(akaike information criterion,AIC)判定模型的拟合优度,通常AIC值最小的模型拟合优度最好。

1.3.4 预测应用

选取构建的最优模型对房山区2014年感染性腹泻月发病率进行短期预测,应用相对误差判定模型预测效果。

1.4 软件应用

采用Excel 2010软件和R 3.0.1软件程序包中的TSA对数据进行统计分析。

2 结果 2.1 序列预处理

绘制2004-2013年房山区感染性腹泻月发病率时间序列图(图 1),发现每年 6-8月为感染性腹泻发病高峰期,显示出明显的非平稳序列特征,具有长期趋势性和季节周期性。因此对原始数据进行自然对数转换,一次季节差分处理,消除序列的长期趋势和季节效应,差分后的时间序列图、ACF图和PACF图基本平稳,即D=1,见图 24

图 1 2004-2013年北京市房山区感染性腹泻月发病率时间变化趋势 Figure 1 Time series of monthly incidence of infectious diarrhea in Fangshan, 2004-2013
图 2 2004-2013年北京市房山区感染性腹泻发病率经自然对数及季节差分处理后时序 Figure 2 Time series of monthly incidence of infectious diarrhea after taking difference of lag 12 and nature log in Fangshan, 2004-2013
图 3 2004-2013年北京市房山区感染性腹泻月发病率经平稳化后的ACF Figure 3 ACF of monthly infectious diarrhea incidence after tranquilization in Fangshan, 2004-2013
图 4 2004-2013年北京市房山区感染性腹泻月发病率经平稳化后的PACF Figure 4 PACF of monthly infectious diarrhea incidence after tranquilization in Fangshan,2004-2013
2.2 模型识别

经过自然对数转换,一次季节差分处理后的ACF图和PACF图显示,当Lag=1时,ACF值和PACF值都超出了95%置信区间(CI),提示该序列在1阶以内相关性较大,当Lag>1时,其后的PACF值迅速衰减,当Lag=2时,ACF值超出了置信区间,当Lag>2时,其后的ACF值迅速衰减,提示ACF值2阶滞后截尾且相关性较小,可初步确定p为0或1,q为1或2,当Lag=12时,ACF值和PACF值超出了95%CI,当Lag=24时,PACF值超出了95%CI,可初步确定P为0或1,Q=1。模型的可能形式为:SARIMA(0,0,1) (0,1,1)12、SARIMA(0,0,2) (0,1,1)12、SARIMA(0,0,1) (1,1,1)12、SARIMA(0,0,2) (1,1,1)12、SARIMA(1,0,1) (0,1,1)12、SARIMA(1,0,2) (0,1,1)12、SARIMA(1,0,1) (1,1,1)12、SARIMA(1,0,2) (1,1,1)12

2.3 参数估计与模型诊断

根据初步判定的可能模型形式,从低阶至高阶逐个估计各个模型的参数值[4, 5],最终选择SARIMA(0,0,2) (0,1,1)12为最佳模型。该模型的AIC值为-16.34;模型残差序列的ACF和PACF均在置信限以内;游程检验差异无统计学意义(观测到的游程=57,预测游程=60.583,P=0.569,P>0.05),不能拒绝这个季节模型的随机项是独立的;Ljung-Box检验统计量差异无统计学意义(χ2 =1.096,P=0.295,P>0.05),可以认为残差序列为白噪声。

2.4 预测应用

利用SARIMA(0,0,2) (0,1,1)12对2004-2013年感染性腹泻月发病率进行组内回代,并对2014年各月发病率进行组外回代预测,实际发病率与模型预测发病率的序列见图 5,可以看出,除2013年11月数据外均未超出置信区间的范围,感染性腹泻月发病率预测数据与实际数据大体吻合,趋势基本相同。

图 5 房山区感染性腹泻预测发病率与实际发病率比较序列预测图 Figure 5 ACF of residual series of SARIMA (0, 0, 2) (0, 1, 1)12

对2014年各月感染性腹泻发病率进行短期预测,平均相对误差为19.164%,将各月感染性腹泻发病率相加,估计全年预测发病率为279.96/10万,相对误差为2.303%,见表 1

表 1 2014年房山区感染性腹泻月发病率预测评价结果 Table 1 Observed and predicted monthly infectious diarrhea incidences in Fangshan, 2014
月份实际发病率预测发病率 95%CI相对误差(%)
下限上限
112.14513.2728.81919.9729.277
29.3058.0655.15712.61313.326
312.0478.3465.16313.49130.724
420.66613.0078.04621.02437.062
527.03225.64015.86241.4465.151
640.94137.47423.18360.5758.467
740.06048.54930.03478.47621.192
838.98242.77026.45969.1359.717
923.70328.20317.44845.58918.987
1014.79021.40913.24434.60644.756
1117.04319.32111.95331.23113.369
1216.94513.9048.60222.47417.945
3 讨论

准确预测感染性腹泻未来疫情的发展趋势,是有效开展感染性腹泻防控工作的重要前提。时间序列分析方法有很多种,而SARIMA模型是目前应用于传染病预测较多的方法之一,是一种精度较高的时序短期预测方法[6]。虽然已有学者把SARIMA模型应用于感染性腹泻的预测研究[3, 7, 8],但是每个地区感染性腹泻发病情况不同,因此构建房山区的感染性腹泻SARIMA模型十分必要。

本次研究首先利用2004-2013年房山区感染性腹泻月发病率构建SARIMA早期预测模型。通过模型AIC值比较,选择拟合最优模型后,再用2014年各月的感染性腹泻发病率进行预测模型验证。2004-2013年数据组内预测结果显示:除2013年11月数据外,感染性腹泻预测值的动态趋势与实际情况基本吻合,说明该模型预测结果比较准确。同时也显示出预测的实际性及应用性,本研究中发现2013年11月房山区轮状病毒引起小年龄组散居儿童感染性腹泻暴发,使该月病例增加明显,导致实际值超出了模型预测值的95%CI上限。2014年各月验证数据显示:虽然实际值与预测值不完全相同,平均相对误差19.164%,但是实际值全部落入预测值的95%CI内,表明利用SARIMA模型预测房山区感染性腹泻发病趋势的可行性。而4月和10月相对误差较大,说明预测精度有待进一步提高。根据房山区感染性腹泻既往的变化规律,如果实际发病率在预测值95%CI内波动,表明当月疫情基本正常,如超出95%CI范围,应提示并警惕感染性腹泻暴发或流行的可能,可以为感染性腹泻预警预报及干预提供依据[9]

不同的传染病有不同的发病模式,同样,不同的预测模型也有不同的数学理论基础和适用条件[5]。应用SARIMA模型一般要求至少应有7或8个季节周期的数据对季节参数进行估计[10],本研究有10个季节周期的感染性腹泻月发病率序列值,达到应用SARIMA模型的基本要求。但是,感染性腹泻的流行受到诸多因素的影响,任何一个因素的改变都可能导致疾病的流行规律发生变化,因此,单次构建的预测模型不能作为永久不变的预测工具,应根据实际情况的变化随时进行预测模型的调整或者是重新拟合,以便提高模型的预测准确度,这样才能为传染病防控工作提供更为可靠的数据和建议。

参考文献
[1] Nylund CM, Denson LA, Noel JM. Bacterial enteritis as a risk factor for childhood intussusception:a retrospective cohort study[J]. J Pediatr,2010,156(5):761-765.
[2] Baldi F, Bianco MA, Nardone G, et al. Focus on acute diarrhoeal disease[J]. World J Gastroenterol,2009,15(27):3341-3348.
[3] Zheng L, Liu DJ, Qiu XY, et al. Application of time series analysis in forecasting the incidence of infectious diarrhea[J]. Journal of Tropical Medicine,2013,13(10):1268-1270. (in Chinese) 郑磊,刘德坚,邱星元,等. 时间序列分析法在其他感染性腹泻发病率预测中的应用[J]. 热带医学杂志,2013,13(10):1268-1270.
[4] Sun ZQ. Medical statistics[M]. 2nd ed. Beijing:People's Health Publishing House,2005. (in Chinese) 孙振球.医学统计学[M]. 2版. 北京:人民卫生出版社,2005.
[5] Qiu L, Yu HL, Li HL, et al. Application of autoregressive integrated moving average model in predicting incidence of bacillary dysentery in Shaanxi[J]. Disease Surveillance,2014,29(5):403-406. (in Chinese) 邱琳,郁会莲,李红蕾,等. 求和自回归移动平均模型在陕西省细菌性痢疾发病预测中的应用[J]. 疾病监测,2014,29(5):403-406.
[6] Chen C, Tian X, Zhou JH, et al. Building and application of ARIMA model on Mumps epidemic[J]. Chinese Journal of Public Health,2012,28(2):252-253. (in Chinese) 陈超,田鑫,周剑惠,等.流行性腮腺炎疫情时间序列模型建立与应用[J]. 中国公共卫生,2012,28(2):252-253.
[7] Kong LY, Li H, Wu JH, et al. Applications of the model of ARIMA in other infectious diarrhea in Nanchang[J]. Modern Preventive Medicine,2013,40(17):3153-3155, 3158. (in Chinese) 孔令岩,李辉,吴景文,等.南昌市其他感染性腹泻ARIMA模型的建立及应用[J]. 现代预防医学,2013,40(17):3153-3155, 3158.
[8] Hu JL, Liu WD, Liang Q, et al. Applications of season index method and ARIMA model on weekly prediction of infectious diarrhea incidence[J]. Chinese Journal of Disease Control & Prevention,2013,17(8):718-721. (in Chinese) 胡建利,刘文东,梁祁,等. 季节指数法和ARIMA模型在感染性腹泻周发病数预测中的应用研究[J]. 中华疾病控制杂志,2013,17(8):718-721.
[9] Wu JB, Ye LX, You EK. Application of time series model in theprediction of the incidence rate of infectious disease[J]. Chinese Journal of Health Statistics,2006,23(3):276. (in Chinese) 吴家兵,叶临湘,尤尔科.时间序列模型在传染病发病率预测中的应用[J]. 中国卫生统计,2006,23(3):276.
[10] Peng ZX, Bao CJ, Zhao Y, et al. ARIMA Product Season Model and its application on forecasting in incidence of infectious disease[J]. Application of Statistics and Management,2008,27(2):362-368. (in Chinese) 彭志行,鲍昌俊,赵杨,等. ARIMA乘积季节模型及其在传染病发病预测中的应用[J]. 数理统计与管理,2008,27(2):362-368.