疾病监测  2015, Vol. 30 Issue (12): 1045-1049

扩展功能

文章信息

原梅, 张治国, 豆智慧, 王路钦, 张峣, 李卫民, 高基民
YUAN Mei, ZHANG Zhi-guo, DOU Zhi-hui, WANG Lu-qin, ZHANG Yao, LI Wei-min, GAO Ji-min
北京市昌平区肺结核发病数ARIMA模型预测
Application of ARIMA model in predicting incidence of pulmonary tuberculosis in Changping district, Beijing
疾病监测, 2015, 30(12): 1045-1049
Disease Surveillance, 2015, 30(12): 1045-1049
10.3784/j.issn.1003-9961.2015.12.014

文章历史

收稿日期: 2015-06-11
北京市昌平区肺结核发病数ARIMA模型预测
原梅1, 张治国2, 豆智慧3, 王路钦2, 张峣3, 李卫民4, 高基民1     
1. 温州医科大学检验医学院生命科学学院浙江省模式生物技术与应用重点实验室浙江温州 325035;
2. 北京市昌平区结核病防治所北京 102200;
3. 中国疾病预防控制中心性病艾滋病预防控制中心北京 100050;
4. 首都医科大学附属北京胸科医院北京市结核病胸部肿瘤研究所国家结核病临床实验室北京 101149
摘要: 目的 探讨自回归滑动平均混合模型(autoregressive integrated moving average model, ARIMA)模型在北京市昌平区肺结核发病数预测中的应用,阐述建模过程并预测2015年昌平区肺结核发病数,为制定防治策略合理配置资源等提供参考。方法 采用全国结核病网络专报系统中2009-2014年现住址为北京市昌平区的肺结核报告发病数数据,通过模型识别、参数估计、检验诊断及模型评价,建立昌平区结核病发病数的ARIMA模型,并预测其2015年肺结核发病数。结果 现住址为昌平区的肺结核发病数预测模型为ARIMA(0,1,1)(0,1,1)12,预测2015年的新发报告肺结核患者总数为851例,模型2015年第一、二季度(1-6月)预测误差率为1.65%,不到10%,模型预测精度较好。结论 ARIMA模型适用于昌平区肺结核发病数的早期预测。
关键词: ARIMA模型    结核病    发病数    预测    
Application of ARIMA model in predicting incidence of pulmonary tuberculosis in Changping district, Beijing
YUAN Mei, ZHANG Zhi-guo, DOU Zhi-hui, WANG lU-qin, ZHANG Yao, LI Wei-min, GAO Ji-min     
1. Zhejiang Provincial Key Laboratory for Technology and Application of Model Organisms, School of Laboratory Medicine and Life Science, Wenzhou Medical University, Wenzhou 325035, Zhejiang, China;
2. The institute of Tuberculosis Prevention and Control of Changping District, Beijing 102200, China;
3. National Center for AIDS/STD Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 100050, China;
4. National Tuberculosis Clinical Laboratory of China, Beijing Tuberculosis and Thoracic Tumor Research Institute, Capital Medical University Affiliated Beijing Chest Hospital, Beijing 101149, China
Abstract: Objective To establish an ARIMA model for the prediction of incidence of pulmonary tuberculosis(TB) in Changping district, Beijing in 2015 and provide evidence for the prevention and control of TB and resource allocation. Methods The incidence data of TB in local population in Changping during 2009-2014 were collected from the National Tuberculosis Information Management System. An ARIMA model was established by means of model identification, parameter estimation, detection/diagnosis and model evaluation. The incidence of TB in Changping in 2015 was predicted. Results With the established model of ARIMA(0,1,1)(0,1,1)12, it was predicted that the pulmonary TB case number would be 851 in local population in Changping in 2013. The error rate of the prediction during January-June 2015 was 1.65%, lower than 10%, indicating the high precision of the model. Conclusion This study showed that the ARIMA model is applicable for the prediction of TB incidence in Changping.
Key words: ARIMA model    Tuberculosis    Incidence    Prediction    

结核病是一种由结核分枝杆菌感染引起的慢性传染性疾病,可侵及全身各器官,其中以肺部结核感染最为常见。我国每年新发结核病病例130万例,死亡13万例,是全球第二大结核病高负担国家[1]。近年来我国肺结核疫情有了明显改善,但仍是危害居民健康的重大公共卫生问题[2]。北京市因人口增长速度快、流动人口多及结核菌持续耐药等因素影响,结核病疫情严重,肺结核登记率为10/10万~30/10万。目前北京市结防机构存在多样性,卫生人力资源在地理分布和人口数方面的配置均未有较好的均衡性[3]。昌平区与全市一样,同样面对结核病防治工作的诸多挑战。本研究拟采用精密度较高的短期预测模型-自回归滑动平均混合模型(autoregressive integrated moving average model,ARIMA)模型,分析北京市昌平区肺结核报告发病数,预测该区未来肺结核发病数,为更好地推动该区结核病防治措施的改进及防治资源的配置提供科学依据,并为北京市相关机构预防措施的策划和筹备提供新思路。

1 资料和方法 1.1 资料来源

中国结核病管理信息系统又称为结核病网络专报系统,可供全国所有结核病防治机构实时录入和查询结核患者的报告、转诊追踪、治疗转归等信息,承担疫情监测和患者管理功能。本研究采用的时间序列数据均来自于该系统中20092014年现住址为昌平区的肺结核报告发病数,该系统登记报告的肺结核发病数按照《中国结核病防治规划实施工作指南(2008年版)》的标准执行[4]。数据按照月份统计,见表 1

表 1 20092014年现住址为昌平区的肺结核报告发病数 Table 1 Reported incidence of TB in local population in Changping, 2009-2014
月份 发病数
2009年2010年2011年2012年2013年2014年
1233867445152
2484453483954
3717083816586
41015991706674
5628887808392
6757783584877
7626860658871
8575160686979
9736666678774
10517662696257
11657755777269
12989773425865
合计786811840769788850
1.2 方法

运用SPSS 19.0软件中的相关模块进行数据处理和分析。本研究是以月份为时间单位的研究序列,故选择复合季节模型[5, 6]:ARIMA(p,d,q)(P,D,Q)s,参数p为非季节性自回归阶数,d为一般差分阶数,q为非季节性滑动平均阶数;P为季节性自回归阶数,D为季节差分阶数,Q为季节性移动平均阶数,s为季节模型的时间单位相应周期(本研究s=12)。

2 结果 2.1 复合季节模型ARIMA(p,d,q)(P,D,Q)s的建立

模型识别:(1)绘制20092014年现住址为昌平的肺结核报告发病数的时间序列图(图 1),显示肺结核报告发病数随时间变化的趋势关系。图中序列显示一定的季节变化,以1年为一个周期,每年发生相似的变化,每年1月或2月,报告发病数相对较少。序列的平均水平和方差波动较大,即均值和方差不平稳,故该序列为非平稳序列。(2)选择适当的变换或差分使原序列平稳,以初步确定模型ARIMA(p,d,q)(P,D,Q)s中的d、D值。原序列经平方根转换和1次一般差分、1次季节差分后为平稳序列(图 2),故模型中参数d=1,D=1。

图 1 20092014年昌平区肺结核报告发病数时间序列图 Figure 1 Time series of TB cases reported in Changping,2009-2014
图 2 2010-2014年原序列经平方根转换和差分后时间序列图 Figure 2 Time series of TB cases after square root transform and difference treatment in Changping,2010-2014

参数估计:采用最大似然估计识别阶段获得复合季节模型ARIMA(p,d,q)(P,D,Q)s中的p、q、P、Q参数,绘制经平方根变换和差分后序列的自相关系数图(ACF)和偏自相关系数图(PACF)(图 3)。模型中p、q、P、Q参数常取值为0、1、2、3、4等之一,在SPSS 19.0软件Analyze→Forecasting→Create Models→ARIMA过程中,依次取值分别赋给参数p、q、P、Q值,每次赋值后,运行ARIMA过程,以获得模型参数估计值、模型拟合优度指标、模型参数检验结果、模型残差白噪声检验等指标。根据参数有无统计学意义,残差是否为白噪声,模型拟合情况,选定最适模型参数,如此循环,不断改变模型阶数后,拟合优度统计量BIC最小的为最优参数组合。据此,本文时间序列模型参数最后确定为p=0,q=1,p=0,Q=1。

图 3 原序列经平方根变换和差分后ACF和PACF图 Figure 3 ACF and PACF of time series of TB cases after square root transform and difference treatment in Changping,2009-2014

模型检验:绘制时间序列模型的残差ACF和PACF图(图 4),判断残差自相关系数和偏自相关系数均在95%CI内。从ARIMA过程中,获得模型检验统计量Ljung-Box Q的P值>0.05,该统计量无显著性,故判断该模型残差服从以0为均数的平稳随机过程,即白噪声。选择模型:通过上述过程,本文时间序列复合季节ARIMA模型确定为ARIMA(0,1,1)(0,1,1)12,该模型及各项参数差异均有统计学意义(P < 0.01),见表 2

图 4 残差ACF和PACF图 Figure 4 Residual ACF and PACF
表 2 ARIMA 模型参数 Table 2 ARIMA model parameter
发病数-模型SEtSig
平方根差分1
MA 滞后10.08310.1710.000
季节性差分1
MA,季节性滞后10.1443.4010.001
2.2 模型预测

根据以上拟合得到的模型预测2015年现住址为昌平区的肺结核发病数,见表 3。2015年现住址为昌平区的新发报告肺结核患者为851例,其中2015年第一、二季度(16月)预测误差率为1.65%,不到10%,模型预测精度较好,预测图及可信区间见图 5

表 3 ARIMA模型预测2015年昌平区肺结核发病数 Table 3 Incidence of TB predicted with ARIMA model in Changping,2015
月份报告数 ARIMA(0,1,1)(0,1,1)12
预测值LCLUCL
159533082
251522880
3658251118
4837646110
5869057129
6727041104
77645112
87544112
97846116
10633597
117242109
126435100
图 5 20092015年昌平区肺结核实际报告发病数与预测数关系 Figure 5 Relationship between actual case number and predicted case number of TB in Changping, 2009-2015
3 讨论

在医学领域,ARIMA模型是一种重要的时间序列分析定量预测模型,且为精密度较高的短期预测模型,是由Box等[7]于20世纪70年代初提出的时间序列预测方法,故又称Box-Jenkins模型,其将预测对象随时间推移形成的数据序列视为一个随机序列,用一定的数学模型近似描述这个序列,进而从时间序列的过去值及现在值预测未来值。本研究采用全国结核病网络专报系统中20092014年现住址为昌平区的肺结核报告发病数建立ARIMA预测模型,确定适合的模型为ARIMA(0,1,1)(0,1,1)12。模型20092014年的实际数与拟合数基本吻合,实际数均在拟合数95%可信区间内,预测得到的2015年每月肺结核发病数中,比较第一、二季度实际报告发病数与预测数可知模型预测精度较好,说明本研究建立的模型基本合理。

分析本研究时间序列的序列图,现住址为昌平区的肺结核报告发病数整体表现出稳定波动趋势。2014年与前几年相比,报告发病数略有增加,这可能与早期患者的发现增加所致。近年随着公共卫生服务项目的增多,新型农村合作医疗及医疗机构转诊工作的加强以及诊断设备的不断改进,使更多的人得到早期发现和诊断。本研究没有发现明显的肺结核发病周期性规律(即多见于冬春季),这可能与现在各相关机构重视和加强肺结核病防治措施,致其发病规律不再典型。本研究发现每年的1月或2月现住址为昌平区的肺结核报告发病数相对偏少,可能因为节假日医疗机构服务时间相对减少,或是节假日家人、亲朋好友欢聚,人们不愿去医院就医,不能及时发现和诊断。因此,不断提高发现结核病患者的能力,统筹医疗资源,增强医护力量仍是需要坚持的重要策略,也是控制和降低结核病疫情的必要措施。相关机构可以根据肺结核发病数预测情况,制定年度工作重点,合理配置人力和资源;同时加强结核病干预措施,如加强健康教育、提高知晓率,加强医疗机构督导检查等。居民自身也应注重健康,不能因节日而延迟就医,延误病情。本研究使用建立的模型预测2015年现住址为昌平区的肺结核发病数,不仅有利于该区相关机构掌握一定时间内结核病发病的变化趋势,评估已采取防控措施的实施效果,还可根据未来发病趋势的预测结果,为相关机构今后防控工作的人力、财力、物力安排和部署提供参考依据。

本研究拟合得到的模型,尽管本身及各参数都有统计学意义,但也存在一定缺陷。ARIMA模型随着预测时间的延长,预测误差会越来越大,但总体来说其预测准确性还是比较高的;同时预测得到的2015年发病数是在假设未来一年与前几年的预防管理政策等因素和变化相似条件下的近似估计值,如果2015年上述假设发生重大变化,则可能发生预测偏差。

参考文献
[1] World Health Organization. Global tuberculosis control 2011[R]. Geneva:WHO,2011.
[2] Zhang YY, Li P, Ran QZ, et al. Introduction to Modern Clinical Medicine[M]. 2nd ed. Beijing:Science Press,2012.(in Chinese) 张燕燕,李萍,冉启志,等.现代临床医学概论[M]. 2版. 北京:科学出版社,2012.
[3] Chen X, Wang YL, He XX, et al. Human resources survey and staffing assessment of Beijing district level tuberculosis institutions[J]. Chinese Journal of Antituberculosis,2012,34(9):580-584.(in Chinese) 陈曦,王延莉,贺晓新,等.北京市区(县)结核病防治机构人力资源现状调查及配置评价[J]. 中国防痨杂志,2012,34(9):580-584.
[4] Department of Health Bureau of Disease Prevention and Control of the People's Republic of China, Ministry of Health Department of the People's Republic of China, Chinese Center for Disease Control and Prevention. China Tuberculosis Control Program Implementation Guide[M]. The 2008 ed. Beijing:Beijing Union Medical University press,2008.(in Chinese) 卫生部疾病预防控制局,卫生部医政司,中国疾病预防控制中心.中国结核病防治规划实施工作指南[M]. 2008年版. 北京:中国协和医科大学出版社,2008.
[5] Dou ZH, Liu X, Zhang Y, et al. Application of the ARIMA Model in predicting the number of ART-naÏve patients on first-line treatments[J/CD]. Chinese Journal of Experimental and Clinical Infectious Diseases:Electronic Version,2010,4(2):171-177.(in Chinese) 豆智慧,刘霞,张峣,等. 我国免费艾滋病抗病毒药物治疗一线人数ARIMA模型预测[J/CD]. 中华实验和临床感染病杂志:电子版,2010,4(2):171-177.
[6] Yang F, Qin YH, Liu LH. Application of ARMA model in prediction of outpatient headcount[J]. Chinese Journal of Hospital Administration,2009,25(1):28-31.(in Chinese) 杨帆,秦银河,刘丽华.ARIMA模型在门诊人次预测中的应用[J]. 中华医院管理杂志,2009,25(1):28-31.
[7] Box GEP, Jenkins GM, Reinsel GC. Time Series Analysis, Forecasting and Control[M]. 3rd ed. Englewood Cliffs, NJ:Prentice-Hall,1994.