扩展功能
文章信息
- 张业武, 郭青, 张春曦, 王晓风, 于萌, 郑环, 苏雪梅
- ZHANG Ye-wu, GUO Qing, ZHANG Chun-xi, WANG Xiao-feng, YU Meng, ZHENG Huan, SU Xue-mei
- 全国法定传染病报告率评估调查抽样方法设计
- Sampling method for national notifiable communicable disease surveillance system assessment
- 疾病监测, 2015, 30(7): 546-550
- Disease Surveillance, 2015, 30(7): 546-550
- 10.3784/j.issn.1003-9961.2015.07.006
-
文章历史
- 收稿日期:2014-08-26
为加强传染病预防和控制工作,提高居民健康水平, 2012年10月国务院编制印发卫生事业发展“十二五”规划将“法定传染病报告率≥95%”作为规划的目标之一。为更好实现该规划目标,需要对规划指标当前水平进行初步评估,发现可能存在的问题,并提出针对性的解决方法。为使评估调查工作更加科学合理,笔者参考了既往国家卫生服务总调查和结核病流行病学调查等调查方案和抽样方法[1],依据分层整群多阶段抽样的理论和方法[2, 3],确定全国法定传染病报告率达标情况抽样方法并制定相应的抽样方案,现将主要结果报告如下。
1 材料与方法 1.1 材料来源全国各级各类医疗机构法定传染病报告率调查样本估计主要利用了20052012年间传染病报告率相关调查评估[4, 5, 6, 7, 8, 9]以及2012年度网络直报系统中各级医疗机构传染病报卡情况等相关资料。
1.2 抽样设计原则和方法根据既往的督导检查结果,省、市、县、乡镇级别传染病报告率存在比较明显的差别,但在不同级别内部,机构间报告率差别不大;传染病诊断能力、实验室检测能力在各级别医疗机构间存在较大的差别;同时东中西部地区也同样存在着差别[4, 5, 6, 7, 8, 9]。根据2012年网络直报系统报告数据的统计结果,共有67 684所医疗机构参与传染病报告;省级、地市级、县(区)级和乡镇级医疗机构(社区卫生服务中心)各级别机构数、平均报卡数存在较大差别;省级、地市级、县(区)级医疗机构对传染病报告的贡献率比较大。因此,在抽样框架设计过程中,主要遵循如下原则:保证获得正确的信息;尽量做到省时、省力、省钱;充分利用已知的信息来提高抽样的精度;考虑抽样设计与后续数据收集和分析方法配套以及既往调查数据的连续性[2, 3]。为此,根据文献和专家建议,确定采用多阶段整群抽样方法进行抽样设计,具体步骤和方法如下。
第一步:利用单纯随机抽样方法估计总样本量
根据调查目的,采取WHO推荐的公式[10, 11],对本次调查所需的总样本量进行估计:
式中,n为总样本量,Z为1-α/2信度水平下Z统计量,P为期望率或比例,d为精度水平,即允许的绝对误差水平,deff为设计效率因子。
第二步:按照Neyman最佳配置原则对样本进行分层分配
将调查总体(病例报告数)按填报医院的等级(省、地市、县区和乡镇)特征分成4个不同层次(strata),采用分层抽样(stratified sampling)方法,按照Neyman最佳配置原则,确定每层抽样调查的病例数[2]。Neyman最佳配置的样本容量的分配公式为:
式中,Mh为第h层样本数,Nh为h层总报告病例数,σh为h层样本标准差,n为总样本量。
第三步:完成各层应抽样调查医疗机构数估计
利用既往调查研究数据的分析结果,按照以下样本计算公式[12],估计各层应抽样调查最小机构数(样本点)。
式中,V为层间方差,n为样本数,p为总样本率,pi为第i层样本率,Δ为允许误差,t为1.96。
第四步:完成对各层不同阶段样本点(群数)估计[12]
不同层内采用不同阶段进行抽样(表 1)。如在省级医疗机构内调查病例,采用三阶段抽样方法:第一阶段,在全国31个省、直辖市、自治区范围内选择抽样省;第二阶段,在抽样省内选择省级抽样医疗机构;第三阶段,在省级抽样医院内选择调查病例样本。在乡镇级医疗机构内调查病例,采用六阶段抽样方法,第一阶段,在全国范围内选择抽样省;第二阶段,在抽样省内选择抽样地市;第三阶段,在抽样地市内,选择县(区);第四阶段,在抽样县(区)内,选择乡镇/社区;第五阶段,在抽样乡镇内选择乡镇/社区医院;第六阶段,在抽样医院内选择病例样本。
分层 | 抽样方法 |
省级 | 第三阶段抽样(省→省级机构→病例) |
地市级 | 第四阶段抽样(省→地市→地市级机构→病例) |
县(区)级 | 第五阶段抽样(省→地市→县区→县区级机构→病例) |
乡镇级 | 第六阶段抽样(省→地市→县区→乡镇→乡镇机构→病例) |
根据现有抽样调查结果,利用多阶段整群抽样的方差和样本点计算公式,分别计算省级、地市级、县(区)级、乡镇级等四个层的各阶段整群抽样的样本大小。以三阶段抽样为例,整群抽样各级方差估计公式如下[12]:
式中,V1、V2和V3分别为一级、二级和三级群间方差,最后一级群间方差也就是群内方差。n、m和k分别为一级、二级和三级群内抽取的样本数,总样本数为n*m*k。p为总样本率,pi为一级群第i个样本率,pij为第i一级群内第j个二级群样本率,qij=1-pij。
整群抽样样本点计算公式如下[12]:
一级单位群抽取群数:
二级单位群抽取群数:
三级单位群抽取群数:
式中,N、M和K分别为一级群总数、一级群内二级群平均数以及二级群内三级群平均数,Δ为允许误差,t为1.96。
第五步:总体抽样框架设计
依据整群抽样样本点计算公式计算结果各阶段理论样本点大小,并综合考虑本次调查所能承受的人、财、物力、时间以及抽样的方便性等因素,最终确定各阶段实际调查样本点大小和抽样病例数,对不同层、不同阶段的抽样进行归并,以保障调查工作的可行性。
2 结果 2.1 总样本量根据总样本量估算公式(见公式1),设定Ⅰ类误差α=0.05,Z1-a/2=1.96, 期望报告率为95.0%,允许的绝对误差水平d=1.4%, 设计效率因子deff=2.0,则总样本量n为1862。
2.2 样本分层分配结果按Neyman最佳配置方案(公式2),对总样本量进行分层分配,结果见表 2。
机构级别 | 机构数 | 报卡数 | 标准差 | 加权标准差 | 比例 | 各层应调查病例数 |
(1)包括乡镇卫生院和社区服务中心。 | ||||||
省级 | 965 | 1 178 393 | 0.199 392 | 234 961.6 | 13.31 | 248 |
地市级 | 3 566 | 2 697 356 | 0.170 863 | 460 877.0 | 26.11 | 486 |
县区级 | 16 170 | 4 107 627 | 0.196 018 | 805 168.2 | 45.61 | 849 |
乡镇级(1) | 46 983 | 1 557 459 | 0.169 700 | 264 300.4 | 14.97 | 279 |
合计 | 67 684 | 9 540 835 | - | 1 765 307.3 | 100.00 | 1862 |
综合2009和2012年调查历史数据,按照各层样本点计算公式(公式3、4),对各层应抽样调查医疗机构数进行估计为67 684,结果见表 3。
层级 | 机构数(N) | 报告率(P) | 一级群间方差(V1) | 允许误差(Δ) | 医疗机构数(n) | 精度(%) |
省级 | 965 | 0.95 906 | 0.004 122 | 0.045 | 8 | 95.31 |
地市级 | 3 566 | 0.95 906 | 0.010 735 | 0.045 | 21 | 95.31 |
县区级 | 16 170 | 0.95 227 | 0.009 512 | 0.045 | 19 | 95.27 |
乡镇级 | 46 983 | 0.96 186 | 0.028 798 | 0.045 | 57 | 95.32 |
基于历史调查数据,利用多阶段整群抽样样本点计算公式[12](公式5~10)分别计算省级、地市级、县(区)级、乡镇级等四个层的各阶段整群抽样的样本大小。由于历史资料的局限,部分层内误差无法获取,为此在计算其下一层次样本点时,将该层最大抽样点限制为1,分层各阶段样本点估计结果见表 4。
抽样阶段 | 按医疗机构等级分层 | |||
省级 | 地市级 | 县(区)级 | 乡镇级 | |
省数n | 5.469 2 | 8.972 8 | 7.702 9 | 16.065 9 |
地市级m | - | 1 | 1 | 1 |
县(区)级k | - | - | 1 | 1 |
乡镇级l | - | - | - | 1 |
层内机构数o | 0.169 06 | 0.706 95 | 1.057 72 | 0.319 24 |
每机构病例数m | 13.088 60 | 9.490 70 | 12.049 50 | 2.951 53 |
由于表4计算结果是在没有考虑总体样本量的情况,根据既往调查结果,所计算的各层各阶段在理论上应抽样的最小样本点数。为此根据本次调查需要,对各层各阶段的理论样本大小进行调整,主要采用整体扩增的方法,满足整体调查要求。但对乡镇机构所需的省份数进行缩小,即理论上需要在16个省份选择乡镇卫生院或城市社区服务中心才有代表性,但考虑到县级以上医院机构为传染病的主要报告单位,而近5万家乡镇级医疗机构报告传染病报告卡仅占16.32%,同时兼顾调查成本,故本次调查选择9个省份开展。最终确定的抽样框架,见表 5。
抽样阶段 | 按医疗机构等级分层 | |||
省级 | 地市级 | 县(区)级 | 乡镇级 | |
省级n | 9 | 9 | 9 | 9 |
地市级m | - | 3 | 3 | 3 |
县(区)级k | - | - | 1 | 1 |
乡镇级l | - | - | - | 2 |
机构数o | 1 | 1 | 1 | 1 |
病例数p | 30 | 20 | 32 | 6 |
病例合计 | 270 | 540 | 864 | 324 |
本文采用多阶段分层随机抽样方法,并根据历史评估调查数据和网络直报系统中传染病报告卡统计信息,完成了对全国法定传染病报告率达标情况调查所需要的总体样本量、调查范围、各层和各阶段所需的样本量和样本点估算,并在此基础上制定了抽样方案,为全国法定传染病报告率达标情况调查方案的制定和实施提供了技术保障。通过现场调查实施,证明了采用多阶段分层随机抽样方法,不仅明显缩短调查时间,而且减少人力物力的投入。由于在抽样过程中,充分考虑到样本误差,设置较高的置信度,保证了从调查样本数据对整体情况的推断具有较高的精度和可信度。
在抽样过程中,对抽样可能造成的风险进行分析,并采取了应对措施,具体包括以下基本方面:
(1)抽样框架设计所依赖的数据为历史调查,且为非随机抽样数据,可能高估或低估实际抽样误差,导致样本量和样本点估计不准确。为此我们将设计效率因子deff设置为2,增加总体样本量。
(2)乡镇级机构调查的省级样本点和机构数均低于理论要求,使获得乡镇级机构真正报告率的把握度降低。但因乡镇级医疗机构对传染病报告的贡献率不高,为此增加乡镇机构的调查病例数。
(3)抽取的医疗机构仅限于各省在传染病报告信息管理系统中维护的医疗机构,对于未维护进系统中的机构无法抽取,因此建议开展民营、私营、村卫生室、门诊部等机构的专题调查。
另外对于非抽样造成的风险,如各类医疗机构对传染病报告的重视程度不同,如传染病诊断标准的培训、门诊日志和出入院登记本的登记质量,特别是不填写明确诊断等情况,我们在调查方案中增加查看医生处方和实验室特异性检测结果的调查内容,作为主要调查内容的补充。
本次调查首次将分层整群多阶段抽样应用到传染病报告率评估工作中。在抽样设计过程中,通过充分利用样本误差,增加置信度,保证了统计推断的准确性和可靠性。通过现场调查证明,采用分层整群多阶段抽样设计,减少了调查过程中的人力、物力和时间投入,大大地提高了调查效率,为今后全国或各省开展类似调查工作提供参考。
[1] | Zheng SH, Duanmu HJ, Zhao FZ, et al. Sampling methods for epidemiologcial study of tuberculosis[J]. Chinese Journal of Anti-tuberculosis,2003,25(6):397-399. (in Chinese) 郑素华,端木宏谨,赵丰曾,等. 结核病流行病学调查抽样方法介绍[J]. 中国防痨杂志,2003,25(6):397-399. |
[2] | Cochran WG, Zhang YT, Wu H. Sampling techniques[M]. Beijing: China Statistics Press,1987.(in Chinese) Cochran WG,张尧庭,吴辉.抽样技术[M]. 北京: 中国统计出版社, 1987. |
[3] | Lu XG. Courses for statistics[M]. Beijing: Tsinghua University Press Limited,2006.(in Chinese) 卢小广.统计学教程[M]. 北京: 清华大学出版社有限公司,2006. |
[4] | Liu SW, Wang LP, Wang XF, et al. Evaluation on management and quality of communicable diseases network direct reporting in China, 2009[J]. Disease Surveillance,2011,26(5),392-397. (in Chinese) 刘世炜,王丽萍,王晓风,等. 2009年全国传染病网络直报管理与报告质量现状评估[J]. 疾病监测,2011,26(5):392-397 |
[5] | Wang LP, Guo Y, Guo Q, et al. Evaluation on quality of internet-based reporting of notifiable communicable diseases in China, 2005-2008[J]. Disease Surveillance,2010,25(11):912-914. (in Chinese) 王丽萍,郭岩,郭青,等. 2005-2008年中国法定传染病网络直报质量评价[J]. 疾病监测,2010,25(11):912-914. |
[6] | Guo Q, Zhang CX, Ji YB, et al. Investigation of infectious disease direct reporting network management in Chinese medical institutions[J]. Disease Surveillance,2010,25(5):410-413. (in Chinese) 郭青,张春曦,姬一兵,等. 中国医疗机构传染病网络直报管理工作现状调查[J]. 疾病监测,2010,25(5):410-413. |
[7] | Wang LP, Guo Q, Zhang CX, et al. National investigation into and analysis of hepatitis B reporting quality in 2006[J]. Chinese Journal of Disease Control and Prevention,2009,13(1):69-71,102. (in Chinese) 王丽萍,郭青,张春曦,等. 2006年全国乙型病毒性肝炎报告质量调查分析[J]. 中华疾病控制杂志,2009,13(1):69-71,102. |
[8] | Wang LP, Guo Y, Guo Q, et al. Quality evaluation of infectious diseases information based on internet reporting system in 2006[J]. Disease Surveillance,2007,22(6):412-414. (in Chinese) 王丽萍,郭岩,郭青,等.2006年全国法定传染病网络报告信息质量评价[J]. 疾病监测,2007,22(6):412-414. |
[9] | Shi XM, Ma JQ, Wang LP, et al. An investigational analysis of missing reports of notifiable diseases in medical facilities all over China in 2005[J]. Disease Surveillance,2006,21(9):493-496. (in Chinese) 施小明,马家奇,王丽萍,等. 2005年全国医疗机构法定传染病漏报情况调查分析[J]. 疾病监测,2006,21(9):493-496. |
[10] | Lwanga SK, Lemeshow S. Sample size determination in health studies: A practical manual[M]. World Health Organization,1991. |
[11] | Naing L, Winn T, Rusli B. Practical issues in calculating the sample size for prevalence studies[J]. Archives of Orofacial Sciences,2006,1(1):9-14. |
[12] | Huang TQ. Sample size estimation for multistage cluster sampling[J]. Chinese Journal of Health Statistics,1997,14(6):17-19. (in Chinese) 黄体乾.多级整群抽样样本大小的简便估计[J]. 中国卫生统计,1997,14(6):17-19. |