2014-2016年云南省宣威市死因监测数据库清洗探讨

扩展功能

加入引用管理器

Email Alert

文章信息

万霞, 刘利群, 杨功焕

Wan Xia, Liu Liqun, Yang Gonghuan

2014-2016年云南省宣威市死因监测数据库清洗探讨

Discussion on data cleaning of vital registration system in Xuanwei, Yunnan, 2014-2016

疾病监测, 2018, 33(6): 520-524

Disease Surveillance, 2018, 33(6): 520-524

10.3784/j.issn.1003-9961.2018.06.017

文章历史

收稿日期：2017-12-29

引用本文

万霞, 刘利群, 杨功焕. 2014-2016年云南省宣威市死因监测数据库清洗探讨[J]. 疾病监测, 2018, 33(6): 520-524.

Wan Xia, Liu Liqun, Yang Gonghuan. Discussion on data cleaning of vital registration system in Xuanwei, Yunnan, 2014-2016[J]. Disease Surveillance, 2018, 33(6): 520-524.

2014-2016年云南省宣威市死因监测数据库清洗探讨

万霞, 刘利群, 杨功焕

中国医学科学院基础医学研究所, 北京协和医学院基础学院, 北京 100005

收稿日期：2017-12-29

基金项目：中国医学科学院医学与健康科技创新工程（No.2016-I2M-3-001）；中华医学基金会“强化中国卫生系统疾病负担研究和应用能力”（No.15-208）

作者简介：万霞, 女, 福建省建阳市人, 副研究员, 博士, 主要从事烟草控制与疾病负担研究工作.

通信作者：万霞, Tel:010-69156421, Email:xiawan@ibms.pumc.edu.cn.

摘要：目的对肺癌高发的云南省宣威市2014－2016年死因登记数据进行数据清洗，分析数据上报及系统填报过程中存在的问题，以提升死因监测工作质量及基层人员的数据分析能力。方法采用“人口死亡信息登记管理系统”（新系统）进行死因监测网络直报，对数据进行了查重，极值、异常值和缺失值处理及逻辑核查等；对异常数据进行频数统计并分析原因；计算各年度各类疾病的构成比，判断清洗后的数据质量。结果数据库有效记录24 704条，删除率为1.10%；身份证与出生日期计算的年龄与上报年龄不一致率≤0.58%；68.82%记录上报时间距死亡时间>1个月，约9%记录为死亡次年或第3年上报。在死亡次年或第3年上报的病例中，有454例为肺癌，且78.63%来自于肺癌高发区；131例重复上报病例主要集中在死亡次年1－3月，且第2次上报的诊断级别及依据均较第1次弱；不明死亡原因的比例为2%左右。结论采用新系统进行死因监测网络直报后，监测数据质量有较大提高。但死因监测工作仍需加强数据上报的及时性；对于次年补充上报病例，需要有严格审核机制；应对新系统的部分功能进行升级，以技术手段促进监测工作质量。

关键词：死因监测数据清洗宣威市

Discussion on data cleaning of vital registration system in Xuanwei, Yunnan, 2014-2016

Wan Xia, Liu Liqun, Yang Gonghuan

Institute of Basic Medical Sciences, Chinese Academy of Medical Sciences, School of Basic Medicine, Peking Union Medical College, Beijing 100005, China

This study were supported by the CAMS Innovation Fund for Medical Sciences(CIFMS)-Health Effect of Environmental Factors and Gut Microbiome on Digestive Tract Related Diseases:Population-based Cohort Studies(No. 2016-I2M-3-001), and fund from China Medical Board(CMB)for Collaborating Project-Strengthening Capacities of China′s Health Care System in Study on Disease Burden and Application(No. 15-208)

Corresponding author: Wan Xia, Tel:010-69156421, Email:xiawan@ibms.pumc.edu.cn.

Abstract: Objective To investigate the problems existed in the vital registration system (VRS) and improve capacity building for primary public health staff by cleaning the database of VRS from 2014 to 2016 in Xuanwei, an area with high lung cancer mortality in Yunnan province of China. Methods The new VRS was used to report death cause surveillance data. The duplicate records, extreme values, abnormal values, missing values and logical consistency were checked, and proper deletion or modification were done. Frequency statistics and cause analysis were conducted for abnormal data. The annual constituent ratio of diseases (death causes) was calculated to evaluate the data quality after database cleaning. Results After data cleaning, there were 24 704 valid death records in the database; the deletion rate was 1.10%. The inconsistent rate of death case age obtained from identification card number, birth of date and the self-eported was less than 0.58%. Up to 68.82% of the death records were reported more than 1 month later, and 9% of the death records were reported 1 year later or even 3 years later, in which 454 were death records of lung cancers, and 78.63% of 357 lung cancer deaths were from Xuanwei. There were 131 duplicate death records, which were mainly reported during January-March of following year. The level of medical institutions making the second diagnosis was obviously lower than the level of those making the first diagnosis. There were around 2% of death records without identified causes. Conclusion The quality of death surveillance data has been greatly improved after the application of new VRS. However, the timeliness of reporting needs to be further strengthened. More strict review procedure is needed for the after-event death reporting in the following year. Specific functional upgrade of the system is needed to improve surveillance quality.

Key words: Vital registration Data cleaning Xuanwei city

随着公共卫生体系的建设，我国全国死因登记报告信息系统不断完善。在2005年前，通过各基层医疗卫生单位收集辖区死亡个案信息，定期向市（县、区）疾病预防控制中心（CDC）报送，CDC再将信息录入单机版数据库系统逐级上报；2005年后各基层医疗卫生单位收集的死亡个案信息通过“死因登记管理信息系统”实现网络直报，数据的及时性和准确性得以极大提高；2014年起该系统更名为“人口死亡信息登记管理系统”（新系统）。新系统不断升级并逐步完善数据管理功能，表现为实现各地死因登记数据到国家死因登记报告系统上传和交换，各地孕产妇和婴幼儿信息管理系统与国家出生死亡系统的连接和数据交换，增加了死因自动编码功能^[1]。数据收集与分析平台分开，完善数据分析和展示功能^[2]。

数据清洗是数据分析过程中非常重要的环节之一，是将原始收集到的数据转化为可分析数据的必要步骤。常见的数据清洗通常包括数据格式的处理、查重，极值、异常值和缺失值的处理及逻辑核查等^[3]。随着新系统的不断升级，上报的原始数据高度结构化，缺失、极值、逻辑错误等均可在上报过程中被检出，大大减少了后续数据清洗的工作量。但数据清洗仍是数据分析中不可或缺的环节。目前，我国基层公共卫生人员统计分析能力不足，导致死因监测工作仅停留在数据采集阶段，对监测数据的分析和利用存在明显不足^[2]。甚至部分研究人员对数据清洗环节也无充分认识。

宣威市位于云南省东北部，过去20年内，一直是肺癌高发区^[4-6]。宣威市于2006年开始实现网络直报死因登记，系统建立初期数据质量不高。通过对乡村医生进行培训，数据报告质量逐年提高，但仍存在上报数据不规范现象，2011－2013年漏报率为32%^[6]。通过对新系统中宣威市2014－2016年死因登记数据进行清洗，分析数据上报及系统填报中存在的问题，以期完善全国死因监测系统，提升死因监测工作质量，提高基层公共卫生人员及相关人员的数据分析能力。

1 资料与方法 1.1 数据来源

新系统中宣威市2014－2016年所有死因登记个案数据，包括死者姓名、性别、身份证号码、出生日期、年龄、民族、婚姻状况、教育程度、职业、生前常住地址、户籍地址、生前工作单位、死亡时间、死亡地点、死因链的疾病及编码、根本死因及编码、最高诊断单位、最高诊断依据、死者生前病史及症状体征、医生填卡日期等变量。

1.2 数据清洗

新系统可实现死因自动编码功能^[1]。因此，本研究中数据清洗主要包括以下几个步骤：

第1步：删除经基层审核后，标记为“删除”的记录。

第2步：查找重复记录。查重条件包括身份证号码一致的或身份证号码不一致，但性别、出生日期、户籍所在乡镇均一致。且姓名的第1、2个字相同，或第1、3个字相同。根据这些查重条件查到相应记录后，人工逐条进行核查。综合死亡地点、最高诊断单位、最高诊断依据、死者生前病史及症状体征等信息后，删除被判断为重复上报的记录。删除原则为结合诊断依据、死者生前病史及症状体征描述，删除诊断级别较低的记录。如无法判断更可靠的记录，则删除第2次上报的记录。

第3步：检查关键变量（出生日期、年龄、性别、死亡日期、根本死因、最高诊断单位及最高诊断依据）缺失、极值及异常值的情况。若出生日期、年龄、性别有缺失，则根据身份证号码的编码规则进行补充。异常值主要出现在身份证号码中，如按照身份证号编码规律，发现部分死者的出生日期为某月32日等。这些异常值通过参考出生日期变量进行修改，或修改为当月日期最大的一天。因死因监测数据上报采用的系统平台应对以上变量的值域作限定，因此，在数据清洗中未发现极值的情况，故未作处理。

第4步：逻辑核查。对于年龄和性别采用身份证信息进行逻辑核对。

1.3 数据清洗结果分析

对通过身份证或出生日期与死亡日期计算的年龄与上报年龄进行比较，判断获得的年龄更合理的方式。因工作人员对上报年龄有取整的习惯，为与上报年龄比较，通过出生日期与死亡日期计算的年龄均进行取整转化。对补充上报数据的根本死因种类及分布、重复上报记录特点进行频数分布统计，发现新系统填报及现场上报工作中存在的问题。计算历年各类死因的构成比，判断清洗后的数据质量。所有统计分析采用SAS 9.4软件（北京协和医学院）完成。

1.4 伦理审查

通过中国医学科学院基础医学研究所伦理审查委员会的伦理审查。

2 结果 2.1 数据清洗结果

2014－2016年宣威市死因登记原始数据库共有24 979条记录，其中由基层审核后标记删除144条记录。将32条记录的身份证号码中字母大写统一后，一致的记录有154条。再以年龄、性别、户籍地址乡镇、姓名查重，最后经过人工核对后，删除131条重复记录（其中身份证号码一致的记录为65对，则删除其中的65条）。故最后数据库共删除记录275条，保留记录24 704条。

所有这些记录中均有完整的出生日期、年龄、死亡日期、根本死因记录、最高诊断单位及最高诊断依据，其中有4条记录登记为“未知的性别”，身份证号码缺失记录2 028条，身份证号码记录不规范记录27条。具体数据清洗情况见表 1。

表 1 数据清洗情况 Table 1 List of data cleaning

数据清洗类別	清洗措施	频数(n=24 979)	构成比(%)
由基层审核后标记删除	删除	144	0.58
重复记录	删除	131	0.52
异常值
身份证号码中出生日期大于当月的最大值(如1月32日、月30日等）	通过出生日期的变量进行修改或者当月的规律修改为当月的最大1天	27	0.11
缺失
身份证号码	未作处理	2 028	8.12
未知性別	其中1例有记录身份证号码，则通过身份证号码的性別推断进行修正	4	0.02

表选项

2.2 年龄问题

通过有正确身份证号码的22 649条记录与出生日期进行比较发现，只有9条记录出生日期不符，其中有2条记录通过身份证号码或出生日期与死亡日期计算的年龄差>1岁；通过出生日期计算的年龄与上报年龄比较，仅有0.58%（131/22 649）不一致，其中有121例年龄相差≤1岁。

2.3 上报时间

68.82%（17 002/24 704）上报时间距死亡时间>1个月，其中有94.23%（16 021/17 002）病例死在家中和前往医院途中等医疗卫生机构之外的场所。在所有记录中，9.02%（2 228/24 704）记录为死亡时间的次年或第3年上报。其中1 707条记录上报时间在1－3月，肺癌和慢性阻塞性肺疾病（chronic obstructive pulmonary disease，COPD）分别占20.38%和17.10%，其次为脑血管疾病和急性心肌梗死（表 2）。78.63%（357/454）肺癌病例来自于来宾镇、宛水街道、龙潭镇、西宁街道、双龙镇、龙场镇、海岱镇、东山镇及虹桥街道，均为宣威市肺癌高发乡镇。82.32%（1 834/2 228）的病例死在家中，即次年或第3年上报的病例大部分死在家中。

表 2 死亡次年或第3年补充上报死因类别 Table 2 Death causes reported 1 year later or 3 years later

死因类別	频数(n=2 228)	构成比(%)
肺癌	454	20.38
慢性阻寒性肺疾病	381	17.10
脑血管疾病	240	10.77
急性心肌梗死	190	8.53
除肺癌及肝癌外其他恶性肿瘤	133	5.97
下呼吸道感染	115	5.16
跌倒	79	3.55
道路交通事故	60	2.69
肝癌	59	2.65
糖尿病	45	2.02
中毒	33	1.48
其他伤害	91	4.08
其他疾病	282	12.66
不详	66	2.96
合计	2 228	100.00

表选项

2.4 重复病例的分析

131例重复上报病例中，两次上报的死亡时间间隔中位数为52 d，四分位间距（即Q3~Q1）为234 d。从各月情况来看，第1次上报死亡时间主要是9－12月，第2次上报死亡时间主要在次年1－ 3月；两次上报死亡地点一致率为64.89%（85/131）。第1次报告死亡地点在医疗卫生机构的比例（20.61%）高于第2次（13.74%），第2次报告死亡地点在家中的比例（73.28%）高于第1次（64.12%）。41.22%（54/131）的死亡病例两次最高诊断机构级别一致的，35.11%（46/131）第1次最高诊断机构级别高于第2次。有63例死亡病例两次根本死因诊断不同，诊断级别集中在二级医院或以下。不一致诊断死因主要集中在COPD、脑血管病和急性心肌梗死，见表 3。

表 3 重复上报死亡病例两次诊断的根本死因分布（例） Table 3 Re-reported underlying death causes of death cases(two diagnoses)

第1次诊断的根本死因	第2次诊断的根本死因										总计
第1次诊断的根本死因	慢性阻寒性肺疾病	脑血管疾病	急性心肌梗死	伤害	肺癌	下呼吸道感染	消化系产科、围生期疾病统疾病及先天性异常	其他	不详		总计
慢性阻寒性肺疾病	14	4	1	1	2	1	1		5	2	31
脑血管疾病	4	9	1						1	1	16
急性心肌梗死	3		5	1	1	1			1		12
伤害		1	2	24					0	1	28
肺癌			3		6				1		10
下呼吸道感染		1	1			3			0		5
消化系统疾病				2			2		0		4
产科、围生期疾病及先天性异常								3	0		3
其他	2	4	1	1	3	0	1	0	0	7	19
不详		1							0	2	3
合计	23	20	14	29	12	5	4	3	8	13	131

表选项

2.5 数据质量评价

根本死因为未明原因的比例均较低，约2%。不同年度死亡构成情况基本稳定，恶性肿瘤的构成比基本在21%~23%，伤害构成比在12%~13%左右，见图 1。

图 1 2014－2016年宣威市各系统疾病的死亡构成情况 Figure 1 Constituent ratio of deaths caused by different diseases in Xuanwei, 2014-2016

图选项

3 讨论

采用新系统后死因监测数据质量较纸版信息录入单机版数据库系统收集有较大提高。如之前根本死因为“不详”的比例在5%~6%左右^[7]，且数据收集采用纸质，很难对各变量缺失及逻辑问题进行控制，而平台可以轻松实现。因此，宣威市死亡报告数据的关键变量缺失率为0，基本上不存在逻辑错误问题。通过本研究，对死因监测工作有几点启示。

3.1 应进一步加强数据上报的及时性

按照死因监测报告流程要求，县及县级以上医疗机构在7 d内完成对卡片的审核和网络直报，县级以下医疗机构则需要在30 d内完成审核及网络报告，且县级CDC、妇幼保健机构的死亡报告管理人员应于7 d内通过网络进行审核确认。且将死因及时报告率及时审核率作为上级疾控部门对下级考评内容之一^[8]。但68.82%（17 002/24 704）病例未实现及时上报，可能是这些病例中，近95%为在医院外死亡。死因监测系统要求基层防保医生对在医院外的死亡病例开展入户调查后填写《死亡医学证明书》，完成网络上报工作^[9]。往往基层防保医生不可能实时地获取死亡病例的死亡信息，使报告及时性受制约。因此，需加强部门间协作，如公安与计生部门，信息共享，及时互通死者信息，从而促进死因监测数据的及时上报。

3.2 对次年补充上报的病例应有严格审核机制

通过与地方CDC工作人员沟通了解到，为减少漏报，中国CDC允许各基层CDC在次年1－3月补充报告前1年的死亡记录。本调查分析这种方法确实可减少6.90%（1 707条）的漏报率。且补充上报的病例有82.32%病例死在家中，说明补充漏报的工作重点应为“死亡在家中”的病例。

但对于次年新补充的病例需有严格的审核机制，否则会出现重复报告现象。本研究发现，重复报告病例的根本死因多由村医调查或根据死亡医学证明书填报，或根据死因推断，诊断级别及诊断依据均较第1次报告时弱。因此，本研究在删除重复病例时，若无法判断诊断更可靠的记录，则选择删除第2次上报的记录。

同时，对于新补充病例，一定需注意避免“霍桑效应”^[10]。本研究现场为宣威市，在过去的20年一直是肺癌高发区，本次清洗数据发现，次年新补充的肺癌病例78.63%均来自于宣威市肺癌高发乡镇。这些病例的根本死因是否为肺癌，是否存在“霍桑效应”，有待于现场进一步核实。提示需加强对基层工作人员的培训，督促其尽量及时上报死亡病例。同时，对于报告死于“家中”的病例，在死因上报平台中应先进行初步核查，确认死者是否死在家中，是否之前被医疗机构上报，死因是否正确，以最大限度地保证死因填写的准确性。

对于采用死因推断进行根本死因诊断的病例，特别需要注意COPD和心、脑血管疾病的混淆。在死因推断工具的效度评价研究中，曾发现类似情况^[11]。因此，需要加强基层工作者使用死因推断工具方面的培训，提高死因推断的正确率。

3.3 以出生日期作为年龄分析变量较为合适

在死因数据库中，可以通过身份证、出生日期及上报的年龄3种方式获得死者死亡年龄信息。既往该信息的填写比较混乱，有人上报出生日期采用阴历计算方式，而上报年龄则采用阳历，或上报年龄采用虚岁方式。因此，以往研究人员不可避免地面对年龄计算方式的分析变量更为合适。本研究显示，近年来3种方式获取的年龄一致性较高。综合考虑，采用出生日期计算年龄较为合适。

3.4 关于新系统升级的建议

（1）对于身份证号码的设置：随着公安部门对身份证系统的完善，身份证号码已能够作为每个公民唯一的识别码，因此，应将身份证号码变量设置为必填项。同时，增加对身份证号码信息的审核功能，可以大大避免数据的重复上报。平台升级还可包括：增加将身份证号码中大小写字母自动统一功能；对身份证中的月份和日期进行限定，如1月不可以出现32日；对于重复录入的身份证号码，系统自动弹出核对提示窗口，从而提高身份证信息的准确度。（2）对于姓名类似、同一乡镇、同性别、同出生日期、同死亡日期、同根本死因等变量的死者，可以自动出现审核的提示信息，减少死亡病例的重复上报。（3）目前，对于“年龄”变量，新系统采用文本型，即“*岁”或“*月”或“*天”。而大多数基层工作人员不具备专业的统计分析能力，该设置非常不利于其展开后续的统计分析工作。因此，为兼顾数据录入工作及后续基层的统计分析工作，建议可在前台采用该方式录入，后台自动产生以“岁”或以“天”为单位的数值型年龄变量。

作者贡献:

万霞 ORCID：0000-0002-0738-5631

万霞：数据清洗和数据分析、撰写论文

刘利群：参与现场调研工作，收集死因监测数据，并对本文初稿进行了修改

杨功焕：负责科研项目的整体设计，对数据和结果质量进行把关，并对本文初稿进行了修改

参考文献

[1]	姬一兵, 王黎君, 周脉耕. 根本死因自动编码工具在死因监测工作中的编码实例分析[J]. 中华疾病控制杂志, 2013, 17(9): 813-817. Ji YB, Wang LJ, Zhou MG. Analysis on coding examples of automated coding software on underlying death cause in death surveillance[J]. Chin J Dis Control Prev, 2013, 17(9): 813-817.
[2]	韦贤瑞, 陈玲. 我国死因登记报告系统现状与发展[J]. 职业与健康, 2017, 33(15): 2157-2160. Wei XR, Chen L. Present situation and development of death cause registration reporting system in China[J]. Occup Health, 2017, 33(15): 2157-2160. DOI:10.13329/j.cnki.zyyjk.2017.0647
[3]	de Jonge E, van der Loo M. An introduction to data cleaning with R[EB/OL]. (2015-11-25)[2017-12-26]. Statistics Netherlands, The Hague/Heerlen, 2013. https://wenku.baidu.com/view/f6939b1365ce05087732138b.html.
[4]	陈竺. 全国第三次死因回顾抽样调查报告[M]. 北京: 中国协和医科大学出版社, 2008. Chen Z. The third retrospective sampling survey report of causes of death[M]. Beijing: Peking Union Medical College Press, 2008.
[5]	Xiao YZ, Shao Y, Yu XJ, et al. The epidemic status and risk factors of lung cancer in Xuanwei city, Yunnan province, China[J]. Front Med, 2012, 6(4): 388-394. DOI:10.1007/s11684-012-0233-3
[6]	Chen GB, Sun X, Ren HY, et al. The mortality patterns of lung cancer between 1990 and 2013 in Xuanwei, China[J]. Lung Cancer, 2015, 90(2): 155-160. DOI:10.1016/j.lungcan.2015.08.006
[7]	Yang GH, Kong LZ, Zhao WH, et al. Emergence of chronic non-communicable diseases in China[J]. Lancet, 2008, 372(9650): 1697-1705. DOI:10.1016/S0140-6736(08)61366-5
[8]	赵军. 死因监测流程和分类[EB/OL]. (2013-08-30)[2017-12-26]. https://wenku.baidu.com/view/1242b00ced630b1c59eeb5ce.html. Zhao J. Process and classification of disease surveillance points system[EB/OL]. (2013-08-30)[2017-12-26]. https://wenku.baidu.com/view/1242b00ced630b1c59eeb5ce.html.
[9]	廖江, 张梦群, 魏咏兰. 开展死因监测网络直报, 动态及时掌握人群死因分布[J]. 中国卫生信息管理杂志, 2008, 5(3): 5-7. Liao J, Zhang MQ, Wei YL. Implementing disease surveillance system network report to catch death pattern in real time[J]. Chin J Health Inform Manag, 2008, 5(3): 5-7.
[10]	曾光. 现代流行病学方法与应用[M]. 北京: 北京医科大学中国协和医科大学联合出版社, 1994. Zeng G. Methodology and application of modern epidemiology[M]. Beijing: Beijing Medical University & Peking Union Medical College Joint Publisher, 1994.
[11]	Yang GH, Rao C, Ma JM, et al. Validation of verbal autopsy procedures for adult deaths in China[J]. Int J Epidemiol, 2006, 35(3): 741-748. DOI:10.1093/ije/dyi181