疾病监测  2016, Vol. 31 Issue (8): 668-675

扩展功能

文章信息

周海健, 阚飙
ZHOU Hai-jian, KAN Biao
细菌基因组分型方法的应用研究进展
Progress in application research of bacterium genome-based subtyping
疾病监测, 2016, 31(8): 668-675
Disease Surveillance, 2016, 31(8): 668-675
10.3784/j.issn.1003-9961.2016.08.013

文章历史

收稿日期:2015-12-28
细菌基因组分型方法的应用研究进展
周海健, 阚飙     
中国疾病预防控制中心传染病预防控制所, 传染病预防控制国家重点实验室, 北京 102206
摘要: 对病原菌进行分子分型已经成为细菌性传染病暴发调查和分子流行病学分析中的常规工具。近年来,基于基因组序列的分型方法被应用于多起细菌性传染病的暴发调查中,显示了很好的分型能力。本研究对基因组分型方法在细菌性传染病暴发调查和分子流行病学领域的发展和应用现状进行阐述。
关键词全基因组测序     分子分型     基因组分型     暴发调查     分子流行病学    
Progress in application research of bacterium genome-based subtyping
ZHOU Hai-jian, KAN Biao     
State Key Laboratory for Communicable Disease Control and Prevention, Institute for Communicable Disease Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 102206, China
Abstract: Molecular subtyping for discriminating the bacterial isolates of same species is essential in outbreak investigation and molecular epidemiology analysis. In recent years, genome-based subtyping assays have been used in outbreak investigation of bacterium caused infectious diseases and showed good subtyping power. This paper summarizes the progress in research of genome-based subtyping assay for outbreak investigation and molecular epidemiology analysis and the application of the assays in this field.
Key words: Whole genome sequencing     Molecular subtyping     Genome-based subtyping     Outbreak investigation     Molecular epidemiology    

最近10年,细菌分子分型技术快速发展,脉冲场凝胶电泳(pulsed-field gel electrophoresis,PFGE)、多位点序列分型 (multilocus sequence typing,MLST)、多位点可变数目串联重复序列分析 (multilocus variable-number tandem repeat analysis,MLVA) 等方法已经成为细菌性传染病暴发调查和分子流行病学研究的常规工具。使用分子分型方法分析不同分离菌株的相关性,可以发现传染源、揭示传播途径的分子信息和分子证据,能够深入到分子水平描述暴发和流行。但是以上方法均存在或多或少的缺点,比如PFGE实验操作复杂、耗时长,实验数据只能用于比对相似性,不能用于解释菌株之间的克隆性;MLST分辨力低,对不同暴发或者没有直接流行病学关联的菌株区分能力差;MLVA的重复性受位点本身的特点和使用的片段长度检测方法影响较大,实验室间可比性差,不容易实现标准化和网络化应用。所以,需要一种能被所有菌种通用的、分辨率高、分型力和重复性好、快速高通量的技术作为新的分型方法,以弥补上述方法的缺点和解决目前不能解决的问题。

全基因组测序 (whole genome sequencing,WGS) 近年来在病原细菌的遗传进化、种群迁移和流行分析中被广泛应用[1-4]。随着基因组测序成本的不断降低和生物信息分析技术的不断进步,细菌WGS的应用不仅局限于上述领域,正在逐步应用到处于疾病预防控制领域前沿阵地的暴发调查和流行病学分析中。目前的细菌全基因组信息基本是基于下一代测序 (next generation sequencing,NGS),也叫第二代测序(second generation sequencing)或者高通量测序 (high-throughput sequencing) 技术获得的。与基于Sanger方法的第一代测序技术相比,NGS可以在更低费用消耗下更快地获得更多的基因组信息。WGS在细菌性传染病暴发调查和流行病学分析中已经显示了很好的应用能力,如2010年海地地震后的霍乱暴发菌株溯源[5-6]、2011年发生在欧洲的O104∶H4大肠埃希菌暴发事件调查[7-9]、发生在加拿大持续3年的结核病暴发分析[10]、新生儿重症监护室耐甲氧西林金黄色葡萄球菌(methicillin-resistant Staphylococcus aureus,MRSA)暴发的调查[11]、耐碳青霉烯类抗生素肺炎克雷伯菌的院内感染暴发调查[12-14]

基于WGS的病原细菌分子分型方法中目前被使用比较多的两种技术是基于全基因组测序的单核苷酸多态性分型 (whole genome-based single-nucleotide polymorphisms,wgSNP) 和全基因组多位点序列分型 (whole genome multilocus sequence typing,wgMLST)。其中后者因为使用的核心基因组序列,所以也叫核心基因组多位点序列分型 (core genome multilocus sequence typing,cgMLST)。这两种方法由于是在全基因组的水平基于序列多态性进行分型,理论上比传统分子分型方法 (MLST、PFGE、MLVA等) 具有更高的分辨力。同时,基于测序和序列多态性的分型方法,因为结果是序列信息,具有很好的分型力、重复性和实验室间可比性,便于建立分析网站和公共数据库,容易实现标准化和网络化应用。

本研究以多起细菌性传染病暴发调查和流行病学分析为例,结合近年来细菌基因组测序技术和基因组分型方法的发展现状和趋势,对目前基因组分型在细菌性传染病暴发调查和流行病学分析中的研究进展和应用现状做简要综述。

1 基于全基因组测序的单核苷酸多态性分型

wgSNP是在全基因组序列的水平上选择一定数目的SNP,比较不同细菌基因组中SNP的信息,从而达到将同一个种内的不同菌株进行分型的目的。wgSNP基于基因组重测序的方法进行,可以根据参考序列进行比对搜索SNP,也可以不根据参考序列只在样本之间进行两两或者多重比对搜索SNP,根据不同个体间的所有SNP或者经过一定条件筛选后的SNP(剔除疑似的重组)进行比对,从而实现分型。wgSNP已被用于多起传染病暴发事件中分离菌株的分型和分子流行病学分析。

2010年1月12日,海地发生里氏7.0级地震。地震发生9个月后,在10月21日,海地公共卫生官员确认当地发生霍乱暴发。截至2011年7月7日,共计发生霍乱病例386 429例,其中死亡5885例[15]。此次霍乱暴发菌株随后被输出携带至多米尼加共和国、美国,并在当地导致散发病例[16]。PFGE将海地暴发菌株与南亚菌株和其他一些地区的菌株分为相同或者极其相似的带型[16]。一项基于全基因组测序的研究结果表明,海地暴发菌株在遗传进化关系上比较接近于孟加拉国和莫桑比克的分离株,而与秘鲁分离株关系较远,提示海地暴发菌株是输入性的,而非美洲本地菌株导致[5]。但是在该研究中,菌株来源有限,不包括当时其他国家和地区正在流行的菌株。随后,Hendriksen等[6]对2010年分离自尼泊尔的24株霍乱弧菌进行了全基因组测序,并与3株海地暴发菌株进行比对,同时纳入了已公布全基因组序列的全球其他地区分离的7株霍乱弧菌进行分析,在34株霍乱弧菌中筛选出752个SNP。结果显示,海地暴发菌株和尼泊尔菌株聚集成簇,两者之间只存在1~2个SNP的差异,而与其他菌株的差异较大,表明海地霍乱暴发的菌株来源于尼泊尔。与此次暴发初期的流行病学分析相符合[17-20]。综合上述文献资料和数据,提示全基因组测序分型对霍乱暴发菌株的分辨力高于PFGE。

wgSNP也被应用到2011年欧洲产志贺毒素的大肠埃希菌O104∶H4感染性疾病的暴发调查中。2011年57月,欧洲发生2起血性腹泻和溶血性尿毒症综合征暴发。一起较大的暴发发生在德国,约4000例发病,50例死亡;另一起较小的暴发发生在法国,包括15例病例[21-22]。临床微生物学检测证实这2起暴发的病原菌均为产志贺毒素的大肠埃希菌O104∶H4[22-23];流行病学调查显示均与被污染的豆芽相关,而且可以追溯到2009年从埃及进口到德国,进而分销到法国的豆芽种子[24];公共卫生实验室检测结果显示,菌株具有相同的毒力基因成分、血清型、PFGE型、MLST型、耐药谱,为同一克隆[22, 25]。Grad等[8]对4株德国暴发菌株、11株法国暴发菌株(其中包括5株分离自同一个患者)、2株既往菌株(分别分离自2004年和2009年)进行了全基因组测序分析。结果显示,17株O104∶H4大肠埃希菌检出21个SNP,德国暴发菌株间最多只有2个SNP,而法国暴发菌株的SNP差异数高达19个,5株分离自同一个患者的菌株只存在1个SNP。15株暴发菌株具有相同的MLST和PFGE型别,但是wgSNP结果显示这些菌株具有高度的多态性。在聚类树上,法国菌株多态性大,分散存在,德国菌株聚集成簇,2起暴发并没有明显地被区分开。此研究结果表明,德国暴发是由单一菌株传播导致;法国暴发是由存在于豆芽中的多个进化关系近缘的菌株导致,这些菌株虽然存在相同的MLST和PFGE型别,但是在传代过程中发生了SNP的突变。

2006-2008年,加拿大不列颠哥伦比亚省某地发生结核病暴发。2007年该地区结核病发病率高达72/10万。通过结核分枝杆菌散在分布重复单元——可变数目串联重复序列 (mycobacterial interspersed repetitive unit-variable-number tandem repeats,MIRU-VNTRs)分型分析,所有的结核分离株有相同的MIRU-VNTRs型。Gardy等[10]对32株暴发菌株和4株暴发前在该地区分离的菌株进行了全基因组测序。36株菌均有相同的MIRU-VNTRs型,存在206个SNP,可以将各个菌株区分。应用206个SNP可以将32株暴发菌株区分为明显的2个克隆群,提示暴发是由2个并行存在的克隆引起,而不是单一的克隆。随后分析了所有患者的社交网络,调查结果与wgSNP结果高度吻合,存在着2条并行的传播链和多起传播事件,而且鉴定出超级传播者 (superspreaders)。

MRSA感染和院内感染暴发是目前存在的重要公共卫生问题,但是应用常规的分子分型技术如MLST,不同暴发的菌株往往具有相同的型别[26]。Köser等[11]应用全基因组测序对英国某医院新生儿重症监护室发生的MRSA暴发菌株进行了wgSNP分析。10株ST22型的MRSA中存在449个SNP,暴发相关的7株MRSA聚集成簇,而与暴发前分离的和其他病区分离的MRSA分成不同的簇。该研究还甄别出之前用MLST未能检测出的传播关系。该研究结果表明,针对MRSA,wgSNP比MLST具有更高的分辨力,而且可以深度揭示暴发内菌株的传播链。同时,该研究通过在全基因组序列中搜索耐药基因和毒力基因,首次提出了“耐药基因组 (resistome) ”和“毒力基因组(toxome)”的概念。

从上述4个案例可以看出,wgSNP在暴发调查和分子流行病学研究中不仅可以区分暴发相关菌株和不相关菌株,而且能够实现跨国跨洲的暴发调查(海地霍乱暴发调查、欧洲大肠埃希菌O104∶H4相关暴发调查)和揭示点状暴发事件中菌株之间的直接传播关系 (加拿大某地结核病暴发调查、英国某医院MRSA暴发调查),而这些都是传统的分子分型方法很难实现的。总体上看,wgSNP的分辨力高于PFGE (霍乱弧菌、大肠埃希菌O104∶H4)、MLST(大肠埃希菌O104∶H4、MRSA)和MLVA (结核分枝杆菌),但是也有报道,wgSNP分型对肠炎沙门菌的分辨力低。

Leekitcharoenphon等[27]用全基因组测序的手段对既往发生的6起鼠伤寒沙门菌暴发、2起肠炎沙门菌暴发、1起德尔卑沙门菌暴发共26株沙门菌以及21株散发病例分离株进行了wgSNP分析。结果显示,针对鼠伤寒沙门菌和德尔卑沙门菌,wgSNP能够很好地把各起暴发菌株聚集成簇,而与散发菌株明显地区分开;针对肠炎沙门菌,wgSNP不能够将2起暴发的菌株区分开,也不能够将暴发菌株和其他无直接流行病学关联的菌株区分开,表明wgSNP分型对肠炎沙门菌的分辨力低。但是在最近的一项研究中,Deng等[28]应用wgSNP分型分析了16起暴发分离的肠炎沙门菌,并且将分析结果同PFGE、MLVA和基于成簇的有规律的间隔的短回文重复序列结合多位点毒力基因序列分型 (clustered regularly interspaced short palindromic repeats combined with multi-virulence-locus sequence typing,CRISPR-MVLST) 进行了比较,结果显示wgSNP可以很好地区分不同暴发的菌株,分辨力高于其他3种分型方法。

wgSNP不仅在暴发调查和分子流行病学分子中起到重要作用,在种群结构分析中也优于传统分子分型方法。Chen等[29]对85株猪链球菌的全基因组序列进行分析,筛选出58 501个SNP,并依次建立分型方法,将85株猪链球菌分成7个组。他们提出最小核心基因组(minimum core genome,MCG)的概念。MCG是指从核心基因组中去除了可移动成分 (例如可转移的基因、转座子等) 后的基因组成分。基于MCG的SNP进行分型的方法称为最小核心基因组分型 (MCG typing)。结果显示猪链球菌通过MCG typing不仅可以明显区分人源和动物源菌株,而且可以把暴发和散发菌株、高致病性和低致病性菌株区分开。Chen等[29]同时建立了标准化的基因组分析流程、公共分型网站和数据库。这是已报道的第一个wgSNP的公共分型网站和数据库。随后,Zheng等[30]应用该方法对179株猪链球菌进行了分型,并且建立了基于7个PCR反应检测10个SNP的方法来区分7个MCG组。MCG typing在猪链球菌中的应用表明该方法具有很好的分辨力,能够区分具有不同公共卫生学意义的菌株,可以为暴发和流行预警做出提示。

目前已有报道的病原细菌wgSNP方法见表 1。可以看出:(1) 不同的病原菌由于其基因组组成成分不同,SNP数量和分布存在差异。(2) 不同的报道中,研究者剔除由于重组产生的SNP的标准不一致,可能与不同种病原菌的遗传和变异速率有关。(3) 暴发内菌株间存在的SNP数目在不同种病原菌中数目不一,可能与菌株本身的变异速率和不同的暴发模式(地域范围、时间跨度等)有关。理论上说,菌株本身的变异越快、暴发涉及的地域范围和时间跨度越大,暴发内部菌株间的SNP数目越大。但就目前的数据来看并无规律性。需要更多的wgSNP分型研究来寻找其规律,为今后wgSNP分型用于细菌性传染病的实验室主动监测中发现和甄别潜在的暴发做理论和实践准备。

表 1 几种目前已有报道的病原细菌wgSNP方法建立和评价情况 Table 1 Establishment and evaluation of reported wgSNP assays or pathogen detection
菌 种使用的全
基因组序
列数量
核心基因
数目
疑似重组
产生的SNP
剔除标准
SNP数目暴发菌株
鉴别
能力(1)
暴发内
菌株SNP
数目
分辨力评价
(与其他方法
比较评价)(2)
参考
文献
霍乱弧菌34未给出未给出 7521~2高于PFGE[6]
大肠埃希菌O104∶H417未给出未给出212~19高于PFGE[8]
结核分枝杆菌36未给出未给出204未给出高于MIRU-VNTRs[10]
MRSA10未给出未给出4491~51高于MLST[11]
肺炎克雷伯菌319未给出连续的SNP未给出20高于MLST[14]
沙门菌73288220 bp内有2个SNP[27]
鼠伤寒沙门菌未给出2~30与PFGE相当
德尔卑沙门菌未给出未给出与PFGE相当
肠炎沙门菌1未给出未给出与PFGE相当
肠炎沙门菌220 25213~32未给出
蒙得维的亚沙门菌13 48124~55未给出
海德堡沙门菌1904~19未给出
阿贡纳沙门菌7 43473~249未给出
肠炎沙门菌522 353未给出高于PFGE、MLVA和CRISPR-MVLST分型[28]
猪链球菌858765 bp内有2个SNP、SNP间隔区呈非指数分布58 501未评价未给出未比较[29]
酿脓链球菌6未给出未给出186未给出高于PFGE和emm分型[31]
嗜肺军团菌531 8965 bp内有2个SNP9 165未评价未给出未比较[32]
注:(1) 暴发菌株鉴别能力“好”和“差”的标准是指能否将不同暴发的菌株区分开,同时将相同暴发的菌株分成相同或者相似的型别。如果能,判断为“好”;如果不能,判断为“差”。(2) “高于”和“相当”的判断是依据文献中直接给出的结论或者根据文献中给出的数据计算分型方法的Simpson差异指数进行比较[33]

由于在wgSNP中,无法确定SNP的产生是由于点突变还是重组,而理论上一次重组产生的SNP相当于若干次点突变产生的SNP,所以在构建进化树呈现菌株关系时可能会由于未区分重组和点突变而错误地估计菌株之间的距离。但在最近报道的嗜肺军团菌的基因组分型中,作者分别用1896个直系同源基因系列和剔除重组产生的SNP后的9165个SNP进行分型和构建种群发生树,结果显示两者在菌株分型和种群结构分析方面给出了一致的结果[33]。在暴发调查中,仅需应用基因组分型进行菌株分型和种群结构分析,不需要深入揭示菌株之间的遗传距离,所以是否剔除重组产生的SNP对于wgSNP分型的影响可能并没有那么大。

另外一方面,wgSNP分型忽略了可移动元件携带的基因,这些基因里包括毒力基因和耐药基因,是揭示菌株致病性和耐药性两大特征的基因组成分,所以在进行wgSNP的同时进行毒力基因和耐药基因检测,有助于更精确地揭示被分析菌株的种群结构特征、临床意义和流行病学意义。

2 核心基因组多位点序列分型(core genome multilocus sequence typing,cgMLST)

cgMLST是使用某一个种的细菌核心基因组中的成百上千个基因位点的序列差异对菌株进行区分和分型的方法。与传统的MLST分型不同:MLST检测和比对7个基因位点的序列差异,而cgMLST检测和比对成百上千个基因位点的序列差异。在cgMLST中,沿用传统MLST的数据分析方法,以基因比对的方式在核心基因组中搜寻等位基因差异,赋予每株菌一组等位基因编号来进行分型[34]。 这种以基因为单元的比对和分型方法,不但比传统的MLST方法具有更高的分辨力,而且与wgSNP分型相比降低了对生物信息分析的要求,在结核分枝杆菌、金黄色葡萄球菌、嗜肺军团菌等多种病原菌的分型和分子流行病学研究中已经显示了应用前景。

Kohl等[35]使用7个结核分枝杆菌的全基因组序列,筛选出3257个核心基因,建立了该菌的cgMLST方法。随后作者应用cgMLST方法对26株具有相同IS6110 DNA指纹图谱和spoligotyping型别的暴发菌株进行了分型,结果显示26株菌有3041个核心基因,将26株菌分为16个cgMLST型,提示cgMLST具有比上述两种传统分型方法更高的分辨力。作者同时将cgMLST和SNP-based WGS分型进行了比较,结果显示两种分型方法对26株菌的分型和分组效果一致,均能够精确地揭示不同结核病患者间的流行病学关联。

在金黄色葡萄球菌的研究中,Leopold等[36]利用GenBank中已公布的39株金黄色葡萄球菌基因组筛选出1861个基因用于分型,建立了该菌的cgMLST方法。随后他们应用该方法对18株流行病学背景清晰的t001克隆的MRSA进行了分析,结果显示cgMLST分型结果与流行病学特征完全吻合,能把具有直接流行病学关联的菌株聚集成簇,而将未发现直接流行病学关联的菌株区分开。而且应用cgMLST可以揭示传统方法不能揭示的菌株传播关系。

嗜肺军团菌的cgMLST方法由Moran-Gilad等建立,是基于17个嗜肺军团菌全基因组的1521个核心基因[37]。通过使用另外21株嗜肺军团菌全基因组序列进行评价,表明其存在比例均>96%,平均为98.4%,该方法适用于嗜肺军团菌。随后Moran-Gilad等使用该方法对3次加湿器相关的军团菌感染事件的12株嗜肺军团菌,其中11株菌通过传统的多位点序列分型 (sequence-based typing,SBT,等同于其他细菌的MLST) 分为ST1型。结果显示cgMLST具有比传统SBT更高的分辨力,不仅可以区分不同事件分离的ST1菌株,而且可以将同一事件分离的ST1菌株分成更多的型别和克隆,鉴定出多重感染。在该cgMLST分型方法中,同一起感染事件期间分离的流行病学相关菌株存在的基因位点序列差异(Alleles difference)数为0~3个。

Ruppitsch等[38]使用42个单增李斯特菌的全基因组序列建立了其cgMLST方法,比对1701个核心基因的序列多态性。随后笔者使用17个血清型代表菌株和2起暴发菌株对建立的cgMLST方法进行了评价,结果显示所有测试菌株均含有1701个核心基因中超过99%的基因,展示了很好的分型力。通过暴发菌株的模拟测试,揭示了该方法可以很好地区分不同暴发的菌株以及暴发相关和不相关菌株。同时,cgMLST结果揭示,同一起暴发相关的菌株具有2~10个基因位点的差异,其中时间区间为8个月的暴发中分离的菌株差异10个基因位点,而时间区间为3个月的暴发中分离的菌株差异2个基因位点;暴发相关菌株和不相关菌株的差异基因位点数≥16个。同时,cgMLST可以区分MLST型别和PFGE带型均一致但流行病学不相关的菌株,差异基因位点数≥23个。这些数据为以后用cgMLST方法判断暴发期间分离的单增李斯特菌的流行病学意义奠定了基础。

将目前已有报道的7种病原菌cgMLST建立和评价的参数整理总结见表 2。结果显示:(1) 不同种类的病原菌在建立cgMLST方法时使用的菌株数量(全基因组序列数量)几株至上百株不等。使用菌株数量的多少理论上会影响最终筛选出核心基因的数量。对于1种病原菌,用于筛选核心基因的菌株数量越多,理论上最终筛选出的核心基因越少。而使用的菌株来源、血清群、传统分子分型型别分布等,将影响最终建立的cgMLST方法的适用范围。所以,在建立cgMLST方法时,挑选一定数量的不同来源(流行病学上无直接关联)、血清群和分子型别(PFGE、MLST、MLVA等)的实验菌株作为研究群体,用于筛选核心基因是最终所建立的方法是否适用的第一个关键点。(2) 除了单增李斯特菌,其他病原菌的cgMLST方法在建立时均没有与PFGE做比较。在传统的分子分型方法(PFGE、MLST、MLVA)中,PFGE是唯一通过在全基因组的水平上检测多种遗传突变来进行分型的方法,有着比其他方法更高的分辨力,被认为是病原菌分型的“金标准”[41]。所以,在建立新的cgMLST方法时,应该以PFGE为标准进行分辨力的评价,但是目前的研究大部分以传统MLST或者其他方法作为参考方法。(3) 目前的研究很少统计暴发内菌株存在序列差异的位点数量,即暴发内菌株的等位基因差异数。对以往暴发菌株进行分析,统计不同模式类型的暴发内分离株间的等位基因差异数,可为以后的暴发确认提供参考依据,更为开展实验室主动监测时潜在暴发的甄别提供判断依据。

表 2 几种已有报道的病原菌cgMLST方法建立和评价情况 Table 2 Establishment and evaluation of reported cgMLST assays or pathogen detection
菌 种使用的
全基因组
序列数量
核心基因
数量
分辨力评价
(与其他方法
比较评价)(1)
暴发菌株
鉴别
能力(2)
暴发内菌株
存在序列差异
的位点数量
参考
文献
结核分枝杆菌73257高于IS6110 DNA指纹图谱、spoligotyping,与wgSNP分型相当未统计[35]
MRSA391861高于spa分型未统计[36]
嗜肺军团菌171521高于MLST0~3[37]
单增李斯特菌421701高于MLST和PFGE2~10[38]
屎肠球菌401423高于MLST,与SNP-based WGS相当未统计[39]
ST258型肺炎克雷伯菌219694高于MLST未评价未统计[14]
脑膜炎奈瑟菌1081605未评价未评价未统计[40]
注:(1)“高于”和“相当”的判断是依据文献中直接给出的结论或者根据文献中给出的数据计算分型方法的Simpson差异指数进行比较[33]。(2)暴发菌株鉴别能力“好”和“差”的标准是指能否将不同暴发的菌株区分开,同时将相同暴发的菌株分成相同或者相似的型别。如果能,判断为“好”;如果不能,判断为“差”。
3 与传统分子分型方法比较

一种能够被广泛应用的分子分型方法应该满足以下条件:(1) 分辨力高。高分辨力是一种分子分型方法能够被应用的最重要的评价指标,因为分辨力差有可能会在暴发调查和分子流行病学分析时给出与实际情况不符的结果和结论。(2) 分型力好。分型力是指对被分析的每一菌株能够获得明确的、不似是而非的、阳性结果的能力。分型力好是应用的前提,因为只有每一株菌都能进行分型并得到明确的结果,才能进行有意义的分析和调查。(3) 可重复性好。可重复性受技术因素和生物因素两方面的影响,可重复性好才能实现不同批次实验间的结果比较。(4) 可比性强。实验室间的分型数据可比性是一种分子分型方法能够实现网络化应用的必要条件。(5) 操作简单,周期短,费用低廉。把目前被广泛使用的3种传统分子分型方法和基因组分型方法的特点归纳总结,可以看出wgSNP和wgMLST除了实验费用高以外,在分辨力、分型力、可重复性、可比性、实验周期以及操作难易度上都相当或优于传统的PFGE、 MLST、 MLVA等分型方法。

但是目前还没有报道使用一套标准菌株对基因组分型方法和传统分子分型方法在分辨力、可重复性、分型力、可比性等方面进行系统的比较,从而还不能断定基因组分型方法在所有方面均优于传统方法。如笔者在实际工作中就遇到PFGE图谱存在差异的2株嗜肺军团菌,在进行基因组分型时分为完全一致的wgSNP型 (未发表数据) 的情况。wgSNP检测的是2株菌核心基因组的SNP,不能检出大片段的插入、缺失和重组、质粒的丢失和获得等,而这些突变都会造成PFGE图谱的差异。所以,需要针对各种病原菌的流行病学和生物学特征,建立一套分析用标准菌株(panel) ,对基因组分型方法和传统分子分型方法进行系统的评价。这套标准菌株应该至少包括一批流行病学上没有关联性的菌株 (主要用于评价分辨力)、几次暴发的菌株(主要用于评价暴发分析能力) 、遗传背景清楚的菌株 (主要用于评价种群结构分析能力)。另外还能从中随机选择出菌株评价不同方法的可重复性、分型力、实验室间可比性。

4 展望

基因组测序不仅能对菌株进行分型,还能够获得分子血清型、耐药基因谱、毒力基因谱等信息。随着测序成本的降低,基因组分型的费用必将降低;而随着生物信息技术的发展,基因组分型的数据获得周期也必将缩短。只要满足了这两个条件,临床实验室和基层公共卫生实验室都可以开展基因组测序。在对基因组分型方法进行了优化和标准化之后,可以建立公共分型网站和各种菌的数据库,不同的实验室可以通过查询和比对公共数据库进行分型,同时也能获得全球的流行情况。

同时,随着测序技术的不断发展,新的基因组分型技术会不断兴起,其中包括非培养依赖的分型方法和依靠第三代测序技术的分型方法。与针对纯培养细菌的基因组分型方法比较,非培养依赖的标本直接测序技术会缩短检测和分型的时间,且可鉴定出常规培养难以检出的病原体。目前已有对粪便和尿液标本直接测序进行宏基因组研究的报道[42-43]。结果证明标本直接测序不仅能够鉴定标本里的病原菌及其毒力基因和耐药基因,而且可以获得传统的MLST和wgSNP的分型数据。在时间上,非培养依赖的标本直接测序技术可以将传统的病原菌培养和药物敏感性实验从2~4 d缩短至 1 d,而且同时能获得细菌分型的结果。而通过传统的分离培养鉴定而后获得分型的结果一般需要1周左右。所以非培养依赖的标本直接测序技术不仅在临床微生物的鉴定和药物敏感性方面缩短时间,而且在传染病疫情暴发时可以在第一时间里获得病原微生物种类、药物敏感性、分子血清型和分子分型等数据。但是目前非培养依赖的标本直接测序技术还处于发展的初级阶段,在标本的预处理、测序方法、数据分析等方面需要进行技术优化和完善。

第三代测序技术主要指PacBio单分子测序,其平均读长为8 kb左右,远大于第二代测序技术的读长,所以,依靠第三代测序技术可以获得全基因组水平的可变数目串联重复序列(variable-number tandem repeats,VNTR)、基于成簇的有规律的间隔的短回文重复序列的分型方法(clustered regularly interspaced short palindromic repeats,CRISPR)、质粒的序列信息,从而可以实现全基因组MLVA分型(wgMLVA)、全基因组CRISPR (wgCRISPR)分型、质粒谱分析。

5 结论

基因组分型在实际应用中显示了其强大的分型能力,但是需要系统的方法学优化和评价以确定其在不同菌中的分辨力、流行病学一致性和适用范围,需要对测序方法和生物信息分析流程进行标准化以达到网络化应用的要求,需要建立其判断不同菌株关系的标准以增强其鉴别暴发菌株和甄别潜在暴发的准确性。

参考文献
[1] Mutreja A, Kim DW, Thomson NR, et al. Evidence for several waves of global transmission in the seventh cholera pandemic[J]. Nature , 2011, 477 (7365) : 462–465. DOI:10.1038/nature10392
[2] Didelot X, Pang B, Zhou ZM, et al. The role of China in the global spread of the current cholera pandemic[J]. PLoS Genet , 2015, 11 (3) : e1005072. DOI:10.1371/journal.pgen.1005072
[3] Croucher NJ, Finkelstein JA, Pelton SI, et al. Population genomics of post-vaccine changes in pneumococcal epidemiology[J]. Nat Genet , 2013, 45 (6) : 656–663. DOI:10.1038/ng.2625
[4] Holt KE, Wertheim H, Zadoks RN, et al. Genomic analysis of diversity,population structure,virulence,and antimicrobial resistance in Klebsiella pneumoniae,an urgent threat to public health[J]. Proc Natl Acad Sci USA , 2015, 112 (27) : E3574–3581. DOI:10.1073/pnas.1501049112
[5] Chin CS, Sorenson J, Harris JB, et al. The origin of the Haitian cholera outbreak strain[J]. N Engl J Med , 2011, 364 (1) : 33–42. DOI:10.1056/NEJMoa1012928
[6] Hendriksen RS, Price LB, Schupp JM, et al. Population genetics of Vibriocholerae from Nepal in 2010:evidence on the origin of the Haitian outbreak[J]. mBio , 2011, 2 (4) : e00157-11.
[7] Mellmann A, Harmsen D, Cummings CA, et al. Prospective genomic characterization of the German enterohemorrhagic Escherichia coli O104:H4 outbreak by rapid next generation sequencing technology[J]. PLoS One , 2011, 6 (7) : e22751. DOI:10.1371/journal.pone.0022751
[8] Grad YH, Lipsitch M, Feldgarden M, et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe,2011[J]. Proc Natl Acad Sci USA , 2012, 109 (8) : 3065–3070. DOI:10.1073/pnas.1121491109
[9] Rohde H, Qin JJ, Cui YJ, et al. Open-source genomic analysis of Shiga-toxin-producing E.coli O104:H4[J]. N Engl J Med , 2011, 365 (8) : 718–724. DOI:10.1056/NEJMoa1107643
[10] Gardy JL, Johnston JC, Ho Sui SJ, et al. Whole-genome sequencing and social-network analysis of a tuberculosis outbreak[J]. N Engl J Med , 2011, 364 (8) : 730–739. DOI:10.1056/NEJMoa1003176
[11] K ser CU, Holden MTG, Ellington MJ, et al. Rapid whole-genome sequencing for investigation of a neonatal MRSA outbreak[J]. N Engl J Med , 2012, 366 (24) : 2267–2275. DOI:10.1056/NEJMoa1109910
[12] Snitkin ES, Zelazny AM, Thomas PJ, et al. Tracking a hospital outbreak of carbapenem-resistant Klebsiella pneumoniae with whole-genome sequencing[J]. Sci Transl Med , 2012, 4 (148) : 148ra116.
[13] Jiang Y, Wei Z, Wang Y, et al. Tracking a hospital outbreak of KPC-producing ST11Klebsiella pneumoniae with whole genome sequencing[J]. Clin Microbiol Infect , 2015, 21 (11) : 1001–1007. DOI:10.1016/j.cmi.2015.07.001
[14] Onori R, Gaiarsa S, Comandatore F, et al. Tracking nosocomial Klebsiella pneumoniae infections and outbreaks by whole-genome analysis:small-scale Italian scenario within a single hospital[J]. J Clin Microbiol , 2015, 53 (9) : 2861–2868. DOI:10.1128/JCM.00545-15
[15] Pan American Health Organization.Monday,July 25,2011,Cholera and post-earth-quake response in Haiti[EB/OL].Health Cluster Bulletin 26.http://new.paho.org/blogs/haiti/?p_2043.
[16] Centers for Disease Control and Prevention. Update on cholera-Haiti,Dominican republic,and Florida,2010[J]. MMWR Morb Mortal Wkly Rep , 2010, 59 (50) : 1637–1641.
[17] Piarroux R, Barrais R, Faucher B, et al. Understanding the cholera epidemic,Haiti[J]. Emerg Infect Dis , 2011, 17 (7) : 1161–1168. DOI:10.3201/eid1707.110059
[18] Butler D. Cholera tightens grip on Haiti[J]. Nature , 2010, 468 (7323) : 483–484. DOI:10.1038/468483a
[19] Enserink M. Despite sensitivities,scientists seek to solve Haiti's cholera riddle[J]. Science , 2011, 331 (6016) : 388–389. DOI:10.1126/science.331.6016.388
[20] Enserink M. Haiti's outbreak is latest in cholera's new global assault[J]. Science , 2010, 330 (6005) : 738–739. DOI:10.1126/science.330.6005.738
[21] Frank C, Werber D, Cramer JP, et al. Epidemic profile of Shiga-toxin-producing Escherichia coli O104:H4 outbreak in Germany[J]. N Engl J Med , 2011, 365 (19) : 1771–1780. DOI:10.1056/NEJMoa1106483
[22] Gault G, Weill FX, Mariani-Kurkdjian P, et al. Outbreak of haemolyticuraemic syndrome and bloody diarrhoea due to Escherichia coli O104:H4,south-west France,June 2011[J]. Euro Surveill , 2011, 16 (26) : 19905.
[23] Scheutz F, Nielsen EM, Frimodt-Møller J, et al. Characteristics of the enteroaggregative Shiga toxin/verotoxin-producing Escherichia coli O104:H4 strain causing the outbreak of haemolyticuraemic syndrome in Germany,May to June 2011[J]. Euro Surveill , 2011, 16 (24) : 19889.
[24] European Food Safety Authority.Tracing seeds,in particular fenugreek (Trigonellafoenum-graecum) seeds,in relation to the Shiga toxin-producing E.coli(STEC) O104:H42011 outbreaks in Germany and France[EB/OL].(2015-12-24).http://www.efsa.europa.eu/en/supporting/doc/176e.pdf.
[25] Mariani-Kurkdjian P, Bingen E, Gault G, et al. Escherichia coli O104:H4 south-west France,June 2011[J]. Lancet Infect Dis , 2011, 11 (10) : 732–733. DOI:10.1016/S1473-3099(11)70266-3
[26] Ellington MJ, Hope R, Livermore DM, et al. Decline of EMRSA-16 amongst methicillin-resistant Staphylococcus aureus causing bacteraemias in the UK between 2001 and 2007[J]. J Antimicrob Chemother , 2010, 65 (3) : 446–448. DOI:10.1093/jac/dkp448
[27] Leekitcharoenphon P, Nielsen EM, Kaas RS, et al. Evaluation of whole genome sequencing for outbreak detection of Salmonella enterica[J]. PLoS One , 2014, 9 (2) : e87991. DOI:10.1371/journal.pone.0087991
[28] Deng XY, Shariat N, Driebe EM, et al. Comparative analysis of subtyping methods against a whole-genome-sequencing standard for Salmonella enterica serotype Enteritidis[J]. J Clin Microbiol , 2015, 53 (1) : 212–218. DOI:10.1128/JCM.02332-14
[29] Chen C, Zhang W, Zheng H, et al. Minimum core genome sequence typing of bacterial pathogens:a unified approach for clinical and public health microbiology[J]. J Clin Microbiol , 2013, 51 (8) : 2582–2591. DOI:10.1128/JCM.00535-13
[30] Zheng H, Ji SB, Lan RT, et al. Population analysis of Streptococcussuis isolates from slaughtered swine by use of minimum core genome sequence typing[J]. J Clin Microbiol , 2014, 52 (10) : 3568–3572. DOI:10.1128/JCM.00536-14
[31] Ben Zakour NL, Venturini C, Beatson SA, et al. Analysis of a Streptococcus pyogenes puerperal sepsis cluster by use of whole-genome sequencing[J]. J Clin Microbiol , 2012, 50 (7) : 2224–2228. DOI:10.1128/JCM.00675-12
[32] Qin T, Zhang W, Liu WB, et al. Population structure and minimum core genome typing of Legionella pneumophila[J]. Sci Rep , 2016, 6 : 21356. DOI:10.1038/srep21356
[33] Hunter PR, Gaston MA. Numerical index of the discriminatoryability of typing systems:an application of Simpson's index of diversity[J]. J Clin Microbiol , 1988, 26 (11) : 2465–2466.
[34] Maiden MCJ, Jansen van Rensburg MJJ, Bray JE, et al. MLST revisited:the gene-by-gene approach to bacterial genomics[J]. Nat Rev Microbiol , 2013, 11 (10) : 728–736. DOI:10.1038/nrmicro3093
[35] Kohl TA, Diel R, Harmsen D, et al. Whole-genome-based Mycobacterium tuberculosis surveillance:a standardized,portable,and expandable approach[J]. J Clin Microbiol , 2014, 52 (7) : 2479–2486. DOI:10.1128/JCM.00567-14
[36] Leopold SR, Goering RV, Witten A, et al. Bacterial whole-genome sequencing revisited:portable,scalable,and standardized analysis for typing and detection of virulence and antibiotic resistance genes[J]. J Clin Microbiol , 2014, 52 (7) : 2365–2370. DOI:10.1128/JCM.00262-14
[37] Moran-Gilad J, Prior K, Yakunin E, et al. Design and application of a core genome multilocus sequence typing scheme for investigation of Legionnaires' disease incidents[J]. Euro Surveill , 2015, 20 (28) : 21186. DOI:10.2807/1560-7917.ES2015.20.28.21186
[38] Ruppitsch W, Pietzka A, Prior K, et al. Defining and evaluating a core genome multilocus sequence typing scheme for whole-genome sequence-based typing of Listeria monocytogenes[J]. J Clin Microbiol , 2015, 53 (9) : 2869–2876. DOI:10.1128/JCM.01193-15
[39] de Been M, Pinholt M, Top J, et al. Core genome multilocus sequence typing scheme for high-resolution typing of Enterococcusfaecium[J]. J Clin Microbiol , 2015, 53 (12) : 3788–3797.
[40] Bratcher HB, Corton C, Jolley KA, et al. A gene-by-gene population genomics platform:denovo assembly,annotation and genealogical analysis of 108 representative Neisseria meningitidis genomes[J]. BMC Genomics , 2014, 15 (1) : 1138. DOI:10.1186/1471-2164-15-1138
[41] Sabat AJ, Budimir A, Nashev D, et al. Overview of molecular typing methods for outbreak detection and epidemiological surveillance[J]. Euro Surveill , 2013, 18 (4) : 20380.
[42] Loman NJ, Constantinidou C, Christner M, et al. A culture-independent sequence-based metagenomics approach to the investigation of an outbreak of Shiga-toxigenic Escherichia coli O104:H4[J]. JAMA , 2013, 309 (14) : 1502–1510. DOI:10.1001/jama.2013.3231
[43] Hasman H, Saputra D, Sicheritz-Ponten T, et al. Rapid whole-genome sequencing for detection and characterization of micro organisms directly from clinical samples[J]. J Clin Microbiol , 2014, 52 (1) : 139–146. DOI:10.1128/JCM.02452-13