疾病监测  2015, Vol. 30 Issue (5): 358-360

扩展功能

文章信息

侯雪新, 杜鹏程, 李振军
HOU Xue-xin, DU Peng-cheng, LI Zhen-jun
规律成簇的间隔短回文重复序列中间隔序列的噬菌体来源研究
Study of spacer sequences in clustered regularly interspaced short palindromic repeats originated from bacteriophages
疾病监测, 2015, 30(5): 358-360
Disease Surveillance, 2015, 30(5): 358-360
10.3784/j.issn.1003-9961.2015.05.005

文章历史

收稿日期:2015-02-25
规律成簇的间隔短回文重复序列中间隔序列的噬菌体来源研究
侯雪新, 杜鹏程, 李振军     
中国疾病预防控制中心传染病预防控制所, 北京 102206
摘要目的 发现在现有的全基因组测序完成的原核生物中规律成簇的间隔短回文重复序列(CRISPR)系统中间隔序列分布规律以及间隔序列中噬菌体来源情况. 方法 整理现有CRISPR数据库中2762株细菌基因组中的CRISPR系统和其中的间隔序列数据,整理GenBank数据库中发表的1444个噬菌体基因组数据.利用BLASTN软件对间隔序列数据与噬菌体基因组进行相似性比较,计数资料比较使用χ2检验. 结果 在2762个细菌基因组中整理出1940个基因组存在确定或可能的CRISPR结构和90 096条间隔序列,多数基因组具有1~50条间隔序列(1414/1940,72.9%),间隔序列数量>250条的仅有58个基因组(58/1940,3.0%).其中古细菌13株(13/150,8.6%),真细菌45株(45/2612,1.7%),差异有统计学意义(χ2=29.98,P <0.01).相似性比较结果共发现245个细菌基因组的1055条间隔序列,成功比对上363个噬菌体,比对成功率仅为0.12%. 结论 细菌基因组中的CRISPR系统中间隔序列数量存在较大差异,古细菌基因组中CRISPR系统存在更多的间隔序列.相似性比较中噬菌体来源的间隔序列所占比例低,提示与细菌和噬菌体基因组发现较少相关,进一步深入研究可以大幅度提高成功率.
关键词规律成簇的间隔短回文重复序列    间隔序列    噬菌体    原核生物    
Study of spacer sequences in clustered regularly interspaced short palindromic repeats originated from bacteriophages
HOU Xue-xin, DU Peng-cheng, LI Zhen-jun     
State Key Laboratory for Communicable Diseases Prevention and Control, Institute for Communicable Disease Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 102206, China
Abstract:Objective To understand the regularity of spacer sequences in clustered regularly interspaced short palindromic repeats (CRISPR) distributed in prokaryotes to which the complete genome sequencing was completed, and find the spacer sequences originated from bacteriophages. Methods From CRISPR database, 90096 spacer sequences identified from bacterial genome sequences were obtained and 1444 bacteriophage sequences from GenBank were used to establish the database. All the spacer sequences were aligned by using bacteriophage database with BLASTN software. Enumeration data were analyzed with χ2 test. Results Among 2762 genomes, there were 1940 genomes with CRISPR or with possible CRISPR and 90096 spacer sequences in these CRISPR. Most genome had 1~50 spacers (1414/1940, 72.9%). Only 58 genomes had >250 spacers (58/1940, 3.0%). Among these genomes, 13 were from archaebacteria and the other 45 genomes were from true bacteria, the difference was statistical significant (χ2=29.98,P <0.01). The 1055 spacer sequences form 245 bacteria strains completely matched to 363 bacteriophages sequences, the rate was only 0.12%. Conclusion The number of spacer sequences in CRISPR differed among prokaryote genomes. There were more spacer sequences in CRISPR of archaebacteria genomes than in those of true bacteria genomes. The rate of spacer sequence originated from bacteriophages was low, which was related with the less detection of bacteria and bacteriophages genomes. Further research can improve the effective discovery.
Key words: Clustered regularly interspaced short palindromic repeats    spacer sequence    Bacteriophages    Prokaryotes    

原核生物在正常的生存过程中不断面临外源性基因的侵扰,为了保持自身基因的稳定性和完整性,进化出了多种机制用于对抗外来基因的入侵。规律成簇的间隔短回文重复序列(Clustered regularly interspaced short palindromic repeats,CRISPR)与相关蛋白组成的CRISPR/Cas系统就是其中重要之一[1]。90%的古细菌和40%以上的真细菌均存在此结构,实现细菌的部分免疫功能。CRISPR结构中的间隔序列(Spacer sequences),来源于外来入侵的基因片段[2],记录了原核生物被外源性基因入侵的历史[3]。随着测序技术的进步,完成全基因组测序工作的菌株越来越多,为更准确的发现和预测CRISPR/Cas系统提供了更便利的条件。同时,作为细菌重要的外源基因入侵载体的噬菌体基因组测序数量也大量增加。本研究利用已经完成全基因测序的菌株序列预测出的CRISPR结构,找到其中的间隔序列,分析间隔序列在基因组中的分布情况,并与已经公布的噬菌体基因组进行同源性比较,发现其中可能存在的规律。

1 材料与方法 1.1 细菌间隔序列数据

本研究的CRISPR数据来自于CRISPRs database数据库(http://crispr.u-psud.fr/crispr/)。此数据库是对已有的细菌全基因组数据利用CRISPR finder软件预测分析存在的CRISPR/Cas系统的结构[4]

1.2 噬菌体基因组数据

噬菌体序列来自于GenBank数据库上公布的噬菌体序列(www.ncbi.nlm.gov),共有1444条噬菌体基因组序列。

1.3 间隔序列与噬菌体基因组序列比对分析

使用从GenBank上下载的1444条噬菌体序列数据建立数据库,以CRISPRs database数据库中的全部间隔序列数据与噬菌体序列数据库进行比对,使用BLASTN 2.2.27软件,按照参数默认设置进行。对完成的比对结果进行后续分析。

确定比对成功的条件:(1)根据序列比对方法的经验,选择完全比对上的结果。参数设置为Identity值为1,Gap值为0,E-value(E值)为<0.02。按照一般比对要求,E-value<0.01即可以认定为序列比对结果有效。(2)在分析CRISPRs database数据库中间隔序列时发现,存在小部分序列长度小于20 bp,多为14~18 bp。此部分序列由于过短且造成随机匹配的概率大大增加,影响整体结果,依据经验也将此部分序列排除在比对数据之外[5]

2 结果 2.1 CRISPR序列在细菌基因组上的分布

截至2014年8月CRISPRs database数据库共利用全基因组测序2762株菌株分析出4065个确定的CRISPR结构,其中150株古细菌基因组中的126株和2612株真细菌的基因组中1176株含有确定的CRISPR结构;其他还包括质粒基因组和不确定的CRISPR结构基因组,共计1940个。

分析以上所有CRISPR结构,共提取出90 096条间隔序列。观察CRISPR数据库整体数据情况,不同种属的细菌携带间隔序列数量分布呈现偏态,最多的含有832条,为嗜盐黏细菌(Haliangium ochraceum)DSM 14365;最少的仅有1条(共有331株菌)。多数细菌具有1~50条间隔序列(1414/1940,72.9%),间隔序列数量>250条的仅有58株(58/1940,1.9%)。其中古细菌13株(13/150,8.6%),真细菌45株(45/2612,1.7%),差异有统计学意义(χ2=29.98,P<0.01),见表 1

表1 间隔序列数量在基因组中分布 Table 1 Number of spacer sequences distributed in genomes
间隔序列数量基因组数量构成比(%)
1~50141472.9
51~10025413.1
101~1501226.3
151~200593.0
201~250331.7
251~583.0
合计1940
2.2 噬菌体来源的间隔序列

将细菌基因组上的90 096条CRISPR间隔序列与1444条噬菌体序列进行比对后,共有来自于57种细菌的245株菌株的1055条间隔序列(1055/90 096,0.12%),成功比对上363条噬菌体序列(363/1444,25.1%)。这245株菌中,古细菌49株(20%),细菌196株(其中革兰阳性菌78株,占31.8%,革兰阴性菌118株,占48.2%)。其中按照菌种属分类排在比对成功数量前5位的是链球菌属34株(13.9%),单增李斯特菌23株(9.4%),沙门菌16株(6.5%),大肠埃希菌14株(5.7%),铜绿假单胞菌11株(4.5%),分别来自于6~28个噬菌体序列,见表 2

表2 含有噬菌体来源间隔序列最多的5个属 Table 2 The first 5 genus carrying spacers originated from bacteriophages
菌株名称菌株数量间隔序列数量比对成功噬菌体数量
链球菌属3433626
单增李斯特菌2368928
沙门菌16226
大肠埃希菌145317
绿脓假单胞菌1123027
3 讨论

CRISPR/Cas系统被认为是原核生物的获得性免疫功能结构,广泛存在于原核生物中,抵抗外源性基因侵入。CRISPR/Cas系统基本的结构由多条保守的重复序列(Repeats)和插入其中的间隔序列构成,并在第一条重复序列前存在一条200~500 bp的前导序列,结合Cas蛋白基因,共同构成最基础的CRISPR/Cas系统[6]。CRISPR/Cas系统至少通过适应(adaptation)和干扰(interference)两个阶段完成细菌抵抗外源性基因的入侵[7]。在适应阶段,外源性的DNA一部分基因序列被CRISPR/Cas系统获得,并在前导序列和第一个重复序列插入,形成新的间隔序列。在干扰阶段,CRISPR位点进行转录(transcription),全长的RNA序列被剪切成短CRISPR RNAs (crRNAs),crRNAs与cas蛋白结合成复合体,利用插入的间隔序列以互补原理锚定在外源性基因,并使得外源性基因被降解[8]。已经有多项研究表明,CRISPR/Cas系统可以阻碍细菌噬菌体的感染和质粒转化[9,10]

间隔序列在古细菌和真细菌基因组上存在差异。古细菌含有更多的间隔序列数量,可能原因为古细菌的生存和进化历史更为长久[11],长期被外源性遗传物质入侵积[12],积累更多的间隔序列。而真细菌多与人类或其他生物共存,生存环境较为复杂,基因的横向转移可以给细菌带来更多生存优势,所以在进化中间隔序列数量保持在一定范围内。

在以往的研究中,能够找到外援性基因来源的数量非常少。有研究表明仅有2%的间隔序列可以找到外源性基因来源:从67株菌株提取的4500条间隔序列中的88条可以比对上噬菌体、质粒和其他基因组序列,仅有47条间隔比对上噬菌体,成功比例仅为0.1%[5]。通过本研究分析,我们从2762株菌中提取了90 096条间隔序列,里面仅有1055条间隔序列能够较为明确地从噬菌体找到来源,比例仅为0.12%,与有关报道相近[13]。可能原因:(1)现有的对噬菌体的发现过少,虽然经过多年的研究和发现,基因测序技术不断发展,全基因组序列不断积累,序列数量不断扩大。但与自然界实际的存在情况相比,仍存在巨大的差距。研究最为广泛的大肠埃希菌,其间隔序列与噬菌体的比对成功率为5.1%(大肠埃希菌58株含有CRISPR结构,共有1030条间隔序列,比对成功的有14株的53条间隔序列),远高于结果数据的平均值(差异有统计学意义,χ2=125.1,P<0.01),说明进一步加大基础数据的积累,能够更有效的发现。(2)间隔序列长度较短,多为21~72 bp。为了保证比对的准确度,本研究提高了比对成功的标准,选择进一步降低E值,限定GAP为0,减少形成随机比对的误差。提高了比对条件,也在一定程度上降低了比对成功数量。(3)同时,由于间隔序列数据来源于已有全基因组测序的菌株,并且对CRISPR结构的识别更为严格,所以也可能丢弃了部分可能存在的间隔序列。(4)作为已完成测序的噬菌体和细菌全基因组数据,本身存在一定的偏倚。测序数据并不能完全代表自然界中细菌的分布情况,被大量测序的菌株和噬菌体多与人类疾病或工业生产相关,并且菌株存在一定的特殊意义才会进行测序并获取数据。

现阶段由于细菌全基因组测序数量的增加,发现的CRISPR系统数量也较以前大幅度提高。间隔序列与噬菌体序列的比对成功数量较以往研究已大大增加,但是整体成功率仍然较低(0.12%),说明CRISPR系统中噬菌体来源的间隔序列所占比例可能较小,与细菌和噬菌体基因组发现较少相关,进一步深入研究可以大幅度提高成功率。

参考文献
[1] Horvath P, Barrangou R. CRISPR/Cas, the immune system of bacteria and archaea[J]. Science,2010,327(5962):167-170.
[2] Sorek R, Kunin V, Hugenholtz P. CRISPR-a widespread system that provides acquired resistance against phages in bacteria and archaea[J]. Nat Rev Microbiol,2008,6(3):181-186.
[3] Iranzo J, Lobkovsky AE, Wolf YI, et al. Evolutionary dynamics of the prokaryotic adaptive immunity system CRISPR-Cas in an explicit ecological context[J]. J Bacteriol,2013,195(17):3834-3844.
[4] Grissa I, Vergnaud G, Pourcel C. The CRISPRdb database and tools to display CRISPRs and to generate dictionaries of spacers and repeats[J]. BMC Bioinformatics,2007,8(1):172-182.
[5] Mojica FJM, García-Martínez J, Soria E, et al. Intervening sequences of regularly spaced prokaryotic repeats derive from foreign genetic elements[J]. J Mol Evol,2005,60(2):174-182.
[6] Marraffini LA. CRISPR-Cas immunity against phages: its effects on the evolution and survival of bacterial pathogens[J]. PLoS Pathogens,2013,9(12):e103765.
[7] Abedon ST. Facilitation of CRISPR adaptation[J]. Bacterophage,2011,1(3):179-181.
[8] Van der Oost J, Jore MM, Westra ER, et al. CRISPR-based adaptive and heritable immunity in prokaryotes[J]. Trends Biochem Sci,2009,34(8):401-407.
[9] Sun CL,Barrangou R, Thomas BC, et al. Phage mutations in response to CRISPR diversification in a bacterial population[J]. Environ Microbiol,2013,15(2):463-470.
[10] Hua YH, Huang Y, Zhang ZY, et al. Screen for the phage-resistant bacteria containing CRISPR sequences[J]. Acta Universitatis Medicinalis Anhui,2014,49(6):833-836. (in Chinese) 滑玉会,黄勇,张志毅,等. 含有CRISPR序列的噬菌体耐受菌的筛选 [J]. 安徽医科大学学报,2014,49(6):833-836.
[11] Guan ZH, Ding QH, Da L. Current research on bacterial systematics[J]. Journal of Inner Mongolia Normal University:Natural Science Edition,2000,29(3):209-214. (in Chinese) 关泽红,丁齐虹,达来. 细菌系统分类学研究现状[J]. 内蒙古师范大学学报:自然科学汉文版,2000,29(3):209-214.
[12] Yang CJ, Qiu SF, Song HS. Advances in research on structure and function of CRISPR[J]. MilMed Sci,2013,37(2):155-158.(in Chinese) 杨超杰,邱少富,宋宏彬.CRISPR结构和功能研究进展[J]. 军事医学,2013,37(2):155-158.
[13] Gophna U,Brodt A. CRISPR/Cas systems in archaea[J]. Mobile Genetic Elements,2012,2(1):63-64.