疾病监测, 2013, 28(3): 236-240
DOI: 10.3784/j.issn.1003-9961.2013.3.019
An online platform SSUDB: database of bacteria identification and classification with 16S rDNA
CHEN Chen1, PENG Ke2, WANG Hai-yin1, DU Peng-cheng1, ZHANG Wen1, ZHANG Yuan-yuan1, YU Wei-wen1
State Key Laboratory for Communicable Diseases Prevention and Control, Institute for Communicable Disease Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 102206, China
Abstract
Objective In order to support the bacterial pathogen identification and classification in communicable disease control and prevention as well as clinical treatment, an online bioinformatic analysis platform was established based on a merged and non-redundant 16S rDNA database. Methods To build the comprehensive, accurate and non-redundant 16S rDNA database,16S rDNA sequences of known bacteria in the open international databases, including RDP, GenBank, SLIVA, HOMD were collected and rearranged. A bioinformatic pipeline was established for bacterial pathogen identification and classification using common bioinformatic software and PERL programming language, and an automatic online platform was developed using web 2.0 and JAVAEE technology. Results A total of 1 450 265 16S rDNA sequences were collected and 96 138 sequences were kept in the database. An online system was established including sequence alignment and clustering functions(http://ssu.bioinfo-icdc.org). Conclusion This platform could be used in the rapid and accurate identification and classification of pathogenic bacteria by analyzing the 16S rDNA sequence online fleetly and simply, which can simplify the procedures and speed the process of communicable disease control and treatment.
Keywords:    16S rDNA   pathogen identification and classification   database   online analysis system  

基于16S rDNA数据库的细菌在线分类鉴定平台的构建
陈晨1, 彭珂2, 王海印1, 杜鹏程1, 张雯1, 张媛媛1, 于伟文1
1. 中国疾病预防控制中心传染病预防控制所生物信息室, 传染病预防控制国家重点实验室, 北京 102206;
2. 中国科学院北京基因组研究所信息室
摘要
目的 利用且兼并简化现有16S rDNA基础数据库,建立可用于传染病预防控制及感染性疾病的临床诊疗的细菌快速分类的核糖体基因数据库,构建快速鉴定在线分析平台。 方法 收集整理已有的包括RDP、GenBank、SILVA、HOMD等国际公认、公开的16S rDNA数据库,进行整理、筛选和去冗余,重新构建16S rDNA数据库。利用生物信息学构建自动化分析流程,并利用先进的web 2.0、JAVAEE等技术开发设计数据库系统及网站,构建了自动化的在线细菌分类鉴定平台。 结果 通过核酸序列比较,将已公布的1 450 265条16S rDNA序列简化为具有代表性的96 138条序列,并构建了序列数据库。结合序列比较、序列聚类等生物信息方法,建立了基于web的快速检索系统(http://ssu.bioinfo-icdc.org)。 结论 通过构建基于16S rDNA序列的细菌分类鉴定在线分析平台,具有快速、简单、明确的特征,能够对病原菌进行快速、准确的分类学鉴定,有效提高传染病预防控制和感染性疾病临床诊疗中的病原菌鉴定和疫情溯源的速度,为及时实施有效治疗和控制措施赢得时间。
关键词:    16S rDNA   病原菌分类鉴定   数据库   在线分析平台  

内容大纲
1 材料与方法
1.1 数据来源
1.2 数据库整理
1.3 构建生物信息分析流程
1.4 在线分析系统技术架构设计
2 结果
2.1 16S rDNA数据资料的收集整理和数据库建立
2.2 细菌在线分类鉴定平台功能及页面组成
2.3 任务提交及结果浏览过程示例
3 讨论
  随着分子生物学及相关实验技术的不断进步,核酸序列测定得到飞速发展和广泛应用[1],细菌的分类鉴定也从传统的表型、生化鉴定,发展到依据特定基因序列甚至全基因组序列进行分型鉴定,包括DNA杂交、rDNA指纹图谱、16S rDNA序列分析、全基因组序列分析等。而由于16S rDNA是原核生物所特有的共有性序列,为核糖体中30S亚基(小亚基)的组成部分,其相对分子质量适中,约含1540个核苷酸,便于分析,且既含有高度保守区域,又含有高变区域,不同种属间存在一定差异,因此常被用来作为分类鉴定,进化分析和溯源的重要依据[2],自Carl Woese首次用于菌种进化鉴定后利用16S rDNA可变区段差异对细菌进行分类已成为分类鉴定的经典方法[3]。目前,传统方法是利用通用引物扩增其对应的核心500 bp或全长序列进行测序,与数据库中的16S rDNA序列进行比较,确定其分类或进化位置[4]。随着高通量测序技术的出现,16S rDNA的深度测序被广泛用来作为样本菌群构成分析的重要方法和手段[5],主要应用于环境和人体菌群宏基因组研究,且是针对未知病原微生物的快速检测的重要备选方案[6]
国际上三大核酸序列数据库EMBL、GenBank 和DDBJ中存储了丰富的16S rDNA数据(此3个数据库数据共享),包含所有已提交的16S rDNA序列,但存在大量冗余信息[7]。一些专门机构,如美国密歇根州立大学构建了RDP(Ribosomal Database Project-Ⅱ)库 ,提供了141万条小亚基序列,比利时安特卫普大学建立的比利时根特数据库收集了6000多种小亚基序列[8],都提供了大量的16S rDNA数据。这些序列已被广泛应用于微生物宏基因组分析研究,对了解人体和环境样本中的复杂细菌成分组成起到了重要作用 。然而,这些数据为世界各地的实验室在不同的研究中所获得,数据质量和一致性均存在一定差异,存在大量冗余数据,且绝大多数未经过实验再次确认,有可能存在错误,为未知病原菌的筛查和分类鉴定带来了困难[9],大大增加了筛查所需时间及工作量。因此,整合构建准确的、完善的细菌16S rDNA数据库系统,建设方便实用的自动化网络分析平台对于传染病预防控制及感染性疾病的临床诊疗过程中应用16S rDNA来进行细菌分类鉴定具有重要意义。
1 材料与方法
1.1 数据来源
  收集了国际上公认、公开的数据库中的16S rDNA序列,包括RDP[11]、SILVA[10]、HOMD(Human Oral Microbiome Database)[12]、GenBank[13]细菌全基因组数据(表1),并对已知肠道菌扩增16S rDNA测序63条。

表1 本系统所收集的16S rDNA 数据来源
Table 1 Sources of 16S rDNA data for the platform
数据库名称序列数量版本号数据库链接
RDP1 418 497release10_22http://rdp.cme.msu.edu/
SILVA29 30627.07.12http://www.arb-silva.de/
HOMD75511.0http://www.homd.org/
GenBank16972012.07.12ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/


1.2 数据库整理
  整合所收集的16S rDNA 序列,针对不同来源序列建立完善的筛选流程进行过滤(图1)。首先,筛除所有分类情况未知或未鉴定到种属水平的序列;第二步,根据序列长度进行过滤,利用perl语言编写程序,统计序列长度,去除所有长度小于1450 bp的序列;第三步,将前两步过滤后所得序列利用BLAST软件(版本2.2.21)进行两两比对分析[14],去除完全相同的冗余序列,最终形成16S rDNA全长非冗余元数据库。

图1 不同来源16S rDNA序列数据筛选流程
Figure 1 Pipeline for 16S rDNA data filtering
不同来源16S rDNA序列数据筛选流程

1.3 构建生物信息分析流程
  使用国际公认的数据比对和进化分析软件,采用PERL语言构建16S rDNA序列自动分析流程。分析步骤为:使用BLAST比对分析软件,将用户在线提交的16S rDNA序列与系统中的16S rDNA数据库进行比对,提取、筛选比对结果,得到比对长度、位置、相似度等信息,根据比对长度、相似度计算比对得分,选取数据库中与提交序列比对得分最高的序列所对应的分类信息作为本系统推荐的分类鉴定结果,同时提取比对得分较高的前20条序列,显示比对结果统计信息,并与提交序列一同利用MUSCLE软件(版本v3.6)[15]进行多重序列比对,采用NJ 法构建进化关系树。
1.4 在线分析系统技术架构设计
  宏观上,该在线分析鉴定平台采用JAVAEE和web 2.0技术,平台的核心采用目前通用的、企业级的JAVAEE开发标准Spring Framework,实施对整个系统所有对象的管理,并进行有机装配,实现可插拔、松散耦合的模块架构;Spring对各种开源框架提供广泛的支持,具备高度的可扩展性,必要时可以方便的进行集成。基于Spring,将应用系统中的所有业务对象划分为5个层次:(1)客户层:为访问本系统各类应用的客户端设备和工具。(2)表现层:该层接收客户端的HTTP请求,提供系统登录,会话管理,访问控制,数据展现和交易分发等功能。(3)业务层:该层为JAVAEE的核心层,它接收表现层分发的交易请求,完成业务逻辑的具体实现。(4)集成层:该层向业务层提供统一的内部和外部资源的访问,为业务层的数据访问请求屏蔽不同的数据存储访问技术。(5)资源层:资源层主要包括数据库,文件系统和外部系统。5层分别在Spring配置文件中进行对象配置,并声明对象的注入关系,通过依赖注入,实现了各个层次的松散耦合,提高整个系统开发的可维护性及可扩展性。
当用户通过浏览器从页面提交请求,在表现层由BackingBean类监听用户发出的请求,当BackingBean捕捉到请求事件后,自动将事件的处理单元分配给业务逻辑层 Service类,Service接收到计算分析命令后,通过webservice xfire技术自动调用已构建好的生物信息分析引擎DAO类去执行最终的计算,并将分析结果通过接口以页面的形式反馈给用户供其参考。

图2 系统架构设计
Figure 2 Structure design of the system
系统架构设计
2 结果
2.1  16S rDNA数据资料的收集整理和数据库建立
   共收集到来自不同数据库的共1 450 265条16S rDNA数据,根据筛选流程进行筛选和去冗余,共得到96 138条有效数据,其中来自于古细菌1262条,来自于真细菌94 876条,涵盖了37门,77纲,143目,355科,1798属,包括了大多数病原菌所在的放线菌门、厚壁菌门、变形杆菌门、拟杆菌门中的分枝杆菌属、李斯特菌属、葡萄球菌属、链球菌属、布鲁氏菌属、埃希菌属、肠杆菌属、弧菌属、拟杆菌属等(详见http://ssu.bioinfo-icdc.org/16S/file/16S.xlsx)。
2.2  细菌在线分类鉴定平台功能及页面组成
  细菌在线分类鉴定平台访问地址为http://ssu.bioinfo-icdc.org,该平台支持目前各类操作系统下的所有主流浏览器,如Internet Explorer、Google Chrome、Firefox等进行访问和使用。本系统实现了生物科研工作者通过网页形式提交分析任务,整个系统所有的复杂的计算模式对用户来说都是透明的,系统实时地以简洁、清晰、友好的界面与用户进行交互,用户只需点击一次“Perform match”按钮,即可获得所提交数据的分析鉴定结果,并通过信息列表、进化关系树、系统推荐结果等形式,辅助用户进行细菌分类鉴定。
为适应用户习惯与体验,并考虑到未来在手机等移动云设备上的访问,平台界面进行了高度精简与整合,包括递交页面、分析报告页面、详细分析页面3个页面。在递交页面上提供“Perform match”,“Random Sequence”,“Clear Sequence”3个功能。“Perform match”是该页面的核心功能,调用云端计算引擎对已提交的数据进行分析,包括序列检测、序列与数据库数据的模糊比较查询、后台的多序列比较结果的筛选。该功能模块包括了生物信息比对算法,可筛选出与提交序列最为接近的菌株信息,同时在后台形成与提交序列比对结果接近的前50个记录的比对结果。“Random Sequence”功能是为用户随机生成多条序列,便于用户测试。“Clear Sequence”功能是清除提交文本框里的内容。分析报告页面主要功能是展示系统推荐的16S rDNA 未知病原鉴定结果。如果用户想详细查看鉴定结果的分析过程,在详细分析页面上主要功能展示提交序列在元16S rDNA数据库最相似的前20条记录的进化关系树以及比对过程的中间结果。
2.3 任务提交及结果浏览过程示例
  用户可将16S rDNA序列在任务递交界面通过简单的鼠标点击方式将标准FASTA格式序列数据粘贴到数据提交文本框中,然后点击下方的“Perform match”按钮,系统将通过webService 技术调用生物分析计算引擎,自动生成分析结果,随后将分析结果在结果展示页面以简洁、友好的方式展示给用户(图3)。列表中展示了提交序列ID(当提交多个序列时分行显示)、数据库中最优比对序列ID、比对得分和最优比对序列的分类信息,例如图中提交的unknown序列在数据库中的最优比对序列为CICDC427,比对得分为92%,该记录的分类注释信息为“NC_013941 Escherichia coli O55 ∶ H7 str. CB9615 chromosome”,即大肠埃希氏菌O55 ∶ H7菌株CB9615(GenBank序列号NC_013941),提示用户所提交序列unknown可能来自于大肠埃希菌。考虑到相应任务的计算量和优化系统速度,多重序列比对功能仅在用户继续点击相应提交序列ID后才进行并展示;与此同时,系统会快速检索数据库中相关序列分析结果,展示出unknown目标序列与16S rDNA元数据库中最相似的前20记录的比对信息,并基于经典并广泛使用的NJ算法构建序列进化树。

图3 系统推荐分类鉴定结果
Figure 3 Result of identification and classification recommended by the system
系统推荐分类鉴定结果
3 讨论
  重要病原菌的快速追踪、溯源的研究是目前传染性疾病防控中亟待解决的问题,也是引起社会和公众关注的社会问题。在经历了SARS、禽流感、猪链球菌、甲型H1N1流感暴发流行之后,我国在病原菌的追踪和溯源上已经建立了一套比较完整的预警和检测手段,而DNA水平的检测被认为是最精确的认证[16]。我国各省市疾病预防控制中心也建立了各种分子生物学检测方法。但是,由于缺少与之对应的基础数据库,病原菌的监控难以达到来源地、亚种(型)等准确的分型定位。建立并完善相关的分子分型靶标、完善数据库检索和数据分析系统,提供完整的生物信息学技术支撑平台,不仅对于准确甄别病原体、预防控制传染性疾病具有重要意义,而且对于加强标准数据的交流与合作,提高相关机构在病原微生物监测和研究领域的影响力具有积极作用。
目前由于历史上抗生素滥用、近年来新型病原菌不断出现等原因,临床上感染性疾病发病形势越来越严峻,且常作为并发症继发于各类严重疾病,加重疾病程度、延长住院时间,为患者带来了更多痛苦,也为社会经济带来了沉重的医疗负担。目前临床上常用的细菌培养、生化鉴定等手段,对于部分罕见病原菌准确率较低,且耗时长,可能延误疾病的治疗。而通过16S rDNA测序并进行鉴定的方法,既可以在得到细菌纯培养之后进行普通PCR扩增、Sanger测序,也可直接对样本进行DNA提取、使用通用引物扩增、进行16S rDNA宏基因组测序,目前应用测序技术进行临床诊断的相应技术方法已经十分成熟[17]。应用本系统,将16S rDNA序列提交到系统后云端计算引擎在5~10 s(根据提交序列的数量而定)快速反馈分类鉴定结果,能够显著缩短完成病原菌分类鉴定所需的时间,并提高鉴定的准确度。
此外,结合高通量测序技术、利用16S rDNA进行未知病原菌筛查,需要准确的16S rDNA数据。目前已有的16S rDNA尽管数量很多但数据质量却得不到控制。本研究通过生物信息方法筛查并整合目前已有的16S rDNA数据,构建准确的、完善的已知细菌的16S rDNA元数据集合;利用生物信息和数据库技术对所有元数据进行必要的加工、处理、分析和整合,为筛查未知病原菌提供高质量的16S rDNA数据集和数据库;利用网络技术,提供基于16S rDNA对未知病原菌进行分类鉴定的公共在线分析平台,这在国内尚属首次。结合传统微生物鉴定方法和高通量测序技术,该平台必将大大提高混合样本中低比例致病菌筛查的灵敏度和准确度,加快未知病原菌的筛查鉴定过程,成为未知病原菌筛查体系的重要补充和基础支撑之一,在将来公共卫生突发事件处理中有着重要意义。

参考文献
[1] von BA. Nextgeneration sequencing:the race is on[J]. Cell, 2008, 132:721-723.
[2] Amann RI, Ludwig W, Schleifer KH. Phylogenetic identification and in situ detection of individual microbial cells without cultivation[J]. Microbiol Rev, 1995, 59:143-169.
[3] Fox GE, Magrum LJ, Balch WE, et al. Classification of methanogenic bacteria by 16S ribosomal RNA characterization[J]. Proc Natl Acad Sci USA, 1977, 74:4537-4541.
[4] Yadav V, Prakash S, Srivastava S, et al. Identification of Comamonas species using 16S rRNA gene sequence[J]. Bioinformation, 2009, 3:381-383.
[5] Miller AW, Richardson LL. A metaanalysis of 16S rRNA gene clone libraries from the polymicrobial black band disease of corals[J]. FEMS Microbiol Ecol, 2011, 75:231-241.
[6] Wu D, Hartman A, Ward N, et al. An automated phylogenetic treebased small subunit rRNA taxonomy and alignment pipeline(STAP)[J]. PLoS One, 2008, 3:e2566.
[7] Claesson MJ, Wang Q, O'Sullivan O, et al. Comparison of two nextgeneration sequencing technologies for resolving highly complex microbiota composition using tandem variable 16S rRNA gene regions[J]. Nucleic Acids Res, 2010, 38:e200.
[8] Wuyts J, Perriere G, Van De Peer Y. The European ribosomal RNA database[J]. Nucleic Acids Res, 2004, 32:D101-103.
[9] Van de Peer Y, Jansen J, De RP, et al. Database on the structure of small ribosomal subunit RNA[J]. Nucleic Acids Res, 1997, 25:111-116.
[10] Pruesse E, Quast C, Knittel K, et al. a comprehensive online resource for quality checked and aligned ribosomal RNA sequence data compatible with ARB[J]. Nucleic Acids Res, 2007, 35:7188-7196.
[11] Maidak BL, Cole JR, Lilburn TG, et al. The RDPII(Ribosomal Database Project)[J]. Nucleic Acids Res, 2001, 29:173-174.
[12] Chen T, Yu WH, Izard J, et al. The Human Oral Microbiome Database:a web accessible resource for investigating oral microbe taxonomic and genomic information[J]. Database(Oxford), 2010, baq013.
[13] Benson DA, KarschMizrachi I, Clark K, et al. GenBank[J]. Nucleic Acids Res, 2012, 40:D48-53.
[14] Altschul SF, Gish W, Miller W, et al. Basic local alignment search tool[J]. J Mol Biol, 1990, 215:403-410.
[15] Edgar RC. MUSCLE:multiple sequence alignment with high accuracy and high throughput[J]. Nucleic Acids Res, 2004, 32:1792-1797.
[16] Li W, Lu S, Cui Z, et al. PulseNet China, a model for future laboratorybased bacterial infectious disease surveillance in China[J]. Front Med, 2012, 6(4):366-375.
[17] Didelot X, Bowden R, Wilson DJ, et al. Transforming clinical microbiology with bacterial genome sequencing[J]. Nat Rev Genet, 2012, 13:601-612.