《前 言》

前 言

微生物基因组计划 (Microbial Genome Program, MGP) 及后基因组研究是继人类基因组计划以外生命科学领域启动的又一巨大工程。通过对微生物基因组及功能基因的研究, 不仅能够使人们更深入地了解病原微生物的繁殖代谢、致病和耐药等机理, 寻找更灵敏及特异的用于诊断和分型的分子标记以及有效的药物作用靶标, 而且可为临床筛选有效的药物及发展疫苗提供基础。

志贺菌属 (shigella) 细菌通称痢疾杆菌, 是一类具有高度传染性和危害严重的革兰氏阴性肠道致病菌, 临床感染可以导致痢疾 (shigellosis) , 其症状以发热、脱水和便血为特征。痢疾是世界上, 尤其是发展中国家重要的传染病之一。全球每年的病例超过1.6亿, 并导致110万患者死亡, 其中绝大多数为5岁以下的儿童, 因此痢疾是世界上造成婴幼儿死亡的主要原因之一[1]。福氏志贺菌是发展中国家也是我国流行的优势株, 每年因痢疾造成的死亡人数中有50%~70%由福氏志贺菌引起[2]。在中国, 福氏2a志贺菌曾多次引起痢疾的大流行, 并呈经常性散在爆发, 使得痢疾成为我国发病率居第一位的传染病, 每年约有上千万人次患病, 对公共卫生与健康造成了巨大威胁;此外, 目前临床上95%以上的分离株对多种抗生素不敏感, 已研制的疫苗不理想, 目前尚没有有效的防治手段。据此, 开展痢疾杆菌基因组研究, 阐明其结构与功能的关系具有十分重要的意义。

福氏2a志贺菌301株 (Shigella flexneri 2a strain 301, Sf301) 全基因组序列测定是我国第一个在国际上率先发布并完成的微生物基因组计划, 所得到的大量重要数据和信息将为相关研究提供重要线索。本文重点介绍痢疾杆菌基因组中的特异性序列以及SIs的结构特征及功能预测, 以期有助于更好地理解痢疾杆菌的进化和致病机理, 为进一步研究痢疾的预防和治疗措施奠定基础。

毒力岛 (Pathogenicity Island, PAIs) 是医学细菌学领域的新名词, 是指一类编码成簇毒力相关基因的、相对分子量较大、其DNA片段的G+C含量及密码子使用情况与宿主细菌染色体明显不同, 且遗传相对不稳定的染色体DNA片段[3];而基因组岛 (Genomic islands, GIs) 是指, 当两个或多个亲缘关系较近的物种进行全基因组序列比较时所产生的、各基因组特异的DNA片段, 是发现和鉴别新的毒力岛、代谢岛、共生岛等的基础和源泉[4]。本文所讨论的SIs即属于痢疾杆菌的基因组岛。

《1 材料与方法》

1 材料与方法

《1.1菌株和生长条件》

1.1菌株和生长条件

福氏2a志贺菌301株:于1984年从北京市昌平县痢疾患者的粪便标本中分离。该菌株一直被作为中国福氏志贺菌的参考株, 由中国预防医学科学院流行病学研究所提供。

菌株在常规刚果红培养基中37℃培养过夜, 挑取红色菌落在不含抗生素的LB培养基中于37℃振荡培养过夜, 用于分离大质粒和染色体DNA。

《1.2鸟枪法序列测定与拼接》

1.2鸟枪法序列测定与拼接

分别用改良CTAB法[5]及QIAGEN的MIDI试剂盒 (QIAGEN公司, 德国) 提取痢疾杆菌的染色体和大质粒DNA;以pBluescript KS (-) (Strategene公司, 美国) 为载体, 分别构建染色体和大质粒Shotgun随机文库, 转化大肠杆菌DH5α, 用Millipore (Millipore公司, 美国) 试剂盒在96孔板中大规模制备测序模板。序列测定及数据收集采用BigDye试剂盒在ABI3700及ABI377 (Perkin Elemer, 美国) 自动测序仪上进行。共对50 200个克隆进行了双向测定, 所测定序列碱基数约覆盖10倍的基因组总长度。

序列拼接应用Phred/Phrap[6]软件, 选择优化的参数和分值 (≥20) 在SGI工作站上运行。当染色体和质粒分别拼接生成318和50个Contigs时, 利用Consed程序进行序列补平[7]。Gaps的补平采用通过Consed对Contigs末端进行编辑, 通过对perl/Tk程序鉴别的跨Gap质粒进行引物延伸以及对PCR扩增产物的直接测序来完成。

《1.3基因组注释》

1.3基因组注释

采用Glimmer2.0软件[8]预测基因组的ORFs, 选择长度大于30个氨基酸的ORF, 并对重叠及聚簇的ORFs进行手工检查, 去除一些不合理的;利用BLASTP在非冗余蛋白库 (The Non-Redundant protein database, NR) 和直系同源群集合蛋白库 (Clusters of Orthologous Groups of proteins, COGs) [9]中进行同源性搜索, 依照其结果进行功能注释。ORF同源的标准为:参与比对的提问序列和目标序列均大于全长的60%且一致性高于30%。

tRNA 基因的识别采用tRNAscan-SE 程序[10], 其他小RNA的鉴别是通过BLAST程序将已知小RNA序列在Sf301基因组序列进行比对搜索;重复序列是指在用BLASTN进行基因组自身以及与已知插入序列 (Insertion Sequences, IS) 元件数据库的两两比对中, 显著性达到e-10且长于200碱基对的区域。

《1.4比较基因组分析》

1.4比较基因组分析

与大肠杆菌K-12MG1655 (GenBank登记号为U00096) 的全基因组[11]比较采用杨剑等编写的程序GenomeComp 。所有移位和倒置的接合部位以及所有假基因的序列, 均经过PCR扩增及其产物的再次测序而检查核实, 并对以上部位及痢疾岛与保守序列结合部的ORFs进行了手工检查与鉴别。

《1.5核酸序列登记号》

1.5核酸序列登记号

Sf301的染色体及大质粒pCP301的核苷酸序列已提交GenBank, 登记号分别为AE005674和AF386526。

《2 结果》

2 结果

《2.1基因组基本特征》

2.1基因组基本特征

Sf301株的全基因组主要包括染色体和侵袭性大质粒 (简写为pCP301) 两部分, 其基本特征列于表1。环型染色体全长4 607 203 bp, G+C 含量为0.5089 mol, 包含7套16S-23S-5S rRNA操纵子, 1个tmRNA和包括RNase P, 6S RNA 及 4.5S RNA在内至少9个未分类RNA;染色体全长的80.4%为蛋白编码区, 0.8% 编码稳定的RNA, 而314个完整或截短拷贝的IS元件占到全长的3.6%。预测的开放读码框总数为4 434个, 除去由于碱基插入、缺失、读框内终止以及移码突变而导致的254个假基因外, ORFs的平均读长为891 bp。在所有的4 180个完整ORFs中, 有2 895个 (65%) 可以分类到COGs库的不同生物功能种类, 268个 (6.4%) 只有简单的功能预测, 而另外1 195个 (28.6%) 则只是推断的功能未知的编码序列, 其中有179个ORF与目前已知的任何蛋白质都没有显著的同源性。编码蛋白在COGs库中的功能分类情况列于表2。

表1 Sf301 基因组基本特征 Table 1 General features of Sf301 genome

《表1》

染色体大质粒
总长 (碱基对) 4 607 203221 618
开放读框总数4 434267
开放读框平均长度 (碱基对) 891658
序列编码率/%80.476.24
G+C 含量/%
全长50.8945.77
蛋白编码区51.9646.13
RNA 基因54.79-
基因间区域46.0744.59
插入序列元件31488
其中不完整拷贝数6762
核糖体 RNA
16S7-
23S7-
5S8-
转运 RNA数目97-
tmRNA1-
未分类 RNA数目9-

大质粒pCP301全长221 618 bp, 共编码267个ORFs, 除去6个假基因, 其平均读长为658 bp, 序列编码率为76.24%, 编码区的G+C含量为0.4613 mol。 pCP301中含有68 kb的IS元件, 占到总长度的30%, 包括18个IS元件种类共计111个片段。

《2.2复制起始与终止区》

2.2复制起始与终止区

沿用大肠杆菌K-12 MG1655确定的染色体的第一个碱基, 痢疾杆菌福氏2a 301株的第一个碱基选定在无明显特征的lasT和thrL两基因之间。通过GC偏斜 (GC skew ) [ (G-C) / (G+C) ]分析以及与大肠杆菌K-12 MG1655的相似性, 确定了Sf301染色体复制原点oriC。我们选择gidAmioC基因间Bgl Ⅱ内切酶位点的鸟嘌呤残基作为Sf301染色体复制原点的第一个核苷酸。GC偏斜分析显示, Sf301染色体的复制终止点 (terC) 位于染色体的1.60 Mb 附近。

表2 Sf301染色体蛋白在COGs系统中的分类 Table 2 Distribution of Sf301 chromosomal proteins among COGs functional groups

《表2》

Functional class (COGs) Numberpercent of total/%
翻译、核糖体结构及生物发生 159 3.80
转录1854.43
DNA复制、重组与修复61514.71
细胞分裂与染色体分离280.67
翻译后修饰、蛋白周转、伴侣1082.58
细胞外套的生物合成、外膜1684.02
细胞动力和分泌1062.54
无机离子的转运和代谢1533.66
信号转导系统892.13
能量产生与转化2175.19
碳水化合物的转运与代谢2646.32
氨基酸的转运与代谢2947.03
核苷的转运与代谢741.77
辅酶的代谢1172.80
类脂化合物的代谢681.63
次级代谢产物的生物合成, 、转运及分解代谢721.72
预测的一般功能2686.41
功能未知和未分类的1 19528.59
总数3 180100

《2.3痢疾杆菌特异性的DNA片段——SIs的分析》

2.3痢疾杆菌特异性的DNA片段——SIs的分析

Sf301的染色体与大肠杆菌K-12 MG1655株染色体长度非常接近 (4 639 221 bp) [11]。基因组比较结果显示, 两者拥有4.03 Mb保守的“共有序列”, 但这种“共线性”却由于Sf301存在的DNA片段的移位或倒置而多次被中断。基因组的重排大多都与IS元件相关且总伴随有基因组序列的缺失或获得, 从而形成本文所讨论的K-岛 (K-12-islands, KIs) 和SIs。痢疾杆菌特异性572 Kb的序列共形成了320个大于50 bp的SIs, 大于1Kb的为131个 (其中10 Kb以上的8个) , 其长度占特异性序列总长的87.8%, 该序列编码了痢疾杆菌独特的519个ORF中的468个。

SIs的平均G+C含量为0.4825 mol, 显著低于保守序列的0.5124 mol。如图1所示, 有41个岛的G+C含量明显高于 (>0.55 mol) 或低于 (<0.45 mol) 基因组0.5089 mol的平均含量, 其中13个是独立的IS元件岛;有54个岛的G+C含量则在0.48 mol到0.53 mol之间。SIs和基因组在某些密码子的使用频率上也存在明显的差异 (图2) , 进一步分析发现这一差异与该岛的G+C含量有关, 即G+C含量与基因组明显不同的岛, 其密码子的使用频率也差异较大。

《图1》

图1 痢疾杆菌岛的G+C含量
Fig.1 G+C content of 131 Shigella-islands

图1 痢疾杆菌岛的G+C含量 Fig.1 G+C content of 131 Shigella-islands  

《图2》

图2 Sf301保守序列与岛上基因的密码子使用频率的分析
 (密码子按照在保守序列上的使用频率排列) 
Fig.2 Codon usage analysis of Sf301 chromosomal genes which on “backbone sequences&quot; 
 (genome) and on SIs (island) , respectively. Codons are put in the order 
 of frequency in the genes on the conserved backbone.

图2 Sf301保守序列与岛上基因的密码子使用频率的分析 (密码子按照在保守序列上的使用频率排列) Fig.2 Codon usage analysis of Sf301 chromosomal genes which on “backbone sequences&quot; (genome) and on SIs (island) , respectively. Codons are put in the order of frequency in the genes on the conserved backbone.  

2.3.1 已经报道的PAIs 按照我们的计算方法, 此前在痢疾杆菌中已经鉴定的两个PAIs——SHI-2岛[12]和she岛[13]均由多个连续的特异性片段组成, 但本文仍将其各自作为一个完整的SI。Sf301中, she岛插入在一个Phe-tRNA基因位点, 全长49 163 bp, G+C含量为0.4891 mol, 共编码41个ORF, 而SHI-2岛毗邻selC-tRNA基因位点, 全长23 937 bp, G+C含量为0.482 mol, 共编码23个ORF。这两个片段与已经报道的PAIs的结构完全一致, 其差异主要在于各自IS元件的种类、数量及位置不尽相同

2.3.2 各SIs的结构分析 按照其ORF的组成, SIs可以分为三组, 第一组有44个, 它们完全或几乎完全由IS元件组成, 称为“IS岛”。该组岛全长81 488 bp, 占SIs的14%;第二组称作“噬菌体相关岛 (phage-related islands) ”, 共31个, 全长近160 Kb, 它们或者完全是噬菌体的残余序列, 或者部分携带有噬菌体相关的ORFs;其余56个岛组成了第三组, 它们均编码其它已知或未知功能的ORFs。

除了有24个SIs的侧翼序列既不是某种氨基酸的tRNA也不是重复序列外, 其余所有107个SIs均与IS元件有关:它们的一侧或者双侧连接有或相同或不同类型的IS元件。所以按照结构特征, SIs可以分为两大类:与IS元件相关的岛和与IS元件无关的岛 。

2.3.3 几个可能的PAIs的预测 侵袭质粒抗原ipa (invasion plasmid) 是痢疾杆菌主要的表面抗原。染色体上有7个ipaH基因的同源序列, 其中2个由于读框内IS元件的插入成为假基因, 另外5个位于我们已经鉴别的岛上。按照在基因组上的排列位置, 我们分别命名为ipaH-岛1-5。

ipaH-岛1由SI 21-26组成, 全长约38 Kb, 插入在Gly-tRNA基因位点;ipaH-岛2由SI 48-51组成, 全长约25 Kb, 两侧均为IS1插入元件, 该岛上有4个连续的ORF与沙门氏菌铁转运系统的sitABCD操纵子相同[14];ipaH-岛3由SI 67-69组成, 全长约22 Kb, 3´末端紧邻一个Gly-tRNA位点, 其序列与大肠杆菌O157:H7中噬菌体的部分序列高度同源[15];ipaH-岛4和5分别由SI 75-80 和SI 94-96组成, 分别长约23和11 Kb, 均编码多个与不同噬菌体同源的ORFs。

SI 1和2组成了一个长约23 Kb, 具有典型毒力岛结构的区域——插入在asp-tRNA位点, 另一侧为IS629插入元件。主要携带有沙门氏菌sci操纵子及一些功能未知的噬菌体ORF的同源序列。

SI 4-10:全长约21 Kb, 虽然序列上有很大的变异, 但仍然保留了痢疾杆菌溶原性噬菌体SfⅡ的主要基因——编码细菌萜醇葡糖基转移酶的bgt和编码葡糖基转移酶Ⅱ的gtrⅡ, 它们是Ⅱ型抗原表达所必须的[16]

SI 83:全长8 178 bp, 两侧均没有特征性结构, 其G+C含量仅为32.49%。该岛主要携带有与福氏痢疾杆菌型特异性O-抗原合成相关的rfb基因簇。

SI 116:全长8 115 bp, 其3&apos;末端紧邻一个IS 1插入元件, G+C含量为38.25%, 主要编码与福氏痢疾杆菌菌体抗原核心多糖生物合成相关的rfa (waa) 基因簇。

《3 讨论》

3 讨论

通过GC偏斜分析以及与大肠杆菌K-12 MG1655的相似性, 确定了Sf301染色体复制原点oriC位点, 它毗邻基因gidB, gidA, mioCasnC, 该区域内包含一段细菌复制特征性的AT-丰富序列。同样的分析显示, Sf301染色体的复制终止点 (terC) 位于染色体的1.60 Mb 附近, 在环型染色体上, 该区域位于复制原点的对面, 从而将其分成两个大致相等的复制子, 表明了染色体的对称结构。虽然在大肠埃希氏属中可以允许有低水平的染色体非对称性[17], 但作为细菌长期进化和自然选择的结果, 染色体的对称性有利于维持其结构的平行和稳定, 这在肠道细菌的进化中起着重要作用[18]。全序列测定与分析发现, 痢疾杆菌染色体上含有长达165 Kb的总计247个完整拷贝的各类IS元件, 使得痢疾杆菌成为目前已知IS元件最多的基因组, 无论是其种类还是数量都远远高于大肠杆菌K-12MG1655。Sf301的基因组中富含多种可移动的遗传成分, 提示其遗传物质可能是活跃而不稳定的, 这样不利于染色体结构的稳定性。研究发现, 核糖体RNA操纵子 (rrn operon) 与肠道菌的基因组重排从而与染色体结构的对称性密切相关[19]。通过与已公布的大肠杆菌基因组的比较显示, Sf301的染色体上有多处大的DNA片段的倒置与移位, 虽然这些倒置与移位均与rrn操纵子无关, 但相信它们也是通过相同的机制将水平转移获得的外源片段在基因组内部进行重排, 以保证染色体结构的平行和稳定。

自1950以来, 志贺菌一直被作为一个属来研究, 并被分成了四种:痢疾志贺菌 (S.dysenteriae) 、福氏志贺菌 (S.flexneri) 、宋内氏志贺菌 (S.sonnei) 及鲍氏志贺菌 (S.boydii) [20]。但最近的遗传学分析提出, 志贺菌是3.5万到27万年前从大肠杆菌起源, 并经过了7~8次独立的进化而形成的, 似乎还不能形成一个独立的属[21]。全基因组比较结果证实, Sf301似乎比O157:H7更为接近大肠杆菌K-12。痢疾杆菌与大肠杆菌从共同的祖先分化以后, 各自在进化的过程中都可能会丢掉或获得一些DNA片段, 从而更利于各自的生存和繁殖, 其结果导致K-12以正常菌群的方式共生于人类的肠道中, 而痢疾杆菌则成为致病菌。比较分析发现, 部分SIs与保守序列之间在G+C含量与密码子使用频率上存在明显的差异, 提示这些序列在进化上的外源性;结合SIs中丰富的噬菌体残余序列及基因组IS元件的丰富性, 推测这些SIs可能是经由噬菌体或IS元件从其他物种水平转移而来。还有的SIs在G+C含量与密码子使用频率上均与保守序列无明显差异, 考虑到二者的进化关系, 推测它们的产生可能是由于K-12基因组在相应位点的置换 (replacement) 或缺失造成的;与此相关的对于K-岛 (KIs) 分析将为此提供进一步的佐证。

痢疾杆菌的致病过程主要包括细菌到达结肠粘膜, 侵入粘膜上皮细胞并在细胞内繁殖, 同时扩散到相邻细胞, 引起程序性细胞死亡, 最终造成肠粘膜水肿破坏并脱落。侵袭性大质粒是痢疾杆菌最主要的毒力因子, 与其致病性密切相关[22]。在大质粒DNA中, 编码Ipa, VirG和Mxi-Spa类蛋白的约30多个基因紧密连接在一起, 形成一个长31 kb的区域, 被称为“侵入区”, 负责痢疾杆菌对于粘膜上皮细胞的侵袭, 与志贺菌的致病作用直接相关[23] 。IpaH作为一类侵袭质粒抗原基因, 同时存在于肠侵袭性大肠杆菌和志贺菌中[24]。IpaH多基因家族具有共同的结构特点:5´端为600~700 bp的可变区, 3´端为839 bp的恒定区。 IpaH基因的恒定区和可变区GC含量明显不同, 说明它们具有不同的来源, 恒定区可能是通过某种机制, 由ipaH基因的早期基因衍生而来。IpaH蛋白的来源和功能仍不清楚, 但由于目前发现它只存在于痢疾杆菌和肠侵袭性大肠杆菌中, 一般认为可能是III型分泌系统所分泌的, 与细菌的侵入有关。我们发现在Sf301中, ipaH基因共同存在于染色体和大质粒中, 其中pCP301中有5个拷贝, 而染色体上有7个ipaH的同源序列, 其中5个位于我们鉴别并命名的ipaH-岛上。值得注意的是ipaH-岛1中除了同大肠杆菌O157中的噬菌体同源的ORF外, 该岛还编码一个螺旋酶、一个推断的复制蛋白以及一个抗终止因子基因, 提示该岛可能通过噬菌体转移获得, 并且可能与痢疾杆菌在特定环境中的DNA复制及细胞分裂有关。所有的ipaH-岛均携带有完整或截短的可移动遗传元件以及数目不等的未知功能的ORFs。对于它们编码基因的体外表达及产物功能的研究将可能揭示ipaH蛋白在细菌侵袭中的作用, 也将有助于阐明痢疾杆菌染色体与侵袭性大质粒之间的进化及调控关系。

脂多糖 (lipopolysaccharide, LPS) 是革兰氏阴性菌的主要表面成分, 由类脂A、核心多糖和O-特异性多糖链即O-抗原三部分连接而成, 其中O-抗原的特异性是革兰氏阴性菌血清型分型的基础。已知染色体上与his操纵子连锁的rfb基因簇与福氏痢疾杆菌型特异性O-抗原合成相关[25];而与mtl连锁的rfa基因簇则负责菌体抗原核心多糖的生物合成[26], 这两个区域均是福氏痢疾杆菌表达完整毒力所必须的决定因子[27,28]。我们所鉴别的SI 83和SI 116, 具有显著的外源性特征, 即其G+C含量及密码子使用均与保守的染色体序列明显不同;除了已知与LPS特异性成分的生物合成有关的ORFs外, 它们还编码有其他未知功能的ORFs, 推测这些ORFs的功能也与完整LPS的生物合成密切相关。对于这两个SIs功能及来源的进一步研究将不仅有助于阐明痢疾杆菌与其他微生物的进化关系, 并且可以作为筛选新的免疫组分的源泉。由于痢疾杆菌的LPS既是重要的毒力决定簇, 也是重要的保护决定簇, 阐明其生物合成及完整表达的遗传机制将为研制高效痢疾疫苗提供理论基础和实验依据。

痢疾杆菌主要的致病特点是侵袭结肠粘膜上皮细胞, 虽然侵袭相关基因都定位于毒力大质粒上, 但其毒力基因的完全表达却受染色体上多个基因的调控[20]。值得注意的是, 虽然其突变后可以利用不同的机制降低或减轻痢疾杆菌的毒力, 以前鉴定的所有染色体毒力位点都并非编码真正的毒力因子, 因为BLAST搜索显示所有的这些位点在K-12基因组中都存在同源的甚至一致的序列。所以通过对所有SIs结构的分析, 及其已经展开的对于其编码基因功能的研究, 将可能会鉴别出真正的毒力及耐药相关基因, 为开发预防和治疗痢疾的新策略奠定坚实的基础。