病毒基因组
病毒基因组的结构和功能
病毒是最简单的原核生物,完整的病毒颗粒包括外壳蛋白和内部的基因组DNA或RNA(有些病毒的外壳蛋白外面有一层由宿主细胞构成的被膜(envelope),被膜内含有病毒基因编码的糖蛋白。病毒不能独立地复制,必需进入宿主细胞中借助细胞内的一些酶类和细胞器才能使病毒得以复制。外壳蛋白(或被膜)的功能是识别和侵袭特定的宿主细胞并保护病毒基因组不受核酸酶的破坏。
病毒基因组的结构特点
RNA噬菌体的基因组结构和功能
乙肝病毒基因组的结构特点和功能
病毒基因组的结构特点
1.病毒基因组大小相差较大,与细菌或真核细胞相比,病毒的基因组很小,但是不同的病毒之间其基因组相差亦甚大。如乙肝病毒DNA只有3kb大小,所含信息量也较小,只能编码4种蛋白质,而痘病毒的基因组有300kb之大,可以编码几百种蛋白质,不但为病毒复制所涉及的酶类编码,甚至为核苷酸代谢的酶类编码,因此,痘病毒对宿主的依赖性较乙肝病毒小得多。
2.病毒基因组可以由DNA组成,也可以由RNA组成,每种病毒颗粒中只含有一种核酸,或为DNA或为RNA,两者一般不共存于同一病毒颗粒中。组成病毒基因组的DNA和RNA可以是单链的,也可以是双链的,可以是闭环分子,也可以是线性分子。如乳头瘤病毒是一种闭环的双链DNA病毒,而腺病毒的基因组则是线性的双链DNA,脊髓灰质炎病毒是一种单链的RNA病毒,而呼肠孤病毒的基因组是双链的RNA分子。一般说来,大多数DNA病毒的基因组双链DNA分子,而大多数RNA病毒的基因组是单链RNA分子。
3.多数RNA病毒的基因组是由连续的核糖核酸链组成,但也有些病毒的基因组RNA由不连续的几条核酸链组成如流感病毒的基因组RNA分子是节段性的,由八条RNA分子构成,每条RNA分子都含有编码蛋白质分子的信息;而呼肠孤病毒的基因组由双链的节段性的RNA分子构成,共有10个双链RNA片段,同样每段RNA分子都编码一种蛋白质。目前,还没有发现有节段性的DNA分子构成的病毒基因组。
4.基因重叠即同一段DNA片段能够编码两种甚至三种蛋白质分子,这种现象在其它的生物细胞中仅见于线粒体和质粒DNA,所以也可以认为是病毒基因组的结构特点。这种结构使较小的基因组能够携带较多的遗传信息。重叠基因是1977年Sanger在研究ΦX174时发现的。ΦX174是一种单链DNA病毒,宿主为大肠杆菌,因此,又是噬菌体。它感染大肠杆菌后共合成11个蛋白质分子,总分子量为25万左右,相当于6078个核苷酸所容纳的信息量。而该病毒DNA本身只有5375个核苷酸,最多能编码总分子量为20万的蛋白质分子,Sanger在弄清ΦX174的11个基因中有些是重叠的之前,这样一个矛盾长时间无法解决。重叠基因有以下几种情况:
(1)一个基因完全在另一个基因里面。如基因A和B是两个不同基因,而B包含在基因A内。同样,基因E在基因D内。
(2)部分重叠。如基因K和基因A及C的一部分基因重叠。
(3)两个基因只有一个碱基重叠。如基因D的终止密码子的最后一个碱基是J基因起始密码子的第一个碱基(如TAATG)。这些重叠基因尽管它们的DNA大部分相同,但是由于将mRNA翻译成蛋白质时的读框不一样,产生的蛋白质分子往往并不相同。有些重叠基因读框相同,只是起始部位不同,如SV40DNA基因组中,编码三个外壳蛋白VP1、VP2、VP3基因之间有122个碱基的重叠,但密码子的读框不一样。而小t抗原完全在大T抗原基因里面,它们有共同的起始密码子。
5.病毒基因组的大部分是用来编码蛋白质的,只有非常小的一份不被翻译,这与真核细胞DNA的冗余现象不同如在ΦX174中不翻译的部份只占217/5375,G4DNA中占282/5577,都不到5%。不翻译的DNA顺序通常是基因表达的控制序列。如ΦX174的H基因和A基因之间的序列(3906-3973),共67个碱基,包括RNA聚合酶结合位,转录的终止信号及核糖体结合位点等基因表达的控制区。乳头瘤病毒是一类感染人和动物的病毒,基因组约8.0Kb,其中不翻译的部份约为1.0kb,该区同样也是其他基因表达的调控区.
6.病毒基因组DNA序列中功能上相关的蛋白质的基因或rRNA的基因往往丛集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。它们可被一起转录成为含有多个mRNA的分子,称为多顺反子mRNA(polycistroniemRNA),然后再加工成各种蛋白质的模板mRNA。如腺病毒晚期基因编码病毒的12种外壳蛋白,在晚期基因转录时是在一个启动子的作用下生成多顺反子mRNA,然后再加工成各种mRNA,编码病毒的各种外壳蛋白,它们在功能上都是相关的;ΦX174基因组中的D-E-J-F-G-H基因也转录在同一mRNA中,然后再翻译成各种蛋白质,其中J、F、G及H都是编码外壳蛋白的,D蛋白与病毒的装配有关,E蛋白负责细菌的裂解,它们在功能上也是相关的。
7.除了反转录病毒以外,一切病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。
8.噬菌体(细胞病毒)的基因是连续的;而真核细胞病毒的基因是不连续的,具有内含子,除了正链RNA病毒之外,真核细胞病毒的基因都是先转录成mRNA前体,再经加工才能切除内含子成为成熟的mRNA。更为有趣的是,有些真核病毒的内含子或其中的一部分,对某一个基因来说是内含子,而对另一个基因却是外显子。如SV40和多瘤病毒(polyomavirus)的早期基因就是这样。SV40的早期基因即大T和小t抗原的基因都是从5146开始反时针方向进行,大T抗原基因到2676位终止,而小t抗原到4624位即终止了,但是,从4900到4555之间一段346bp的片段是大T抗原基因的内含子,而该内含子中从4900-4624之间的DNA序列则是小t抗原的编码基因。同样,在多瘤病毒中,大T抗原基因中的内含子则是中T和t抗原的编码基因。
牛乳头瘤病毒基因组结构和功能
乳头瘤病毒(papillomavirus)是感染人和动物皮肤、粘膜并引起乳头状瘤病变的一种DNA病毒,属于乳多空泡病毒(papovavirus)科。根据病毒感染的宿主不同可以分为牛乳头瘤病毒(BPV),人乳头瘤病毒(HPV)等。目前已发现的乳头瘤病毒基因组都具有相似的结构。下面以BPV为例说明乳头瘤病毒的基因组结构及功能。BPVDNA全长7945bp,为闭环超螺旋结构,在宿主细胞中可以和组蛋白结合形成核小体。以BPVDNA中单一的HpaⅠ酶切位点第一碱基G为1号位,按5'→3'的方向给碱基编号定位。DNA序列分析表明,所有的开放读框(ORF)都存在于一条DNA链上,基因之间有相互重叠。整个BPV基因组分为编码区和非编码区(NCR),编码区又按其编码蛋白质的功能不同,分为早期转录功能区(E区)和晚期转录功能区(L区)。 1.非编码区(NCR)非编码区又称上游调控区(URR)或长控制区(LCR),位于晚期基因L1终止密码子与早期基因E6第一个起始密码子之间,长度在不同的乳头瘤病毒中不一样,在BPV中长约1.0kb。在NCR转录的启动子序列,可以启动早期基因的转录和表达,另外,在该区还有增强子序列,可以被早期基因产物E2蛋白激活,进一步促进早期基因AAC的表达,目前已搞清了BPVNCR区增强子的序列,该序列为TTGGCGGNNG和ATCGGTGCACCGAT回文结构。从NCR的结构特点上可以看出其主要功能是调节BPV基因的表达。
2.早期转录功能区(或称早期基因区,E区)BPV的E区含有八个开放读框(ORF),分别为E6、E7、E8、E1、E2、E3、E4、E5,其中E6、E7、E1基因有部份重叠,E8完全在E1中,E3、E4全部包含在E2中,E5与E2部份重叠。E2ORF编码的蛋白产物可以与NCR的增强子结合,而提高或降低早期基因的表达水平。另外,E2ORF与E1ORF协同可以维持乳头瘤病毒DNA的游离状态而不整合到宿主细胞染色体上去。E6和E7ORFs编码的蛋白质可能是致癌蛋白。E6和E7蛋白可以引起宿主向恶性转化成为肿瘤细胞。关于E6、E7蛋白引起细胞转化的机制,目前尚不清楚,但有两种解释。[1]在E6、E7蛋白的氨基酸序列中发现有Cys-x-x-Cys重复序列,目前认为该结构是细胞内核酸结合蛋白所具备的特异性结构,因而认为E6、E7蛋白是DNA结合蛋白,可以调节基因的活性,进一步影响宿主细胞的增殖和分化,使该过程失去控制而形成肿瘤;[2]最近,在正常细胞中发现有两种蛋白质分子量分别为53KD和106KD分别称为p53和p106蛋白质。这两种蛋白质缺失或失活往往引起细胞的恶性化。研究发现,乳头瘤病毒的E7和E6蛋白分别可以和p53和p106蛋白质结合而使其失活,这也可能是E6和E7蛋白质导致细胞恶性化的一种机制。
3.晚期转录功能区(晚期基因区、L区):L区ORFs有两个,即L1和L2ORF,编码乳头瘤病毒的外壳蛋白,其中L1蛋白是主要外壳蛋白,L2蛋白是次要外壳蛋白。
RNA噬菌体的基因组结构和功能
目前研究最清楚的大肠杆菌RNA噬菌体是MS2,R17,f2和Qβ。它们的基因组小,只有3600到4200个核苷酸,包含四个基因。MS2.R17和f2具有几乎一样的基因组结构。在四个基因中有两个基因编码噬菌体的结构蛋白:一个是A蛋白的基因,长1178个核苷酸。A蛋白(称为成熟蛋白)的功能是使噬菌体能识别宿主,并使其RNA基因组能进入宿主菌,每个噬菌体一般只存在分子的A蛋白。另一个结构蛋白基因长399个核苷酸,编码外壳蛋白以构成病毒颗粒,每个噬菌体有180个分子。基因组的其他部分编码RNA复制酶和一个溶解蛋白,编码溶解蛋白的基因与外壳蛋白和复制酶的基因有部分重叠,但读框与外壳蛋白的读框不一样。在MS2、R17、f2基因组内有许多二级结构,RNA分子内碱基的自我配对,可能对防止RNase降解有一定作用。另外,在编码基因的5'和3'端各有一段非翻译序列,该序列对稳定RNA分子也有一定作用。
另一种RNA噬菌体Qβ的基因组略大,与上述RNA噬菌体的基因组有以下不同;[1]没有独立的溶解蛋白基因,但结构蛋白A2(或称成熟蛋白,MaturaitonProtein)即具有溶解蛋白的功能,[2]还编码另一种外壳蛋白A1。
乙肝病毒基因组的结构特点和功能
乙肝病毒(HBV)的基因组DNA结构很奇特,是一环状的部分双螺旋结构,长约3.2kb。其中的2/3为双螺旋结构,1/3为单链,这就是说,DNA中的两条链不等长。长链的5'端与3'端无共价连接,而是与一种蛋白质共价相连。长链的5'端以250-300对碱基互补结合。长链为负链,短链为正链。短链的长度视病毒而异,一般长约1.6-2.8kb,约为长链的2/3。短链之间的空隙可由病毒颗粒中的DNA聚合酶充填。乙肝病毒是目前已知的感染人类最小的双链DNA病毒。为了能在细胞内独立复制,病毒在很小的基因组中尽量容纳大量的遗传信息。因而HBV的基因组结构显得特别精密浓缩,充分利用其遗传物质。
重叠的基因序列比较多,HBV基因组中已确定的开放读框有4个,分别编码病毒的核壳(C)和包膜(S)蛋白,病毒复制酶(聚合酶)及一种似乎与病毒基因表达有关的蛋白质X。在S基因前面的两个小ORFs与S基因ORF属于同一个读框,可以将ORFS通读下去,编码两种S蛋白相关的抗原,这两种抗原也存在于病毒颗粒的表面,这两个抗原分别称为前-S1(pre-S1)和前-S2(pre-S2)。同样,在ORFC前面也有一短的ORF,称为前-C(pre-C),编码一较大的C蛋白相关抗原。所有这些ORF都在负链DNA(长链)上,其中S基因完全重叠于聚合酶基因中,X基因与聚合酶基因、C基因重叠,C基因与聚合酶也有重叠。最近,Miller等人在HBV基因组中又发现两个ORF,即ORF-5和ORF-6,这两个ORFs与X基因重叠,其中ORF6不是由负链DNA编码的,而是由正链DNA编码。这两个ORF的功能目前尚不清楚。
调节序列位于基因内部,这也是HBV节约使用遗传物质的一种方式。与HBV基团组复制有关的序列有:短链顺向复制序列(DR1和DR2)和U5样序列(因与反转录病毒末端的U5序列类似面得名)。DR1和U5位于前-CORF中,是合成DNA长链的起始部位,DR2位于聚合酶基因与X基因重叠处,是DNA短链合成的起始部位。
与HBV基因表达有关的信号序列有4种:[1]启动子,[2]增强子,[3]polyA附加信号,[4]糖皮质激素敏感因子(GRE)。由于HBV基因组中的基因分别转录于3种HBVmRNA转录本上,因此,相应地在病毒基因组中每一转录本近5'端也至少应有3种RNA聚合酶Ⅱ启动子,虽然这些启动子的基因序列尚不知,但这些启动子显然存在于编码蛋白质序列内。增强子(ENH)位于聚合酶基因中;polyA附加信号位于CORF中;而GRE位于SORF和聚合酶基因中。GRE是与激素受体结构的DNA片段,结合后能使某一已知基因转录水平增加。
GRE有许多增强子的特征:[1]是起顺式作用的因子,[2]在转录的两个方向均有作用,[3]在距其调节的基因不同距离处均可起作用。
从以上可以看出HBV基因组结构严密,组织高效,在已知的病毒中是罕见的。HBVDNA不但在结构上有其独特的地方,而且其DNA复制过程也非常特别。当HBVDNA进入宿主细胞后,首先成为完整的闭环双螺旋DNA,以负链为模板合成全长的“+”链RNA(称为前基因组RNA)。该“+”链RNA被包装在未成熟的核心样颗粒中,同时还有DNA聚合酶和一种蛋白质也被包装在颗粒中。在该颗粒中“+”链RNA作为模板由反转录酶催化合成“-”链DNA,具体机制尚不清楚,可能与腺病毒DNA的复制相似,因为在“-"链DNA的5'端也有共价结合的蛋白质。“+”链DNA的合成便以该负链DNA为模板和一段RNA为引物而聚合延伸,核心样病毒颗粒在这过程中也成为成熟的病毒颗粒。这时,正链DNA仍没有合成完毕,因而造成病毒基因组两条DNA链长度不一样。