断裂基因
概念:真核生物结构基因,由若干个编码区和非编码区互相间隔开但又连续镶嵌而成,去除非编码区再连接后,可翻译出由连续氨基酸组成的完整蛋白质,这些基因称为断裂基因(splite gene)
在本世纪70年代以前,人们一直认为遗传物质是双链DNA,在上面排列的基因是连续的。Robert and Sharp彻底改变了这一观念。他们以腺病毒作为实验对象,因为它的排列序列同其他高等动物很接近,包括人。结果发现它们的基因在DNA上的排列由一些不相关的片段隔开,是不连续的。
他们的发现改变了科学家以往对进化的认识,对于现代生物学的基础研究以及生物进化论具有重要的奠基作用,对于肿瘤以及 其他遗传性疾病的医学导向研究,亦具有特别重要的意义。
真核生物的基因组十分复杂,DNA的含量也比原核生物的大得多。噬菌体由于基因组很小,但又要编码一些必不可少的蛋白,碱基显然不够用,这样不仅几乎所有的碱基都参加编码,而且在进化中还出现了“重叠基因”,以有限的基因编码更多的遗传信息。真核基因组正好相反,DNA十分富余,这样不仅无需“重叠基因”,而且很多序列不编码,如重复序列、间隔序列 (spacer) 和间插序列(intervening sequence) 即内含子(intron)等。但不编码并不等于没有功能。有的我们可能还不了解,如重复序列。间隔区和间插序列这两个概念是不同的,间隔区是指基因间不编码的部分,有的转录称转录间隔区(TS),有的不转录称为非转录间隔区(NTS)。间插序列是指基因内部不编码的区域,也称内含子,在初始转录本中存在此序列,但在加工后将被切除掉,所以常不作为翻译的信息。间隔区常常含有转录的启动子和其它上游调节序列。有的内含子也可以编码,如成熟酶和内切酶等。
在遗传学上通常将能编码蛋白质的基因称为结构基因。真核生物的结构基因是断裂的基因。一个断裂基因能够含有若干段编码序列,这些可以编码的序列称为外显子。在两个外显子之间被一段不编码的间隔序列隔开,这些间隔序列称为内含子。每个断裂基因在第一个和最后一个外显子的外侧各有一段非编码区,有人称其为侧翼序列。在侧翼序列上有一系列调控序列(图3-3)。
调控序列主要有以下几种:①在5′端转录起始点上游约20~30个核苷酸的地方,有TATA框(TATA box)。 TATA框是一个短的核苷酸序列,其碱基顺序为TATAATAAT。TATA框是启动子中的一个顺序,它是RNA聚合酶的重要的接触点,它能够使酶准确地识别转录的起始点并开始转录。当TATA框中的碱基顺序有所改变时,mRNA的转录就会从不正常的位置开始。②在5′端转录起始点上游约70~80个核苷酸的地方,有CAAT框(CAAT box)。CAAT框是启动子中另一个短的核苷酸序列,其碱基顺序为GGCTCAATCT。CAAT框是RNA聚合酶的另一个结合点,它的作用还不很肯定,但一般认为它控制着转录的起始频率,而不影响转录的起始点。当这段顺序被改变后,mRNA的形成量会明显减少。③在5′端转录起始点上游约100个核苷酸以远的位置,有些顺序可以起到增强转录活性的作用,它能使转录活性增强上百倍,因此被称为增强子。当这些顺序不存在时,可大大降低转录水平。研究表明,增强子通常有组织特异性,这是因为不同细胞核有不同的特异因子与增强子结合,从而对不同组织、器官的基因表达有不同的调控作用。例如,人类胰岛素基因5′末端上游约250个核苷酸处有一组织特异性增强子,在胰岛素β细胞中有一种特异性蛋白因子,可以作用于这个区域以增强胰岛素基因的转录。在其他组织细胞中没有这种蛋白因子,所以也就没有此作用。这就是为什么胰岛素基因只有在胰岛素β细胞中才能很好表达的重要原因。④在3′端终止密码的下游有一个核苷酸顺序为AATAAA,这一顺序可能对mRNA的加尾(mRNA尾部添加多聚A)有重要作用。这个顺序的下游是一个反向重复顺序。这个顺序经转录后可形成一个发卡结构(图3-4)。发卡结构阻碍了RNA聚合酶的移动。发卡结构末尾的一串U与转录模板DNA中的一串A之间,因形成的氢键结合力较弱,使mRNA与DNA杂交部分的结合不稳定,mRNA就会从模板上脱落下来,同时,RNA聚合酶也从DNA上解离下来,转录终止。AATAAA顺序和它下游的反向重复顺序合称为终止子,是转录终止的信号。
荣获1993年诺贝尔生理学和医学奖
发现发现断裂基因
罗伯茨
Richard J. Roberts
美国
贝弗莉新英格兰生物实验室
1943年--
夏普
Phillip A. Sharp
美国
麻省理工学院癌症研究中心