蛋白质结构
蛋白质结构是指蛋白质分子的空间结构。作为一类重要的生物大分子,蛋白质主要由碳、氢、氧、氮、硫等化学元素组成。所有蛋白质都是由20种不同的L型α氨基酸连接形成的多聚体,在形成蛋白质后,这些氨基酸又被称为残基。蛋白质和多肽之间的界限并不是很清晰,有人基于发挥功能性作用的结构域所需的残基数认为,若残基数少于40,就称之为多肽或肽。要发挥生物学功能,蛋白质需要正确折叠为一个特定构型,主要是通过大量的非共价相互作用(如氢键,离子键,范德华力和疏水作用)来实现;此外,在一些蛋白质(特别是分泌性蛋白质)折叠中,二硫键也起到关键作用。为了从分子水平上了解蛋白质的作用机制,常常需要测定蛋白质的三维结构。由研究蛋白质结构而发展起来了结构生物学,采用了包括X射线晶体学、核磁共振等技术来解析蛋白质结构。
一定数量的残基对于发挥某一生物化学功能是必要的;40-50个残基通常是一个功能性结构域大小的下限。蛋白质大小的范围可以从这样一个下限一直到数千个残基。目前估计的蛋白质的平均长度在不同的物种中有所区别,一般约为200-380个残基,而真核生物的蛋白质平均长度比原核生物长约55%。更大的蛋白质聚合体可以通过许多蛋白质亚基形成;如由数千个肌动蛋白分子聚合形成蛋白纤维。
(triose phosphate isomerase)。左:显示全部原子,并以原子类型标色(碳原子为蓝绿色,氧原子为红色,氮原子为蓝色);中:只显示主链构象,以二级结构类型标色(α螺旋为紫色,β折叠为黄色);右:显示“溶剂可及表面”,以残基类型标色(酸性氨基酸为红色,碱性氨基酸为蓝色,极性氨基酸为绿色,非极性氨基酸为白色)。]]
目录
不同层次的蛋白质结构
蛋白质的分子结构可划分为四级,以描述其不同的方面:
- 一级结构:组成蛋白质多肽链的线性氨基酸序列。
- 二级结构:依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠。
- 三级结构:通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。
- 四级结构:用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。
除了这些结构层次,蛋白质可以在多个类似结构中转换,以行使其生物学功能。对于功能性的结构变化,这些三级或四级结构通常用化学构象进行描述,而相应的结构转换就被称为构象变化。
一级结构是通过共价键(肽键)来形成。生物体中,肽键的形成是发生在蛋白质生物合成的翻译步骤。氨基酸链的两端,根据末端自由基团的成分,分别以“N末端”(或“氨基端”)和“C末端”(或“羧基端”)来表示。
定义不同类型的二级结构有不同的方法,最常用的方法是通过主链原子之间的氢键的排列方式来判断的。而在蛋白质完全折叠的状态下,这些氢键可以得到稳定。
三级结构主要是通过结构“非特异性”相互作用来形成。然而,只有当蛋白质结构域通过“特异性”相互作用(如盐桥,氢键以及侧链间的堆积作用)固定到相应位置,所形成的三级结构才能稳定。对于细胞外周蛋白,二硫键起到了关键的稳定作用;而对于细胞内蛋白质,则很少出现二硫键,因为原生质中是还原环境,不利于二硫键的形成。
氨基酸结构
α-氨基酸由一个所有氨基酸类型中都含有的共同部分(形成蛋白质的主链)和一个对每一类氨基酸都不同的侧链所组成。如右图所示,“Cα”原子连接着4个不同类别的原子或基团:一个氨基、一个羧基、一个氢原子(图中略去氢原子)和一个条侧链(用“R”表示,以代表各种不同的氨基酸的侧链)。不完全符合这一特性的一个特例是脯氨酸,其Cα原子没有连接氢原子而是被侧链取代。由于连接着不同的4个基团,这就使氨基酸有了手性;但大多数蛋白质都是同一构型的(左手型的同手性)。由于甘氨酸没有侧链(或者说侧链为一个氢原子),因此没有手性。左手型的氨基酸可以用一个简单的“CORN”法则来记忆:以氢原子在前来看Cα原子,其他三个基团“CO-R-N”以顺时针方向排布。 侧链决定了20种α-氨基酸的化学性质,具体如下表:
残基名称 | 三字母代码 | 单字母代码 | 相对丰度(%) E.C. | 分子量 | pKa | VdW体积 (ų) | 带电(C), 极性(P), 疏水性(H) |
---|---|---|---|---|---|---|---|
丙氨酸(Alanine) | ALA | A | 13.0 | 71 | 67 | H | |
精氨酸(Arginine) | ARG | R | 5.3 | 157 | 12.5 | 148 | C+ |
天冬酰胺(Asparagine) | ASN | N | 9.9 | 114 | 96 | P | |
天冬氨酸(Aspartate) | ASP | D | 9.9 | 114 | 4.5 | 91 | C- |
半胱氨酸(Cysteine) | CYS | C | 1.8 | 103 | 8.3 | 86 | P |
谷氨酸(Glutamate) | GLU | E | 10.8 | 128 | 4.5 | 109 | C- |
谷氨酰胺(Glutamine) | GLN | Q | 10.8 | 128 | 114 | P | |
甘氨酸(Glycine) | GLY | G | 7.8 | 57 | 48 | ||
组氨酸(Histidine) | HIS | H | 0.7 | 137 | 6.8 | 118 | P,C+ |
异亮氨酸(Isoleucine) | ILE | I | 4.4 | 113 | 124 | H | |
亮氨酸(Leucine) | LEU | L | 7.8 | 113 | 124 | H | |
赖氨酸(Lysine) | LYS | K | 7.0 | 129 | 11.1 | 135 | C+ |
甲硫氨酸(Methionine) | MET | M | 3.8 | 131 | 124 | H | |
苯丙氨酸(Phenylalanine) | PHE | F | 3.3 | 147 | 135 | H | |
脯氨酸(Proline) | PRO | P | 4.6 | 97 | 90 | H | |
丝氨酸(Serine) | SER | S | 6.0 | 87 | 73 | P | |
苏氨酸(Threonine) | THR | T | 4.6 | 101 | 93 | P | |
色氨酸(Tryptophan) | TRP | W | 1.0 | 186 | 163 | P | |
酪氨酸(Tyrosine) | TYR | Y | 2.2 | 163 | 9.8 | 141 | P |
缬氨酸(Valine) | VAL | V | 6.0 | 99 | 105 | H |
基于化学性质的不同,可以将20种天然氨基酸分成多个类别。重要的影响因子是侧链带电性、亲/疏水性、大小等。不同侧链在水溶液环境中的相互作用在塑造和维持蛋白质结构中扮演着重要的角色。疏水性的侧链趋向于被包埋于蛋白质内部,形成疏水核心,稳定蛋白质结构;而亲水性的侧链则更多的是暴露于溶剂中。疏水性的残基包括亮氨酸、异亮氨酸、苯丙氨酸和缬氨酸以及疏水性相对较弱的甘氨酸、丙氨酸、色氨酸和甲硫氨酸。带电侧链对于蛋白质结构的稳定性也非常重要,通过不同带电侧链之间形成离子键可以稳定结构,而如果结构内部有未配对的带电侧链则会大大减弱结构的稳定性;此外,带电残基有很强的亲水性,通常位于蛋白质表面。带正电的残基有赖氨酸和精氨酸,有时组氨酸也带正电荷;带负电的残基为谷氨酸和天冬氨酸。其余的氨基酸一般有带不同功能基团的较小的亲水侧链。如丝氨酸和苏氨酸侧链带羟基,谷氨酰胺和天冬酰胺带酰胺基。一些氨基酸具有特殊性质,如两个半胱氨酸之间能够通过侧链上的巯基共价连接而形成二硫键,脯氨酸为环状且构象比较固定,甘氨酸为最小氨基酸且构象最具可变性。
肽键
两个氨基酸可以通过缩合反应结合在一起,并在两个氨基酸之间形成肽键。而不断地重复这一反应就可以形成一条很长的残基链(即多肽链)。这一反应是由核糖体在翻译进程中所催化的。肽键虽然是单键,但具有部分的双键性质(由C=O双键中的π电子云与N原子上的未共用电子对发生共振导致),因此C-N键(即肽键)不能旋转,从而连接在肽键两端的基团处于一个平面上,这一平面就被称为肽平面。而对应的肽二面角φ(肽平面绕N-Cα键的旋转角)和ψ(肽平面绕Cα-C1键的旋转角)有一定的取值范围;一旦所有残基的二面角确定下来,蛋白质的主链构象也就随之确定。根据每个残基的φ和ψ来做图,就可以得到拉氏图,由于形成同一类二级结构的残基的二面角的值都限定在一定范围内,因此在拉氏图上就可以大致分辨残基参与形成哪一类二级结构。下表列出了肽键与对应类型单键以及氢键键长的比较。
肽键 | 平均长度 | 单键 | 平均长度 | 氢键 | 平均长度(±30) |
Cα - C | 153 pm | C - C | 154 pm | O-H --- O-H | 280 pm |
C - N | 133 pm | C - N | 148 pm | N-H --- O=C | 290 pm |
N - Ca | 146 pm | C - O | 143 pm | O-H --- O=C | 280 pm |
一级结构
肽或蛋白质的氨基酸序列(或残基序列)被称为一级结构。残基的标号总是从蛋白质的氨基端(没有参与形成肽键)开始。蛋白质一级结构可以通过测定其对应的基因(更准确地说是开放阅读框架)的碱基序列来间接确定(参见翻译),但对于转录后修饰和翻译后修饰,如二硫键形成、磷酸化和糖基化等(通常被认为是一级结构的组成信息),则无法通过这种翻译法来测定;此外,也可以通过埃德曼降解法或连续质谱来对蛋白质样品进行直接测序。
二级结构
早在1951年,第一个蛋白质结构解出前7年,鲍林和他的同事就利用已知的键长和键角提出了α螺旋和β折叠的结构。α螺旋和β折叠都是将主链上的氢键供体和受体饱和的一种方式。这两个二级结构仅依赖于主链骨架,即所有氨基酸的共同部分,这就解释了为什么这两个二级结构频繁地出现于大多数的蛋白质结构中。随着越来越多的蛋白质结构得到解析,更多的二级结构被发现,如各类Loop和其他形式的螺旋。二级结构都有自己独特的几何构架,即二面角ψ和φ有特定的值,处于Ramachandran图的特定区域。二级结构还包括转角、Loop和其他一些不常见的二级结构元素(如310螺旋等)。除了有规则的二级结构以外,主链骨架的其他部分就被称为无规则卷曲。
三级结构
二级结构元素通常被折叠为一个紧密形态,元素之间以各种类型的loop和转角相连。三级结构的形成驱动力通常是疏水残基的包埋,但其他相互作用,如氢键、离子键和二硫键等同样也可以稳定三级结构。三级结构包括所有的非共价相互作用(不包括二级结构),并定义了蛋白质的整体折叠,对于蛋白质功能来说是至关重要的。
四级结构
四级结构是由两个或多个多肽链通过相互作用形成的结构。其中,单独的一条链就被称为亚基。亚基之间不一定要共价连接,但有一些亚基之间是通过二硫键来连接的。不是所有的蛋白质都有四级结构,许多蛋白可以以单体形式来发挥功能。四级结构的稳定性与三级结构处于同一水平。两个或多个亚基形成的复合物统称为多聚体(multimer),如果是两个亚基则称二聚体或二体(dimer),三个亚基称三聚体或三体(trimer),以此类推。如果多聚体为相同的亚基组成,则加上“同源(homo-)”作为前缀,反之则用“异源(hetero-)”,如同源二聚体或异源三聚体。
侧链构象
侧链上的碳原子的命名]] 残基侧链上的原子根据希腊字母表的顺序(α、β、γ、δ、ε等)来命名,如Cα指的是对应残基上最接近羰基的碳原子,而Cβ则是次接近的。Cα通常被认为是主链骨架的组成原子。这些原子之间的键对应的二面角则相应以χ1、χ2、χ3等来命名,如赖氨酸侧链上第一、二个碳原子(即Cα和Cβ)之间共价键的二面角为χ1。侧链可以有多种不同的构象,每一种类型的残基都有几种比较稳定的侧链构象。
结构域、结构花样与折叠类型
许多蛋白质都可以被分为多个结构组成单元,结构域就是这样一个组成单元。结构域一般可以自稳定,且常常独立进行折叠,而不需要蛋白质其他部分的参与;很多结构域都有自己独特的生物学功能。很多结构域并不是一个基因或基因家族对应蛋白质的独特结构单元,而往往是许多类蛋白质的共同结构单元。结构域常常是以其生物学功能来命名,如“钙离子结合结构域”;或以几类最初发现此结构域的蛋白名称衍生而来,如PDZ结构域(最初发现于PSD95、DlgA和ZO-1这三个蛋白质)。由于结构域自身可以稳定存在,因此可以将不同来源的结构域通过遗传工程人为地结合在一起,形成杂合蛋白质。
结构花样(structural motif)同样是一种结构组成单元,它是由几个二级结构的特定组合(如螺旋-转角-螺旋)所组成;这些组合又被称为超二级结构。结构花样往往还包含有长度不同的loop区。
尽管真核生物体可以表达数万种不同的蛋白质,但对应的结构域、结构花样与折叠类型的数量却少得多。一种合理的解释是,这是进化的结果;因为基因或基因的一部分可以在基因组内被加倍或移动。也就是说,通过基因重组,一个结构域可以从相应蛋白质A移动到本不具有此结构域的蛋白质B上,而其发生的进化驱动力可能是由于该结构域对应的生物学功能趋向于被蛋白质B所利用。
蛋白质折叠
从一级结构到更高级结构的过程就被称为蛋白质折叠。一个序列特定的多肽链(折叠之前的蛋白质一般都被称为多肽链)一般折叠为一种特定构象(又称为天然构象);但有时可以折叠为一种以上的构象,且这些不同构象具有不同的生物学活性。在真核细胞内,许多蛋白质的正确折叠需要分子伴侣的帮助。
结构分类
对蛋白质结构进行分类的方法有多种,有多个结构数据库(包括SCOP、CATH和FSSP)分别采用不同的方法进行结构分类。存放蛋白质结构的PDB数据库中就引用了SCOP的分类。对于大多数已分类的蛋白质结构来说,SCOP、CATH和FSSP的分类是相同的,但在一些结构中还有所区别。
结构测定
专门存储蛋白质和核酸分子结构的蛋白质数据库中,接近90%的蛋白质结构是用X射线晶体学的方法测定的。X射线晶体学可以通过测定蛋白质分子在晶体中电子密度的空间分布,在一定分辨率下解析蛋白质中所有原子的三维坐标。大约9%的已知蛋白结构是通过核磁共振技术来测定的。
分辨率(埃) | 结构中可能出现的问题 |
>4.0 | 单个原子坐标无意义 |
3.0 - 4.0 | 整体折叠可能是正确的,但很可能有错误存在。很多侧链摆放位置不正确。 |
2.5 - 3.0 | 整体折叠基本是正确的,除了位于结构表面的一些环状结构可能没有正确建模。长侧链的极性残基(Lys、Glu、Gln等)和小侧链残基(Ser、Val、Thr等)的侧链摆放位置有可能不正确。 |
2.0 - 2.5 | 与2.5 - 3.0类似,只是出现错误的情况更少。可以明显观察到水分子和小配基。 |
1.5 - 2.0 | 侧链摆放位置基本无误,甚至一些小的错误也可以被检测到。整体折叠,包括位于结构表面的环状结构,基本不可能出现错误。 |
0.5 - 1.5 | 在这一分辨率下,一般不会有结构错误。侧链异构体库和立体几何研究都是利用这一分辨率范围内的结构来进行的。 |
近年来,随着结构基因组学的兴起,大量的蛋白质结构获得了测定,为研究蛋白质的作用机理提供了重要的结构信息。
结构预测
测定蛋白质序列比测定蛋白质结构容易得多,而蛋白质结构可以给出比序列多得多的关于其功能机制的信息。因此,许多方法被用于从序列预测结构。
- 二级结构预测
- 三级结构预测
- 同源建模:需要有同源的蛋白三级结构为基础进行预测。
- Threading法。
- “从头开始”(Ab initio):只需要蛋白质序列即可进行结构预测。由于运算量大,需要有超级计算机来进行,或采用分布式计算,如Rosetta@home等。
- 四级结构预测:主要是预测蛋白质-蛋白质之间的相互作用方式。
相关软件
与蛋白质结构相关的软件有很多,主要分为以下几类:
- 三维结构图形化显示。较为流行的有PyMOL、Rasmol、MolMol等。
- 三维结构解析。包括晶体结构解析、NMR结构解析和电镜结构解析。著名的软件包有CCP4和CNS等。
- 结构预测:
- 结构分析。这一类软件数量庞大,功能不同,各有特色,以下列出其中较为常用的一些功能和对应软件:
- 查找相似结构或进行结构比较,如DALI;
- 根据蛋白质三维结构,对其物理化学性质进行分析,如用于静电势分布分析的APBS;
- 对蛋白质三维结构的实验或理论模型进行检查以发现可能错误,如PROCHECK和WHAT_CHECK;
- 分子动力学模拟,如GROMACS;
- 蛋白质-蛋白质或蛋白质-配基之间相互作用分析,如InterPreTS。
更多软件可以在ExPASy Proteomics tools上查找。
延伸阅读
- John Tooze, Introduction to Protein Structure, Garland, 1999, ISBN 0815323042
- 阎隆飞、孙之荣,《蛋白质分子结构》,清华大学出版社,1999年,ISBN 7302033293
外部链接
- 如何利用贝叶斯计算法从NMR数据进行结构计算 ──
- ProSA-web 查找实验测定或理论计算所获得的蛋白质结构中可能出现的错误的网络服务器
- NQ-Flipper 可以对蛋白质结构中Asn和Gln的异构体进行检查的网络服务器