蛋白质结构分析原理及工具
(南京农业大学生命科学学院 生命基地111班)
摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具,系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。
关键词:蛋白质;结构预测;跨膜域;保守结构域
1 蛋白质相似性检测
蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系同源,它们通常有不同的功能[1]。因此,推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。
表一 常用蛋白质数据库
数据库 | 说明 | 链接 |
蛋白序列数据库 | ||
GenPept | Translations of GenBank coding nucleotide entries | bi.v/Genbank/ |
PIR | International protein database | town.edu/ |
RefSeq | Curated, non-redundant with expert annotation | bi.v/RefSeq/ |
UniProt/SwissProt | Reviewed, manually annotated entries | /help/uniprotkb |
UniProt/TrEMBLphp模板引擎原理 | Automatically classified and annotated entries | /help/uniprotkb |
蛋白质分类数据库 | ||
CATH | Proteins classified based on class, architecture, topology and homology | www.cathdb.info/ |
SCOP | Structural classification of proteins | -lmb.cam.ac.uk/scop |
ProtClustDB | Proteins classified based on sequence similarity | bi.v/proteinclusters |
蛋白质结构数据库 | ||
PDB | Resolved 3D biomolecular structures | /pdb |
网址可能有更新
氨基酸替代模型。进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。
序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH,它们使用了Smith-Waterman算法。全局联配工具有FASTA和GGSEARCH,基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工具
表二 成对序列相似性比对搜索工具
工具 | 说明 | 链接 |
BLAST | Basic local alignment search tool | bi.i |
FASTA | Global alignment search tool; | www.ebi.ac.uk/Tools/fasta33/ |
GGSEARCH | Global alignment search tool | www.ebi.ac.uk/Tools/fasta33/ index.html?program=GGSEARCH |
SSEARCH-Protein | Local alignment search tool against proteins | www.ebi.ac.uk/Tools/fasta33/ index.html?program=SSEARCH |
网址可能有更新
2 蛋白质一级结构分析(含保守结构域)
蛋白质结构的基本信息来源于它的一级结构,分析蛋白质一级结构的第一步是将它们分成其组成部分,然后处理每个部分的结构[4]。这种拆分常常是根据蛋白质具有的相互作用的结构域进行的[5, 6]。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的,这些数据库通常被称为“特征数据库(signature databases)”。“基序(Motifs)”通常指没有间隔的多序列队列,通常由10-20个氨基酸构成。一系列基序构成的蛋白质域家族叫做“指纹(fingerprint)”。使用它们的优势是可以检测远距离的序列关系[7]。基序的典型例子是位置加权矩阵(position-specific score matrix,PSSM)。PSSM计算基序中每一位置的分数。任何一个保守位置的信息被缩小到一个叫“序列模式(sequence patterns)”的共同序列结果。“序列谱(sequence profiles)”用来描述一个较长的可能含有有用信息的保守序列片段。它们被用来较大结构域的检测。隐马尔可夫模型(Hidden Markov Models,HMMs)即是一种和序列谱有关的模型。表三列举了主要的蛋白质特征数据库。
表三 常用蛋白质特征数据库
数据库 | 特征类型 | 外部来源 | 网络链接 |
BLOCKS | Blocks | /blocks/ | |
CDD | HMM,MSA | Pfam,SMART,COGs,ProtClustDB | bi.v/Structure/cdd/cdd.shtml |
Gene3D | HMM | CATH | gene3d.biochem.ucl.ac.uk/Gene3D/ |
InterPro | Integrated signature types of its member databases | Gene3D,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITE,SMART, SUPERFAMLY,TIGRFAMs | www.ebi.ac.uk/interpro/ |
Pfam | HMM,MSA | UniProtKB,GenPept,metagenomicsdatasets | pfam.sanger.ac.uk/ |
PRINTS | Fringerprints | www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php | |
ProDom | UniProtKB,SCOP | prodom.prabi.fr/prodom/current/html/home.php | |
PROSITE | Patterns,profiles | UniProtKB/SWISS-PROT | /prosite/ |
SBASE | BLOCKS,Pfam,PRINTS,ProDom,PROSITE | ieste.it/sbase/ | |
SMART | HMM | bl.de/ | |
SUPERFAMILY | HMM | SCOP | /SUPERFAMILY/ |
MSA:多序列比对;CDD:保守结构域数据库
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论