蛋白质结构分析原理及工具
(南京农业大学生命科学学院 生命基地111班)
摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具,系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。
关键词:蛋白质;结构预测;跨膜域;保守结构域
1 蛋白质相似性检测
蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系同源,它们通常有不同的功能[1]。因此,推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。
表一 常用蛋白质数据库
数据库
说明
链接
蛋白序列数据库
GenPept
Translations of GenBank coding nucleotide entries
bi.v/Genbank/
PIR
International protein database
town.edu/
RefSeq
Curated, non-redundant with expert annotation
bi.v/RefSeq/
UniProt/SwissProt
Reviewed, manually annotated entries
/help/uniprotkb
UniProt/TrEMBLphp模板引擎原理
Automatically classified and annotated entries
/help/uniprotkb
蛋白质分类数据库
CATH
Proteins classified based on class, architecture, topology and homology
www.cathdb.info/
SCOP
Structural classification of proteins
-lmb.cam.ac.uk/scop
ProtClustDB
Proteins classified based on sequence similarity
bi.v/proteinclusters
蛋白质结构数据库
PDB
Resolved 3D biomolecular structures
/pdb
网址可能有更新
氨基酸替代模型。进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]
序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH,它们使用了Smith-Waterman算法。全局联配工具有FASTA和GGSEARCH,基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工具
表二 成对序列相似性比对搜索工具
工具
说明
链接
BLAST
Basic local alignment search tool
bi.i
FASTA
Global alignment search tool;
www.ebi.ac.uk/Tools/fasta33/
GGSEARCH
Global alignment search tool
www.ebi.ac.uk/Tools/fasta33/
index.html?program=GGSEARCH
SSEARCH-Protein
Local alignment search tool against proteins
www.ebi.ac.uk/Tools/fasta33/
index.html?program=SSEARCH
网址可能有更新
2 蛋白质一级结构分析(含保守结构域)
蛋白质结构的基本信息来源于它的一级结构,分析蛋白质一级结构的第一步是将它们分成其组成部分,然后处理每个部分的结构[4]。这种拆分常常是根据蛋白质具有的相互作用的结构域进行的[5, 6]。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的,这些数据库通常被称为“特征数据库(signature databases)”。“基序(Motifs)”通常指没有间隔的多序列队列,通常由10-20个氨基酸构成。一系列基序构成的蛋白质域家族叫做“指纹(fingerprint)”。使用它们的优势是可以检测远距离的序列关系[7]。基序的典型例子是位置加权矩阵(position-specific score matrix,PSSM)。PSSM计算基序中每一位置的分数。任何一个保守位置的信息被缩小到一个叫“序列模式(sequence patterns)”的共同序列结果。“序列谱(sequence profiles)”用来描述一个较长的可能含有有用信息的保守序列片段。它们被用来较大结构域的检测。隐马尔可夫模型(Hidden Markov Models,HMMs)即是一种和序列谱有关的模型。表三列举了主要的蛋白质特征数据库。
表三 常用蛋白质特征数据库
数据库
特征类型
外部来源
网络链接
BLOCKS
Blocks
/blocks/
CDD
HMM,MSA
Pfam,SMART,COGs,ProtClustDB
bi.v/Structure/cdd/cdd.shtml
Gene3D
HMM
CATH
gene3d.biochem.ucl.ac.uk/Gene3D/
InterPro
Integrated signature types of its member databases
Gene3D,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITE,SMART,
SUPERFAMLY,TIGRFAMs
www.ebi.ac.uk/interpro/
Pfam
HMM,MSA
UniProtKB,GenPept,metagenomicsdatasets
pfam.sanger.ac.uk/
PRINTS
Fringerprints
www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php
ProDom
UniProtKB,SCOP
prodom.prabi.fr/prodom/current/html/home.php
PROSITE
Patterns,profiles
UniProtKB/SWISS-PROT
/prosite/
SBASE
BLOCKS,Pfam,PRINTS,ProDom,PROSITE
ieste.it/sbase/
SMART
HMM
bl.de/
SUPERFAMILY
HMM
SCOP
/SUPERFAMILY/
MSA:多序列比对;CDD:保守结构域数据库

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。