蛋白质结构分析原理及工具-文献综述--688IT编程网

蛋白质结构分析原理及工具

（南京农业大学生命科学学院生命基地111班）

摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举，并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。

关键词：蛋白质；结构预测；跨膜域；保守结构域

1 蛋白质相似性检测

蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。

表一常用蛋白质数据库

数据库	说明	链接
蛋白序列数据库
GenPept	Translations of GenBank coding nucleotide entries	bi.v/Genbank/
PIR	International protein database	town.edu/
RefSeq	Curated, non-redundant with expert annotation	bi.v/RefSeq/
UniProt/SwissProt	Reviewed, manually annotated entries	/help/uniprotkb
UniProt/TrEMBLphp模板引擎原理	Automatically classified and annotated entries	/help/uniprotkb
蛋白质分类数据库
CATH	Proteins classified based on class, architecture, topology and homology	www.cathdb.info/
SCOP	Structural classification of proteins	-lmb.cam.ac.uk/scop
ProtClustDB	Proteins classified based on sequence similarity	bi.v/proteinclusters
蛋白质结构数据库
PDB	Resolved 3D biomolecular structures	/pdb

网址可能有更新

氨基酸替代模型。进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。

序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman算法。全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树，这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

表二成对序列相似性比对搜索工具

工具	说明	链接
BLAST	Basic local alignment search tool	bi.i
FASTA	Global alignment search tool;	www.ebi.ac.uk/Tools/fasta33/
GGSEARCH	Global alignment search tool	www.ebi.ac.uk/Tools/fasta33/ index.html?program=GGSEARCH
SSEARCH-Protein	Local alignment search tool against proteins	www.ebi.ac.uk/Tools/fasta33/ index.html?program=SSEARCH

网址可能有更新

2 蛋白质一级结构分析（含保守结构域）

蛋白质结构的基本信息来源于它的一级结构，分析蛋白质一级结构的第一步是将它们分成其组成部分，然后处理每个部分的结构[4]。这种拆分常常是根据蛋白质具有的相互作用的结构域进行的[5, 6]。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的，这些数据库通常被称为“特征数据库（signature databases）”。“基序（Motifs）”通常指没有间隔的多序列队列，通常由10-20个氨基酸构成。一系列基序构成的蛋白质域家族叫做“指纹（fingerprint）”。使用它们的优势是可以检测远距离的序列关系[7]。基序的典型例子是位置加权矩阵（position-specific score matrix，PSSM）。PSSM计算基序中每一位置的分数。任何一个保守位置的信息被缩小到一个叫“序列模式（sequence patterns）”的共同序列结果。“序列谱（sequence profiles）”用来描述一个较长的可能含有有用信息的保守序列片段。它们被用来较大结构域的检测。隐马尔可夫模型（Hidden Markov Models，HMMs）即是一种和序列谱有关的模型。表三列举了主要的蛋白质特征数据库。

表三常用蛋白质特征数据库

数据库	特征类型	外部来源	网络链接
BLOCKS	Blocks		/blocks/
CDD	HMM,MSA	Pfam,SMART,COGs,ProtClustDB	bi.v/Structure/cdd/cdd.shtml
Gene3D	HMM	CATH	gene3d.biochem.ucl.ac.uk/Gene3D/
InterPro	Integrated signature types of its member databases	Gene3D,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITE,SMART, SUPERFAMLY,TIGRFAMs	www.ebi.ac.uk/interpro/
Pfam	HMM,MSA	UniProtKB,GenPept,metagenomicsdatasets	pfam.sanger.ac.uk/
PRINTS	Fringerprints		www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php
ProDom		UniProtKB,SCOP	prodom.prabi.fr/prodom/current/html/home.php
PROSITE	Patterns,profiles	UniProtKB/SWISS-PROT	/prosite/
SBASE		BLOCKS,Pfam,PRINTS,ProDom,PROSITE	ieste.it/sbase/
SMART	HMM		bl.de/
SUPERFAMILY	HMM	SCOP	/SUPERFAMILY/

MSA：多序列比对；CDD：保守结构域数据库

688IT编程网

蛋白质结构分析原理及工具-文献综述

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

蛋白质结构分析原理及工具-文献综述

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式