Nucleic Acids Research, 2004, Vol. 32, Database issue D115-D119
© 2004 Oxford University Press
UniProt:蛋白质的全信息数据库
摘要
为了给科学界提供一个专门, 集中, 权威的蛋白质序列和功能的信息资源, 瑞士-Prot,TrEMBL 和PIR蛋白质数据库已经合作组成了蛋白质的全信息数据库 (UniProt)。 我们的目的是用广泛的对照和询问接口来提供一个全面的,分类完全的,丰富并且准确的蛋白质序列信息。中心数据库将有两个部分:符合熟悉的瑞士-Prot(完全手工操作入口)和TrEMBL(使用丰富的自动化的分类,注释和广泛的对照)。为方便序列查寻,UniProt也提供几个无冗余的序列数据库。 UniProt NREF(UniRef)数据库为高效率的搜寻提供适当的蛋白质的全信息数据库的代表性的子集。全面的UniProt 档案(UniParc)每天从很多公共来源数据库更新。
数据库那些UniProt接口可在线访问()或者以几个形式下载(ftp:///pub)。我们鼓励科学界人士向UniProt提供数据。
介绍
近来,瑞士-Prot + TrEMBL和PIR-PSD如同蛋白质数据库不同的序列信息覆盖面和注释优势共存。 2002年,在生物信息科学(SIB)的瑞士研究所和欧洲生物信息科学研究所的瑞士-Prot + TrEMBL 组 (EBI)和蛋白质信息资源(PIR)组织在乔治敦大学医学中心和国家生物医学的研究基金会联合协作。 新联合的组织的主要任务是通过建立一个综合,详细分类,丰富并且准确注释蛋白质序列的优质的数据库和广泛序列对比和询问服务的到科学团体免费接口—knowledgebase来支持生物学的研究。 UniProt 将在组织成员多年合作的坚实基础上建立起来。
UniProt 数据库包括3 个数据库层:
1、UniProt 档案(UniParc),通过储存全部可公开得到的蛋白质序列数据供一个稳定,综合,无冗余的序列收集。
2、UniProt蛋白质的全信息数据库,提供蛋白质序列信息给中心数据库以准确、一致和丰富的序列和功能注释。
3、UniProt NREF,数据库(UniRef)提供基于UniProt蛋白质的全信息数据库的无冗余的数据收集,来获得不同序列信息的全面覆盖。
UNIPROT 档案(UNIPARC)
UniProt 档案(UniParc)是公开可利用的最全面的无冗余的蛋白质序列数据源。 它包含很多不同公开来源的蛋白质序列, 包括瑞士-Prot,truncated bnp是什么TrEMBL,PIR-PSD, EMBL, Ensembl, IPI(www.ebi.ac.uk/IPI), PDB,RefSeq,FlyBase,WormBase,以及欧洲,美国和日本专利局。当一个蛋白质序列可能存在于多个数据库和不止一次在指定的数据库里时,UniParc将这个序列仅储存一次和并仅分配给一个独特的UniParc 标识符。此外,UniParc提供对比到来源数据库(登录号),序列的版本和状态(活跃或者淘汰的)。一个UniParc 序列版本以及基础的序列改变也被提供,所以增加的序列使在全部来源数据库上观察序列成为可能。例如UniParc报告可能被在srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-noSession+-e+[UNIPARC:UPI0000133132](SRSview)anwww./cgi-bin/upEntry?id=UPI0000133132 (PIR view)中到。
UNIPROT蛋白质的全信息数据库(UNIPROT)
UniProt蛋白质的全信息数据库是组织合作的结晶。 为了提供给蛋白质序列的中心数据库带注释和功能信息,我们已经合并瑞士-Prot,TrEMBL 和PIR-PSD 形成了UniProt knowledgebase。 全部从瑞士-Prot + TrEMBL丢失的适合PIR-PSD 的序列都被合并进了UniProt。 在瑞士-Prot + TrEMBL 和PIR-PSD之间的双向的对比引用的建立使跟踪PIR-PSD变得容易。 转移到参考的UniProt 和用实验补充证实从瑞士-Prot 向+ TrEMBL转移存在于PIR但却丢失的数据的工作正在进行中。
UniProt蛋白质的全信息数据库由两个部分组成: 一部分是来源于文字信息摘要和工作人员完全手工注释的计算机评估分析记录,另一部分是由计算机分析的记录并等待充分的手工注释。为了连续性和名字识别,两个部分被称为'瑞士-Prot ' 和' TrEMBL 。例如UniProt报告可能在/cgi-bin/niceprot.pl?P57727 (NiceProt view), www.pir.uniprot. org/cgi-bin/upEntry?id=P57727 (iProClass view) or srs.ebi.ac.uk/cgi-bin/wgetz?-e+[swall-acc:P57727] (SRS view)中到 。
在下面段落里我们将解释UniProt蛋白质的全信息数据库的主要特点。
1、优质的注释
我们将已经对瑞士-Prot + TrEMBL 和PIR-PSD取得的细节放入高水平的接口——UniProt库中。 除每个UniProt入口的捕获核心数据命令 (主要包括氨基酸序列,蛋白质名字或者描述,分类的数据和引证信息) 以外,我们努力把尽可能多的注释信息附到蛋白质上。这可以用两种方式获得:手工和自动。
2、基于工作人员的文字和序列分析的手工注释
那些具有新功能和新结构的序列或生化数据被分配给高的手工注释优先权。 在UniProt里,注释包括以下项目的说明:
蛋白质的功能;
酶的具体信息(催化活性,辅助因子,代谢途径,调节机制);
生物学相关的领域和场所;
翻译后修饰(PTM);
质谱测定法确定分子量;
蛋白质的亚细胞位置;
蛋白质的组织特异表达;
蛋白质的组织特异性表示;
二级结构;
四级结构;
相互作用;
组成的接合;
成熟的蛋白质产物;
多态性;
与其它蛋白质的相似性;
蛋白质在生物工程中用途;
蛋白质的缺乏或者变形造成的相关的疾病;
蛋白质的药用价值;
序列冲突,等等
这个注释可在“注解”,“特征” 和“关键字”的链接中到。注解根据题目分类和数据的具体类别可从数据库容易检索。
为获得最新的和最大广泛的蛋白质的信息, 我们不仅从公开报道的新序列里搜寻数据, 而且从定期修正的蛋白质的家族或者蛋白质组的综述文章中获取信息。 此外,我们已经预约了许多专家寄给我们评论和蛋白质组的具体更新进展。
为了提供如上所述的高水平注释,所有的UniProt 工作者要读大量的与蛋白质有关的科学文献。 这使他们能够选出与蛋白质有关的信息,并加在注释里, 如蛋白质的功能,它涉及的代谢和它在细胞里的位置。
3、自动的分类和注释
由于序列数据库的迅速发展,对新蛋白质的功能预言性的描述和注释成为一种需要。 为了处理这样大量的数据,必须发展一种迅速有效的蛋白质序列描述和注释的方法。一项可行措施是自动的大规模功能的描述和注释,它和有限的人工工作结合起来。
InterPro 分类。 我们使用InterPro(识别全部蛋白质的结构域和序列并且据此在UniProt中将它们分类进不同的蛋白质家族和和超家族中。 InterPro是一种蛋白质家族的联合资源,结构域和位点的综合的资源数据库: Pfam , PROSITE , PRINTS, ProDom, SMART, PIRSF, Superfamily和 TIGRFAMs。 综合的InterPro 分类是基于自动化规则,使用高度构造改进我们注释的数量和质量的前提。
UniProt的TrEMBL部分的自动注释功能。对于自动注释来说,一个将在UniProt的瑞士-Prot 的蛋白质信息转存到非注释的TrEMBL 入口新的规范化化的注释系统已经被开发了。使用这个系统,瑞士-Prot 被用作产生注释标准的来源,然后被储存并且在RuleBase里管理。 InterPro用于分配TrEMBL的信息成组。瑞士-Prot中的蛋白质功能特性的注释选出后被分配到unannotated TrEMBL 入口就形成了这种组。 这个系统已经用来在25%的TrEMBL 入口里被改进注释。 新数据自动注释的采集作为这个系统的补充也开始发展起来,这将在明年扩大自动注释的覆盖面,并且将使UniProt的TrEMBL更接近于瑞士-Prot的注释标准。
并且被合并RuleBase,注释进入的方式是PIR按分类和基于程序进行的,这将提供规范化和丰富的关于蛋白质名字和关键词和具体位置特征的UniProt 注释。为完整curated PIRS 家族,新的特征标准正在被系统的定义为至少包含一种功能/活性/ 捆绑位点信息的被实验已证实的已知的三维结构。基于整个蛋白质的进化关系的PIRSF分类也已经被用于查出并且修正许多的只基于本地结构域的相似性和后来的基于传递性的繁殖引起的基因注释错误。
4、微生物的Proteomes(HAMAP) 优质自动化的手工注释
瑞士-Prot中原核生物基因自动化和手工的注释的结合促进了HAMAP 工程的发展。 HAMAP 工程,‘高品质微生物蛋白质组的自动化和手动的注释'目的是结合手动和自动注释方法来提高在保存数据库注释的质量时curation的处理速度。 自动注释只适用于手工确定orthologous 家族的入口和当给入口没有可识别的相象似性对象时申请(ORFans)。
ORFans的注释。 各种各样的预测工具已被用于和已知的蛋白质家族没有任何相似性的蛋白质的预测。可能的穿膜结构,信号序列,螺旋,ATP/GTP的结合位点, LPXTG 主题和确定的一些被定义重复一致的和从属性的标准自动注释,并且没有任何另外更进一步的手工证明。
描述详细的成员的注释的(附属)家族。属于描述详细的蛋白质(附属)的蛋白质家族可能自动地附注使用由相似性分配到原型手工附注的词条的规则系统来描述注释的程度和本质。这样的一个系统规则也包括仔细编辑(附属)家族的调整,这被用来传递来自一个模型入口的注释的特征和用来鉴定家族的新成员的形状特征的信息。限于生物化学的途径的特定种类的标准和规则被用来发展一个能够在整个蛋白质组的水平辨认出不同点的系统。
5、命名的标准化和词语的用法
一致的命名对通讯和文献检索是不可缺少的。 UniProt通过他的isoforms使给定的蛋白质和与其有关的生物命名标准化。对各种各样的其他UniProt 工程来说我们使用一些在UniProt 资料里被列举出来固定的词汇,例如组织,质粒和关键词。统一的UniProt关键字目录基于通过增加选择PIR关键词而增加的瑞士-Prot关键词,PIR关键词代表现存在于瑞士-Prot关键词的可能的新概念或者新亲子节点。如果可以得到,我们会利用仍然提供公用同义词的国际委员会所确定的官方命名。与其他数据库和组织的合作和定期的数据交流使得我们的命名的实现非常的及时和专业。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论