Genbank简介
bank文件Genbank库包含了所有已知的核酸序列和蛋⽩质序列,以及与它们相关的⽂献著作和⽣物学注释。它是由美国国⽴⽣物技术信息中⼼(NCBI)建⽴和维护的。它的数据直接来源于测序⼯作者提交的序列;由测序中⼼提交的⼤量EST序列和其它测序数据;以及与其它数据机构协作交换数据⽽来。Genbank每天都会与欧洲分⼦⽣物学实验室(EMBL)的数据库,和⽇本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。到1999年8⽉,Genbank中收集的序列数量达到460万条,34亿个碱基,⽽且数据增长的速度还在不断加快。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供⼴泛的数据查询、序列相似性搜索以及其它分析服务,⽤户可以从NCBI的主页上到这些服务。
Genbank库⾥的数据按来源于约55,000个物种,其中56%是⼈类的基因组序列(所有序列中的34%是⼈类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考⽂献,序列特征表,以及序列本⾝。序列特征表⾥包含对序列⽣物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若⼲个⽂件⾥,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、⼤规模序列数据等16类,其中EST数据等⼜被各⾃分成若⼲个⽂件。
(1)Genbank数据检索
NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界⾯的综合数据库检索系统。利⽤Entrez系统,⽤户不仅可以⽅便地检索Genbank 的核酸数据,还可以检索来⾃Genbank和其它数据库的蛋⽩质序列数据、图谱数据、来⾃分⼦模型数据库(MMDB)的蛋⽩质三维结构数据、种序列数据集、以及由PubMed获得Medline的⽂献数据。
Entrez提供了⽅便实⽤的检索服务,所有操作都可以在⽹络浏览器上完成。⽤户可以利⽤Entrez界⾯上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询⼯作。对于检索获得的记录,⽤户可以选择需要显⽰的数据,保存查询结果,甚⾄以图形⽅式观看检索获得的序列。更详细的Entrez使⽤说明可以在该主页上获得。
(2)向Genbank提交序列数据
测序⼯作者可以把⾃⼰⼯作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界⾯的BankIt或独⽴程序Sequin来完成。
BankIt是⼀系列表单,包括联络信息、发布要求、引⽤参考信息、序列来源信息、以及序列本⾝的信息等。⽤户提交序列后,会从电⼦邮件收到⾃动⽣成的数据条⽬,Genbank的新序列编号,以及完成注释后的完整的数据记录。⽤户还可以在BankIt页⾯下修改已经发布序列的信息。BankIt适合于独⽴测序⼯作者提交少量序列,⽽不适合⼤量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应
⽤BankIt提交。BankIt使⽤说明和对序列的要求可详见其主页⾯。
⼤量的序列提交可以由Sequin程序完成。Sequin程序能⽅便的编辑和处理复杂注释,并包含⼀系列内建的检查函数来提⾼序列的质量保证。它还被设计⽤于提交来⾃系统进化、种和突变研究的序列,可以加⼊⽐对的数据。Sequin除了⽤于编辑和修改序列数据记录,还可以⽤于序列的分析,任何以FASTA或ASN.1格式序列为输⼊数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运⾏的Sequin程序都可以在ftp://ncbi.v/sequin/下到,Sequin的使⽤说明可详见其⽹页。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论