《生物信息学》第二章:生物数据库(第二部分)
一级蛋白质序列数据库:UniProtKB注释解读(1)
这一节我们从UniProt数据库查看一条蛋白质序列(/)。在UniProt
数据库的首页上有一个关于UniProtKB数据库的统计表。可以看到,TrEMBL数据库里存储的序列数量远远大于Swiss-Prot中的。统计表里清楚的写着:TrEMBL是自动注释的,没有经过检查,而Swiss-Prot是人工
注释的,并且经过检查。这是Swiss-Prot和TrEMBL最大的区别,一定要记住。跟NCBI的网站一样,UniProt数据库的首页上也有一个搜索条,选择UniprotKB数据库,然后输入“human dutpase”。上节课我们一直在研究dUTPase,从PubMed 查文献到GenBank查看编码这一蛋白的dut基因。这节课我们继续研究它。这次我们直接查看dUTPase的蛋白质序列。
通过关键词搜索我们到了很多条蛋白质序列。从蛋白质的名字来看,第一条应该是我们想要的。Entry这一列是蛋白质序列在UniProtKB数据库中的检索号,Entry_Name是检索名,检索号与检索名平行运行,都是一条序列在数据库中的唯一标识,两者作用相同,只是写法不同。从检索名可以更直观的知道是哪个物种的什么蛋白质。从加星文档图标我们可以获知序列是被人工检查过的还是没有。也就是说,有加星文档图标的是Swiss-Prot中的数据,没有的是TrEMBL里的。后面这几列,依次是蛋白质的名字,编码这一蛋白质的基因的名字,所属物种以及序列长度。点击第一条序列的检索号,打开这条数据库记录。
UniProtKB中的数据库记录分成几个部分,左侧是注释标签,点击其中某一个标签可以直接跳转到该部分注释。上方是工具标签,可以用于和其他序列进行比较,格式转换,存储等。工具标签下方是这条蛋白质序列的基本信息,蛋白质的名字,基因的名字,所属物种,以及状态。这里有加星文档图标,是被人工检查过的,应该属于Swiss-Prot数据库。注释打分5星,说明注释得很全面,并且这些注释在蛋白质水平上有实验依据。再往下就是具体的注释内容了。
truncated bnp是什么Function,功能这部分注释很详细的说明了这个蛋白质的功能。从这里可以得知dUTPase是一种在核酸代谢过程中的酶、它的催化反应方程式、它的辅助因子、它参与的代谢途径等。每条注释信息都提供出处来源,让你有据可查。
Names & Taxomomy给出了蛋白质的各种名字,包括全称、缩写以及别名。还列出了
所属物种以及该物种的分类学谱系等。
Subcellular location:提供蛋白质亚细胞定位(subcellular localization)的信息。成熟蛋白质必须在特定的细胞部位才能发挥其生物学功能。蛋白质在细胞内不同组分中的定位即为蛋白质的亚细胞定位。亚细胞定位对蛋白质的生理功能有着直接的影响。处于合适的亚细胞定位的蛋白质才能行使其正常的功能。目前,研究亚细胞定位的数据来源基本都是Swiss-Prot数据库。上节课我们从GenBank里查看人的dut基因时得知,dut基因有两种剪切方式,其中一种会保留前端的一段信号肽,这个信号肽会将蛋白质定位于线粒体。而没有这段信号肽的留在了细胞核。这与Swiss-Prot中关于亚细胞定位的注释是一致的。我们看到,这个蛋白有两种异构体(isofrom),一个亚细胞定位在细胞核,另一个在线粒体。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论