实验二:序列查询(Entrez)、BLAST序列相似性搜索
实验目的:
1.学会用Entrez系统查目标序列
2.学会使用BLAST在数据库中搜索相似序列
3.学会分析数据库搜索结果
实验内容:
一、Entrez
Entrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种序列数据集、以及由PubMed获得Medline的文献数据。
网址:bi.v/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。如Figure 2.1所示:
Figure 2.1 entrez 检索系统子数据库
点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查的关键词,点击“GO”即可开始搜索。如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。但“transcription factor”这样有一定范围的词是可以接受的。可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。点击进入对应的数据库,可以查看搜索到的条目。如果在数据库图标前面为灰,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
Figure 2.2 数据库选项下拉菜单
但是这种简单搜索会产生大量的结果,其中很多信息都不是我们所需要的,NCBI为我们提供了“Limits”、“Advanced Search”等辅助功能,只有充分理解并熟练运用这些工具进行复杂的检索,才能充分发挥Entrez的强大功能,实现精确高效的检索。
A:limits
Limits限制性搜索可以根据该数据库结构,将输入的关键词的查询范围限制在某个范围内,如领域、编号、代码、提交日期等。不同的数据库,其限定内容略有不同。
以Nucleotide数据库为例搜索hemoglobin,点击进入搜索结果页面后(Figure 2.3),在页面上方搜索栏下有“Limits”,“Advanced”选项。
Figure 2.3 search result
点击Limits进入限定页面(Figure 2.4)。可以对序列发布时间或修改时间进行限定,也可以对搜索关键词的领域(search field tags;如果输入的是序列名称,如hemoglobin, trypsin,选择title; 如果输入的是物种的名称,选择organism)进行限定,可以对搜索数据库(source database;一般选择RefSeq, 建议
大家在平时搜索时也使用这个选项。)进行限定,还可以对分子类型(molecule)、序列位置(gene location)和排除的数据类型(STSs, working draft, TPA, patent)等进行限定(Figure 2.4)。
Figure 2.4 Limits page
限定完毕,点击“Search“,则出现根据限定条件得到的搜索结果(Figure 2.5),同时页面上显示“Limits Activated”。如果要改变限定内容,可以点“change”修改,如果不需要限定,
点击“remove”可取消限定。
Figure 2.5 Limits search result
注意:查询序列时,我们常常将搜索限定在RefSeq数据库,因为它的数据是非冗余的。
The Reference Sequence (RefSeq) database is a non-redundant collection of richly annotated DNA, RNA, and protein sequences from diverse taxa. The collection includes sequences from plasmids, organelles, viruses, archaea, bacteria, and eukaryotes. Each RefSeq represents a single, naturally occurring molecule from one organism. The goal is to provide a comprehensive, standard dataset that represents sequence information for a
species.
B: Advanced
若点击搜索栏下面的advanced,就会进入Entrez的高级搜索界面(Figure 2.6)。
Figure 2.6 advanced page
“Builder”下方前部的下拉菜单提供了按字母顺序排列的检索领域(field)列表,允许用户直接选定特定的范围进行检索,选好field,在后面的文本框里输入关键词。如果不确定关键词应该如何拼写,可以先写出自己确定的部分,然后点击“show index list”,则所有相关的类似关键词出现在下面的列表中,可以从中选择你需要的关键词。(Figure 2.7)
Figure 2.7 Show Index list
例如:想要搜索人的血红蛋白序列,则可以首先选择搜索领域-title,在后面的文本框中输入关键词hemoglobin,此时这个关键词及其领域限定信息出现在上面的搜索框里。然后再选择第二个搜索领域为organism, 在后面的文本框中输入关键词human,此时第二个关键词即其领域限定信息也出现在搜索框里,默认两个关键词是和(AND)关系。点击search进行搜索,就得到数据库中所有人血红蛋白序列。(此时要取消掉前面的Limits那步做的field 限定,只限定数据库为refseq即可)
页面下方有History区域,这里保留了最近的搜索记录,点击搜索结果前面的标号(#数字)时,下拉菜单内容依次是布尔逻辑运算符和、或、非、删除本条记录、显示搜索结果、显示具体搜索条件、保存到
我的NCBI帐户(需注册)(Figure 2.8)。一方面方便我们查阅,更重要的是可以使用布尔逻辑运算符对搜索结果进行运算处理,如#25 AND #26。
Figure 2.8 Search History
C:其它搜索技巧
1.利用作者姓名检索可按以下格式:姓加名的第一个字母(johnson d)但不能在其中使用正则化匹配26个字母python
任何标点,后面加[AU],表示在author field进行搜索
2.在关键词后面加“*”以检索所有以给定字符串为首的词组内容。
3.范围检索。序列登录号[ACCN],序列长度[SLEN],分子量[MOLWT]和日期[MDAT]和
[PDAT]。范围运算符是冒号“:”。如3000:4000[SLEN]将检出序列长度介于3000~4000之间的所有记录。
D.保存搜索结果
保存序列,切记用文本文档,不可复制粘贴到word文档,因为会引入特殊字符,用程序分析时会出错。可从NCBI网站直接保存序列,在搜索结果页面,点击序列条目前面的复选框选中要保存的序列,然后点击页面右上方的send 下拉菜单下载序列信息,可同时下载多条序列;也可以进入某条序列页面后,点击页面右上方的send下拉菜单保存这条序列,这里以序列页面为例说明如何保存。
确定了所要查的序列,点击打开序列页面后,默认显示为genbank格式,如果想要以其它序列格式浏览,可以点击页面左上方的“display settings”,从下拉菜单中选择需要的格式,点击”apply” 页面会转换到所需要的格式(Figure 2.10)。
Figure 2.9 display settings 改变序列格式
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论