实验2 序列查询(Entrez)、BLAST序列相似性搜索--688IT编程网

实验二：序列查询(Entrez)、BLAST序列相似性搜索

实验目的：

1.学会用Entrez系统查目标序列

2.学会使用BLAST在数据库中搜索相似序列

3.学会分析数据库搜索结果

实验内容：

一、Entrez

Entrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。用户不仅可以方便地检索Genbank的核酸数据，还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种序列数据集、以及由PubMed获得Medline的文献数据。

网址：bi.v/Entrez/（或在NCBI主页默认All Databases时点击搜索框右边的Search进入）。如Figure 2.1所示：

Figure 2.1 entrez 检索系统子数据库

点击搜索框右边的help按钮，即可进入Entrez帮助页面。

在搜索栏输入你要查的关键词，点击“GO”即可开始搜索。如果输入多个关键词，它们之间默认的是“与”（AND）的关系。

Ｔｉｐｓ：搜索的关键词可以是一个单词，短语，句子，数据库的识别号，基因名字等等，但必须明确，不能是“ｇｅｎｅ”，　“ｐｒｏｔｅｉｎ”等没有明确指向的词语。但“ｔｒａｎｓｃｒｉｐｔｉｏｎ　ｆａｃｔｏｒ”这样有一定范围的词是可以接受的。可以用你感兴趣的领域的专业术语，也可以是非专业术语，比如：ｈ１ｎ１，ｌｕｎｇ　ｃａｎｃｅｒ，ａｌｂｉｎｉｓｍ；　ｓｕｂｔｉｌｉｓｍ，　ｐｅｒｏｘｉｄａｓｅ，　ｍｙｏｇｌｏｂｉｎ。　

输入关键词，点击“GO”之后，每个数据库图标前方出现了数字，代表的是在相对应的数据库里搜索到的条目数。点击进入对应的数据库，可以查看搜索到的条目。如果在数据库图标前面为灰，显示“none”，说明在对应的数据库里没有搜索到任何结果。

也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。点击“search”后面的下拉菜单，选择数据库，在下面的文本框里输入关键词，点击“Search”即可(Figure 2.2)。

Figure 2.2 数据库选项下拉菜单

但是这种简单搜索会产生大量的结果，其中很多信息都不是我们所需要的，NCBI为我们提供了“Limits”、“Advanced Search”等辅助功能，只有充分理解并熟练运用这些工具进行复杂的检索，才能充分发挥Entrez的强大功能，实现精确高效的检索。

A:limits

Limits限制性搜索可以根据该数据库结构，将输入的关键词的查询范围限制在某个范围内，如领域、编号、代码、提交日期等。不同的数据库，其限定内容略有不同。

以Nucleotide数据库为例搜索hemoglobin，点击进入搜索结果页面后（Figure 2.3），在页面上方搜索栏下有“Limits”，“Advanced”选项。

Figure 2.3 search result

点击Limits进入限定页面（Figure 2.4）。可以对序列发布时间或修改时间进行限定，也可以对搜索关键词的领域（search field tags；如果输入的是序列名称，如hemoglobin, trypsin，选择title; 如果输入的是物种的名称，选择organism）进行限定，可以对搜索数据库（source database；一般选择RefSeq, 建议

大家在平时搜索时也使用这个选项。）进行限定，还可以对分子类型（molecule）、序列位置（gene location）和排除的数据类型（STSs, working draft, TPA, patent）等进行限定（Figure 2.4）。

Figure 2.4 Limits page

限定完毕，点击“Search“，则出现根据限定条件得到的搜索结果（Figure 2.5），同时页面上显示“Limits Activated”。如果要改变限定内容，可以点“change”修改，如果不需要限定，

点击“remove”可取消限定。

Figure 2.5 Limits search result

注意：查询序列时，我们常常将搜索限定在RefSeq数据库，因为它的数据是非冗余的。

The Reference Sequence (RefSeq) database is a non-redundant collection of richly annotated DNA, RNA, and protein sequences from diverse taxa. The collection includes sequences from plasmids, organelles, viruses, archaea, bacteria, and eukaryotes. Each RefSeq represents a single, naturally occurring molecule from one organism. The goal is to provide a comprehensive, standard dataset that represents sequence information for a

species.

B: Advanced

若点击搜索栏下面的advanced，就会进入Entrez的高级搜索界面(Figure 2.6)。

Figure 2.6 advanced page

“Builder”下方前部的下拉菜单提供了按字母顺序排列的检索领域（field）列表，允许用户直接选定特定的范围进行检索，选好field，在后面的文本框里输入关键词。如果不确定关键词应该如何拼写，可以先写出自己确定的部分，然后点击“show index list”，则所有相关的类似关键词出现在下面的列表中，可以从中选择你需要的关键词。（Figure 2.7）

Figure 2.7 Show Index list

例如：想要搜索人的血红蛋白序列，则可以首先选择搜索领域－title，在后面的文本框中输入关键词hemoglobin，此时这个关键词及其领域限定信息出现在上面的搜索框里。然后再选择第二个搜索领域为organism, 在后面的文本框中输入关键词human，此时第二个关键词即其领域限定信息也出现在搜索框里，默认两个关键词是和（AND）关系。点击search进行搜索，就得到数据库中所有人血红蛋白序列。（此时要取消掉前面的Limits那步做的field 限定，只限定数据库为refseq即可）

页面下方有History区域，这里保留了最近的搜索记录，点击搜索结果前面的标号（#数字）时，下拉菜单内容依次是布尔逻辑运算符和、或、非、删除本条记录、显示搜索结果、显示具体搜索条件、保存到

我的NCBI帐户（需注册）(Figure 2.8)。一方面方便我们查阅，更重要的是可以使用布尔逻辑运算符对搜索结果进行运算处理，如#25 AND #26。

Figure 2.8 Search History

C：其它搜索技巧

1.利用作者姓名检索可按以下格式：姓加名的第一个字母（johnson d）但不能在其中使用正则化匹配26个字母python

任何标点，后面加［AU］，表示在author field进行搜索

2.在关键词后面加“*”以检索所有以给定字符串为首的词组内容。

3.范围检索。序列登录号[ACCN]，序列长度[SLEN]，分子量[MOLWT]和日期[MDAT]和

[PDAT]。范围运算符是冒号“：”。如3000：4000[SLEN]将检出序列长度介于3000～4000之间的所有记录。

D．保存搜索结果

保存序列，切记用文本文档，不可复制粘贴到word文档，因为会引入特殊字符，用程序分析时会出错。可从NCBI网站直接保存序列，在搜索结果页面，点击序列条目前面的复选框选中要保存的序列，然后点击页面右上方的send 下拉菜单下载序列信息，可同时下载多条序列；也可以进入某条序列页面后，点击页面右上方的send下拉菜单保存这条序列，这里以序列页面为例说明如何保存。

确定了所要查的序列，点击打开序列页面后，默认显示为genbank格式，如果想要以其它序列格式浏览，可以点击页面左上方的“display settings”，从下拉菜单中选择需要的格式，点击”apply” 页面会转换到所需要的格式（Figure 2.10）。

Figure 2.9 display settings 改变序列格式

688IT编程网

实验2 序列查询(Entrez)、BLAST序列相似性搜索

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

实验2 序列查询(Entrez)、BLAST序列相似性搜索

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式