生物信息学实验三数据库搜索-BLAST--688IT编程网

实验三数据库搜索—BLAST

1. Nucleotide BLAST

在Nucleotide中输入登录号搜索人类MAPK9（NM_139069.2）基因，send to 为coding sequences，作为Query 序列，或者下载complete sequences，在Blastn中限制序列搜索范围为272-1420（编码区）。分别用megablast, discontiguous megablast 和 blastn 进行搜索。

这三个搜索的参数不同之处，主要体现在单词单位，megablast的单词单位默认为28，可选范围从16-256， discontiguous megablast的单词单位默认为11，可选为11和12， blastn单词单位默认为11，可选范围为7,11和15。Megablast 可以快速搜索到与query 高度相似的序列；discontiguous megablast用于寻与 query 高度相似的序列; blastn则用于寻与 query 有一定相似度的序列。单词单位越小，敏感度越高，也就是说，Megablast敏感度最差，discontiguous megablast 居中，blastn 最高。

Megablast的搜索速度最快，discontiguous megablast居中，blastn最差。三个搜索所搜索到的相似序列的数量，相似性范围和分值范围都有很大差异，具体见下表：

Methods	Number	Identity（%）	Max score
Megablast	1541	72-100	73.1-2122
discontiguous megablast	6527	63-100	44.6-2073
blastn	11667	63100	44.6-2073

截取30bp的片段进行blastn搜索，默认参数设置如下图：

搜索后，实际参数如下图，主要对word size, expect value进行了调整，这是因为我们了选中automatically adjust parameters for short input sequences，在所搜索的片段长度比较小时，数据库中随机情况下到高度相似甚至相同的局部比对（HSPs）的可能性非常高，系统自动将 word size 调小，提高敏感度，而将 E-value 调大，确保有搜索结果出现。

2. Protein BLAST

2.1第一个例子：

以人的 retinol binding protein 4 (NP_006735)作为 query搜索蛋白库，database选择 RefSeq-protein数据库，organism选择细菌（Bacteria (taxid:2)），Blastp得到549条相似序列。分别用 BLASTP, PSI-BLAST，PHI-BLAST（pattern:NFDX(5)GXW[YF]）和 DELTA-BLAST搜索，结果差异见下表。

Methods	Number	Identity（%）	Max score
blastp	549	22-39	35.7-54.1
PSI-BLAST
PHI-BLAST
DELTA-BLAST

2．2第二个例子

a 以人的血红蛋白 beta 链(NP_000509)作为 query, 使用默认参数搜索数据库（nr）搜索，共得到1443条序列，max score分值范围50.4-301，identity范围41-100%。

b数据库更换为 RefSeq-Protein，organism设置为plants (taxid:3193)，搜索结果为No significant similarity found. For reasons why,click here，表明没有搜索到同源序列。

c 仅将word size调为从6调为2，提高搜索敏感度，搜索到分值在32.3-37.4的56条序列，idetity范围31-38%。仅将评分矩阵从默认的 BLOSUM62 换成 BLOSUM45，搜索到分值在31.8-33.9的9条序列，idetity范围23-37%。从两个参数调整的搜索结果看，word size更好的提高了搜索敏感度。

d若是使用PSI-BLAST，第一轮搜索到51条序列，选择 leghemoglobin构建矩阵，进行第二轮搜索，第二轮搜索到260条序列，且max score明显升高，范围47.4-149，第三轮266条，经7轮搜索，共得到268条序列，分值范,45.5-275，identity范围13-22%。

使用敏感度更高的搜索算法DELTA-BLAST，第一轮得到265条序列，去掉非同源序列，进行第二轮搜索，得到267条，第三轮就得到268条，分值范围44-275，identity范围12-22%。

从四种提高搜索敏感度的方法所得到的结果可以看出，DELTA-BLAST和PSI-BLAST敏感度较高，都搜索到268条序列，而DELTA-BLAST在第一轮搜到几乎所有的同源序列，PSI-BLAST经过6轮迭代搜索，才得到所有序列。减小word size和更换小的BLOSUM矩阵，分别搜索到56和9条序列，与迭代搜索敏感度相差甚远。

2.3分别以MAPK9（NM_139069.2）及其编码的蛋白序列（NP_620708.1）为query，搜索核酸和蛋白数据库，数据库分别限定为refseq-rna和refseq-protein，organism分别限定为Bacillus sp. 10405 (taxid:1423)和Bacillus sp. 2479 (taxid:1396)。

以MAPK9（NM_139069.2）为query，搜索到303条序列，主要是分布在Bacillus cereus中。而以其编码的蛋白序列（NP_620708.1）为query，搜索到313条序列，主要是分布在Bacillus cereus中，蛋白序列搜索的敏感性要高于核酸序列搜索的敏感性。

通过调整搜索参数，可以提高搜索的敏感性，当单词单位调为2时，可以搜索到319条序列，也是分布在Bacillus，Bacillus cereus中。当矩阵从默认的 BLOSUM62 换成 BLOSUM45，相似序列也是分布在Bacillus，Bacillus cereus中，但是搜索到序列条数有所下降，仅313条。

使用敏感性更高的方法，PSI-BLAST经过7轮迭代搜索不再出现新序列，共得到573条序列，分别在Bacillus，Bacillus cereus和Bacillus cereus group中，DELTA-BLAST经4轮迭代搜索得到573条序列，分别在Bacillus，Bacillus cereus和Bacillus cereus group中。PSI-BLAST搜索，第一轮会出现假阳性，经过筛选，以后每轮的假阳性会越来越少。而DELTA-BLAST搜索第一轮出现假阳性的几率已经非常小。

2.4 在进行搜索时，发现QuickBLASTP速度确实比blastp 搜索速度快，用QuickBLASTP搜索nr 蛋白质数据库的MAPK9（NP_620708.1）在芽孢杆菌中的相似序列时，结果没有搜索到序列，而blastp搜索到413条序列。说明blastp搜索到搜索到的序列与目标序列的相似性均在50%以下。

3. Translated BLAST

以MAPK9（NM_139069.2）及其编码的蛋白序列（NP_620708.1）为query，分别用blastn，blastp，blastx, tblastx和 tblastn 搜索核酸和蛋白数据库，数据库分别限定为refseq-rna和refseq-protein，organism限定为Bacillus coil。搜索参数设置和结果差异见下表。

Methods	Word size	The range of Word size	Number（refseq/Bacillus coil）
Blastn	11	7,11,15	5
数据库学什么blastp	6	2,3,6	166
Blastx	6	2,3,6	117
tBlastx	6	2,3,6	5
tBlastn	3	2,3	0

688IT编程网

生物信息学实验三数据库搜索-BLAST

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

生物信息学 实验三 数据库搜索-BLAST

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

生物信息学实验三数据库搜索-BLAST

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式