实验三 数据库搜索—BLAST
1. Nucleotide BLAST
Nucleotide中输入登录号搜索人类MAPK9NM_139069.2)基因,send to coding sequences,作为Query 序列,或者下载complete sequences,在Blastn中限制序列搜索范围为272-1420(编码区)。分别用megablast, discontiguous megablast blastn 进行搜索。
这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256 discontiguous megablast的单词单位默认为11,可选为1112 blastn单词单位默认为11,可选范围为7,1115Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻与 query 高度相似的序列; blastn则用于寻与 query 有一定相似度的序列。单词单位越小,敏感度越高,也就是说,Megablast敏感度 最差,discontiguous megablast 居中,blastn 最高。
Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具体见下表:
Methods
Number
Identity%
Max score
Megablast
1541
72-100
73.1-2122
discontiguous megablast
6527
63-100
44.6-2073
blastn
11667
63100
44.6-2073
截取30bp的片段进行blastn搜索,默认参数设置如下图:
搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,提高敏感度,而将 E-value 调大,确保有搜索结果出现。
2. Protein BLAST
2.1第一个例子:
以人的 retinol binding protein 4 (NP_006735)作为 query搜索蛋白库,database选择 RefSeq-protein数据库,organism选择细菌(Bacteria (taxid:2)),Blastp得到549条相似序列。分别用 BLASTP, PSI-BLASTPHI-BLASTpattern:NFDX(5)GXW[YF])和 DELTA-BLAST搜索,结果差异见下表。
Methods
Number
Identity%
Max score
blastp
549
22-39
35.7-54.1
PSI-BLAST
PHI-BLAST
DELTA-BLAST
22第二个例子
a 以人的血红蛋白 beta (NP_000509)作为 query, 使用默认参数搜索数据库(nr)搜索,共得到1443条序列,max score分值范围50.4-301identity范围41-100%
b数据库更换为 RefSeq-Proteinorganism设置为plants  (taxid:3193),搜索结果为No significant similarity found. For reasons why,click here,表明没有搜索到同源序列。
c 仅将word size调为从6调为2,提高搜索敏感度,搜索到分值在32.3-37.456条序列,idetity范围31-38%。仅将评分矩阵从默认的 BLOSUM62 换成 BLOSUM45,搜索到分值在31.8-33.99条序列,idetity范围23-37%。从两个参数调整的搜索结果看,word size更好的提高了搜索敏感度。
d若是使用PSI-BLAST,第一轮搜索到51条序列,选择 leghemoglobin构建矩阵,进行第二轮搜索,第二轮搜索到260条序列,且max score明显升高,范围47.4-149,第三轮266条,经7轮搜索,共得到268条序列,分值范,45.5-275identity范围13-22%
使用敏感度更高的搜索算法DELTA-BLAST,第一轮得到265条序列,去掉非同源序列,进行第二轮搜索,得到267条,第三轮就得到268条,分值范围44-275identity范围12-22%
从四种提高搜索敏感度的方法所得到的结果可以看出,DELTA-BLASTPSI-BLAST敏感度较高,都搜索到268条序列,而DELTA-BLAST在第一轮搜到几乎所有的同源序列,PSI-BLAST经过6轮迭代搜索,才得到所有序列。减小word size和更换小的BLOSUM矩阵,分别搜索到569条序列,与迭代搜索敏感度相差甚远。
2.3分别以MAPK9NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,搜索核酸和蛋白数据库,数据库分别限定为refseq-rnarefseq-proteinorganism分别限定为Bacillus sp. 10405 (taxid:1423)Bacillus sp. 2479 (taxid:1396)
MAPK9NM_139069.2)为query,搜索到303条序列,主要是分布在Bacillus cereus中。而以其编码的蛋白序列(NP_620708.1)为query,搜索到313条序列,主要是分布在Bacillus cereus中,蛋白序列搜索的敏感性要高于核酸序列搜索的敏感性。
通过调整搜索参数,可以提高搜索的敏感性,当单词单位调为2时,可以搜索到319条序列,也是分布在BacillusBacillus cereus中。当矩阵从默认的 BLOSUM62 换成 BLOSUM45,相似序列也是分布在BacillusBacillus cereus中,但是搜索到序列条数有所下降,仅313条。
使用敏感性更高的方法,PSI-BLAST经过7轮迭代搜索不再出现新序列,共得到573条序列,分别在BacillusBacillus cereusBacillus cereus group中,DELTA-BLAST4轮迭代搜索得到573条序列,分别在BacillusBacillus cereusBacillus cereus group中。PSI-BLAST搜索,第一轮会出现假阳性,经过筛选,以后每轮的假阳性会越来越少。而DELTA-BLAST搜索第一轮出现假阳性的几率已经非常小。
2.4 在进行搜索时,发现QuickBLASTP速度确实比blastp 搜索速度快,用QuickBLASTP搜索nr 蛋白质数据库的MAPK9NP_620708.1)在芽孢杆菌中的相似序列时,结果没有搜索到序列,而blastp搜索到413条序列。说明blastp搜索到搜索到的序列与目标序列的相似性均在50%以下。
3. Translated BLAST
MAPK9NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,分别用blastnblastpblastx, tblastx tblastn 搜索核酸和蛋白数据库,数据库分别限定为refseq-rnarefseq-proteinorganism限定为Bacillus coil。搜索参数设置和结果差异见下表。
Methods
Word size
The range of Word size
Numberrefseq/Bacillus coil
Blastn
11
7,11,15
5
数据库学什么blastp
6
2,3,6
166
Blastx
6
2,3,6
117
tBlastx
6
2,3,6
5
tBlastn
3
2,3
0

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。