实验三 数据库搜索—BLAST
1. Nucleotide BLAST
在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn中限制序列搜索范围为272-1420(编码区)。分别用megablast, discontiguous megablast 和 blastn 进行搜索。
这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256, discontiguous megablast的单词单位默认为11,可选为11和12, blastn单词单位默认为11,可选范围为7,11和15。Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻与 query 高度相似的序列; blastn则用于寻与 query 有一定相似度的序列。单词单位越小,敏感度越高,也就是说,Megablast敏感度 最差,discontiguous megablast 居中,blastn 最高。
Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具体见下表:
Methods | Number | Identity(%) | Max score |
Megablast | 1541 | 72-100 | 73.1-2122 |
discontiguous megablast | 6527 | 63-100 | 44.6-2073 |
blastn | 11667 | 63100 | 44.6-2073 |
截取30bp的片段进行blastn搜索,默认参数设置如下图:
搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,提高敏感度,而将 E-value 调大,确保有搜索结果出现。
2. Protein BLAST
2.1第一个例子:
以人的 retinol binding protein 4 (NP_006735)作为 query搜索蛋白库,database选择 RefSeq-protein数据库,organism选择细菌(Bacteria (taxid:2)),Blastp得到549条相似序列。分别用 BLASTP, PSI-BLAST,PHI-BLAST(pattern:NFDX(5)GXW[YF])和 DELTA-BLAST搜索,结果差异见下表。
Methods | Number | Identity(%) | Max score |
blastp | 549 | 22-39 | 35.7-54.1 |
PSI-BLAST | |||
PHI-BLAST | |||
DELTA-BLAST | |||
2.2第二个例子
a 以人的血红蛋白 beta 链(NP_000509)作为 query, 使用默认参数搜索数据库(nr)搜索,共得到1443条序列,max score分值范围50.4-301,identity范围41-100%。
b数据库更换为 RefSeq-Protein,organism设置为plants (taxid:3193),搜索结果为No significant similarity found. For reasons why,click here,表明没有搜索到同源序列。
c 仅将word size调为从6调为2,提高搜索敏感度,搜索到分值在32.3-37.4的56条序列,idetity范围31-38%。仅将评分矩阵从默认的 BLOSUM62 换成 BLOSUM45,搜索到分值在31.8-33.9的9条序列,idetity范围23-37%。从两个参数调整的搜索结果看,word size更好的提高了搜索敏感度。
d若是使用PSI-BLAST,第一轮搜索到51条序列,选择 leghemoglobin构建矩阵,进行第二轮搜索,第二轮搜索到260条序列,且max score明显升高,范围47.4-149,第三轮266条,经7轮搜索,共得到268条序列,分值范,45.5-275,identity范围13-22%。
使用敏感度更高的搜索算法DELTA-BLAST,第一轮得到265条序列,去掉非同源序列,进行第二轮搜索,得到267条,第三轮就得到268条,分值范围44-275,identity范围12-22%。
从四种提高搜索敏感度的方法所得到的结果可以看出,DELTA-BLAST和PSI-BLAST敏感度较高,都搜索到268条序列,而DELTA-BLAST在第一轮搜到几乎所有的同源序列,PSI-BLAST经过6轮迭代搜索,才得到所有序列。减小word size和更换小的BLOSUM矩阵,分别搜索到56和9条序列,与迭代搜索敏感度相差甚远。
2.3分别以MAPK9(NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,搜索核酸和蛋白数据库,数据库分别限定为refseq-rna和refseq-protein,organism分别限定为Bacillus sp. 10405 (taxid:1423)和Bacillus sp. 2479 (taxid:1396)。
以MAPK9(NM_139069.2)为query,搜索到303条序列,主要是分布在Bacillus cereus中。而以其编码的蛋白序列(NP_620708.1)为query,搜索到313条序列,主要是分布在Bacillus cereus中,蛋白序列搜索的敏感性要高于核酸序列搜索的敏感性。
通过调整搜索参数,可以提高搜索的敏感性,当单词单位调为2时,可以搜索到319条序列,也是分布在Bacillus,Bacillus cereus中。当矩阵从默认的 BLOSUM62 换成 BLOSUM45,相似序列也是分布在Bacillus,Bacillus cereus中,但是搜索到序列条数有所下降,仅313条。
使用敏感性更高的方法,PSI-BLAST经过7轮迭代搜索不再出现新序列,共得到573条序列,分别在Bacillus,Bacillus cereus和Bacillus cereus group中,DELTA-BLAST经4轮迭代搜索得到573条序列,分别在Bacillus,Bacillus cereus和Bacillus cereus group中。PSI-BLAST搜索,第一轮会出现假阳性,经过筛选,以后每轮的假阳性会越来越少。而DELTA-BLAST搜索第一轮出现假阳性的几率已经非常小。
2.4 在进行搜索时,发现QuickBLASTP速度确实比blastp 搜索速度快,用QuickBLASTP搜索nr 蛋白质数据库的MAPK9(NP_620708.1)在芽孢杆菌中的相似序列时,结果没有搜索到序列,而blastp搜索到413条序列。说明blastp搜索到搜索到的序列与目标序列的相似性均在50%以下。
3. Translated BLAST
以MAPK9(NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,分别用blastn,blastp,blastx, tblastx和 tblastn 搜索核酸和蛋白数据库,数据库分别限定为refseq-rna和refseq-protein,organism限定为Bacillus coil。搜索参数设置和结果差异见下表。
Methods | Word size | The range of Word size | Number(refseq/Bacillus coil) |
Blastn | 11 | 7,11,15 | 5 |
数据库学什么blastp | 6 | 2,3,6 | 166 |
Blastx | 6 | 2,3,6 | 117 |
tBlastx | 6 | 2,3,6 | 5 |
tBlastn | 3 | 2,3 | 0 |
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论