1-序列数据的编辑与比对
DAN barcoding引物序列
COBU:5'-TYTCAACAAAYCAY AAR gATATTgg-3'
COBL:5'-TAAACTTCWggRTgWCCAAARAA TCA-3'
(COBL反向互补序列:5'-TGATTYTTTGG WCAYCCWGAAGTTTA-3')
* 该引物序列对应的片段长度为658bp
* 注意:保存分子系统学分析数据的所有文件夹都要用英文命名,因为许多分析软件都无法识别汉字。
测序峰图的浏览
安装staden-windows-1-7-0.msi后左键双击“*.abl”测序文件可直接查看测序峰图,初步判断测序效果。
序列数据的编辑:
1. 从GenBank中下载的序列的编辑
从GenBank中下载的序列通常包含有许多说明序列特征的信息,而这些信息在序列比对及分析时不仅毫无用处而且还会影响软件对序列的识别,所以必须对这些序列进行编辑,删除多余信息,仅保留序列号及序列(的来源物种)名称、序列及其前面的>(”>”是FASTA文件的标志符号);若序列名称用来源物种的学名表示,则属名和种名之间不能留空格,要用下划线”_”连接,若种名之后还要加其他符号以便区分同一物种的不同克隆或不同个体来源的序列,也不能留空格,可直接将标志符号加在种名之后或用下划线”_”连接。若序列为从核基因组中扩增出来的线粒体功能基因的假基因,应在序列标示符中用“Ps”或其他标识符号标明。
例如:
>gi|20749966|gb|AY042337.1| Alpinacris crassicauda AC28 cytochrome oxidase subunit I (COI) gene, partial cds; mitochondrial gene for mitochondrial product
TACCAGGATTTGGTATTA TTTCACA TA TTGTA TGTCAAGAAAGTGGAAAAATTGAATCA字符串长度比较
TTTGGAACA TT AGGAATAATTTATGCTATATTA TCAATTGGACTAATAGGATTTA TTGTA TGAGCACATCATATATTTACAGT AGGAATGGA TGTTGATACACGAGCATATTTTACATCAGCAACAA TAATTATTGCTGTACCAACAGGAAT TAAGGTTTTCAGATGACTAGCAACATTA TA TGGAACAAAA TTCAAGTTTAACCCCCCA TTATTATGAGC TCTTGGTTTTATTTTNTTATTNACAA TTGGGGGATTAACTGGATTAGTATTAGCAAACTCA TCNCTTGA T ATTGANCTTCATGANACTTACTATGTTGTTGCCCACTTCCATTATGTATTATCTATAGGAGCGGTA TTTGC AA TTATAGGAGGNATTA TTCAA TGA TACCCNTTA TTTACCGGNTTAACTA TAAACAATCCNTGATTAAAA ATTCAATTCNCAATTATA TTTA TTGGAGTAAACTTAACTTTCTTNCCCC
编辑之后的形式为:
> AY042337_Alpinacris_crassicauda1
TACCAGGATTTGGTATTA TTTCACA TA TTGTA TGTCAAGAAAGTGGAAAAATTGAATCA TTTGGAACATT AGGAATAATTTATGCTATATTA TCAATTGGACTAATAGGATTTA TTGTA T
GAGCACATCATATATTTACAGT AGGAATGGA TGTTGATACACGAGCATATTTTACATCAGCAACAATAATTATTGCTGTACCAACAGGAAT TAAGGTTTTCAGATGACTAGCAACATTA TA TGGAACAAAA TTCAAGTTTAACCCCCCATTATTATGAGC TCTTGGTTTTATTTTNTTATTNACAA TTGGGGGATTAACTGGATTAGTATTAGCAAACTCA TCNCTTGA T ATTGANCTTCATGANACTTACTATGTTGTTGCCCACTTCCATTATGTATTATCTATAGGAGCGGTA TTTGC AA TTATAGGAGGNATTATTCAA TGA TACCCNTTATTTACCGGNTTAACTATAAACAATCCNTGA TTAAAA ATTCAATTCNCAATTATA TTTA TTGGAGTAAACTTAACTTTCTTNCCCC
* 假基因序列编辑后的形式为:增加“Ps”标识以便选择使用序列时正确识别区分,假基因序列一般不可用于系统发育分析,但可用于学生练习判别假基因的方法。
>EU589072_Ps_Locusta_migratoria ATGAATAAACAATATAAGATTTTGACTGTTACCACCATCAGTAACATACCTACTACTGTCCTCCATAGTA GATAATGGAACTGGTACAGGATGAACAGTATCTCCCCCACTAGCTAGAGTCATTGCACACAGAGGAGCTT
CTGTAGATTTAGCAATTTTCTCATTACATCTAGCAGGTGTTTCTTCCATTTCAGGAGCAATTAATTTCAT TATAACAGCAATTAATATACGATCAAATAATATCTCTTGATCAAACACCATTATTTGTTTGATCAGTAGC AATTACAGCTTTATTACTACAATTGTCATTACCAGTATTAGCTGGAGCAATTACTATATTATTAACTGAT CGAAACCTTAATACGTCATTCTTCGACCCGGCAGGAGGAGGTGACCCAATTTTATATCAACACTTATTTT
GATTCTTTGGTCACCCA
2. 自测序列的编辑
自己测序的序列在用于分析时也要先作同样的编辑,然后才能输入Clustalx软件,否则不能被识别,无法输入序列。
序列拼接
* 为了保证测序结果的准确性,单基因短片段(700pd左右)测序一般应采用双向测序,然后将双向测序的结果拼接在一起,从而获得一致性序列。线粒体基因组测序和DNA长片段测序一般是通过分段测序来完成的,最后也需要将测出的短片段拼接成一条完整的序列。序列拼接可以在不同的软件中进行。
一、使用“组装批处理文件byLHM.pg4”进行拼接
1. 在预定的位置建立一个文件夹“gap”,将需要使用的3个软件“组装批处理文件byLHM.pg4”、
“Vector_primer4pMD18-T.vec_pri”、“pMD18-T_Vector.seq”拷贝到该文件夹下,再将需要拼接的测序文件拷贝到该文件夹下。
2. 双击运行“组装批处理文件byLHM.pg4”程序。
3. 在程序运行后出现的界面右侧点击“Add files”按钮,打开要拼接的序列文件。为了保证拼接后输出的
是正向序列,最好先添加上游引物序列,然后添加下游引物序列,因为在一般情况下软件将添加的第一条序列默认为正向参照序列;有时由于测序效果等因素的影响,有时即使首先添加的是上游引物序列,但拼接后仍然会以测序效果明显更好的下游引物序列为正向参照序列,此时需要按照后面介绍的方法将上游引物序列转换为正向参照序列再输出一致性序列。
4. 点击界面上方第二行的“Configure Modules”,在弹出的窗口左边的任务栏中点击“[x] Sequencing vector
Clip”,再点击右边的“Browse”按钮,通过弹出的窗口打开“Vector_primer4pMD18-T.vec_pri”程序;
点击左边任务栏中的“[] Cloning V ector Clip”,再点击右边的“Browse”按钮,通过弹出的窗口打开“pMD18-T_Vector.seq”程序;点击左下角的“Run”按钮,即开始数据处理,处理结果将自动保存到“gap”文件夹中。
5. 在“gap”文件夹中双击“aux”文件,将鼠标移到弹出的“Contig Selector”窗口中的直线
上,点击右键,选择“Edit Contig”,即弹出“Contig Editor”窗口,点击最右边的“setting”按钮,在下拉菜单中选择“By background colour”,即可显示比对结果的有差异碱基;双击某一序列,即可显示该序列的测序峰图,以检查核对该位点碱基的测序情况。
* 注:执行此操作时一定要检查正向序列是否为上游引物序列;如果不是,则需要将上游引
物序列转换成正向序列后再执行下面的“输出及保存序列”操作;具体的操作步骤是:点击“GAPv4.10 AssMit_tmp.o”
窗口中的“Edit”菜单,在下拉菜单中选择“Complement a contig”命令,在弹出来的“Complement contig”
小窗口中检查确认“Contig identifier”框中的序列为上游引物序列,然后点击“OK”即将完成序列转换。
6. 点击“GAPv4.10 AssMit_tmp.o”窗口中的“File”菜单,在下拉菜单中选择“Save consensus”可保存
一致序列,文件名要用“*.txt”形式,以便保存的文件成为文本文件,若忘记在文件名后加“.txt”,则保存完毕后可将文件的扩展名改成“.txt”;只有拼接好的一致序列才可用于后面的序列分析。
* 注:若在后面的序列比对和手工校正过程中发现某一条序列为反向互补序列,可用两种方法进行转换:(1)重新拼接序列,用上面介绍的方法将上游引物序列转换成正向参照序列
后再输出一致性序列;(2)在DNAStar软件的EditSeq中直接转换,具体操作步骤是:①运行DNASar中的EditSe q,②将需要转换的序列复制粘贴到EditSeq中,③按Ctrl+A命令全选序列[或点击“Edit→Select All Ctrl+A”],
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论