应用昆虫学报Chinese Journal of Applied Entomology 2013,
50(1):298-304.DOI :10.7679/j.issn.2095-1353.2013.040线粒体基因组数据的分析方法和软件
*
李雪娟杨婧王俊红任倩俐李霞黄原*
(陕西师范大学生命科学学院
西安710062)
批处理文件注释
摘要线粒体基因组的研究已经普及,其正确的拼接和注释是所有后续研究的基础。本文以Staden Package 软
件为主介绍了拼接和注释的线粒体基因组的方法,同时介绍了其他常用的拼接软件ContigExpress 、DNAMAN 、DNASTAR、BioEdit 和Sequencher ,以及利用不同软件(包括DOGMA 、MOSAS 、MIT
OS 、GOBASE 、OGRe 、MitoZoa 、tRNAscan-SE 、ARWEN 、BLAST 和MiTFi 等)对线粒体基因组中的蛋白质编码基因、rRNA 、tRNA 和A +T 富集区进行注释的方法,最后介绍了利用MEGA5软件分析线粒体基因组的组成、Sequin 软件提交序列和线粒体基因组数据绘图工具(CG view 、MTviz 和OGDRAW )。关键词
线粒体基因组,拼接,注释
Methods and software tools for mitochondrial genome
assembly and annotation
LI Xue-Juan
YANG Jing
WANG Jun-Hong
REN Qian-Li
LI Xia
HUANG Yuan *
(School of Life Sciences ,Shaanxi Normal University ,Xi ’an 710062,China )
Abstract With the increasing popularity of mitochondrial genome studies ,the correct assembly and annotation of
genomes are the basis of all subsequent research into a species.Here we describe the protocols using Staden Package software to assemble and annotate the mitochondrial genome ,along with other commonly used software ,such as ContigExpress ,DNAMAN ,DNASTAR,BioEdit and Sequencher.In addition ,methods for the use of different software packages (including DOGMA 、MOSAS 、MITOS 、GOBASE 、OGRe 、MitoZoa 、tRNAscan-SE 、ARWEN 、BLAST and MiTFi )to annotate mitochondrial genomic protein-coding genes ,rRNA ,tRNA and the A +T region are briefly introduced.Finally ,application of MEGA5software to analyze the composition of mitochondrial genomes ,Sequin software to submit sequences to GenBank ,and mitochondrial genome data visualization tools (CG view 、MTviz and OGDRAW )are also briefly introduced.Key words
mitochondrial genome ,assembly ,annotation
*资助项目:国家自然科学基金(31172076,30970346)。**通讯作者,
E-mail :yuanh@snnu.edu.cn 收稿日期:2012-12-21,接受日期:2012-
12-261引言
线粒体基因组数据广泛应用于系统与进化生
物学、
体遗传学和保护生物学等许多生物学研究领域。随着测序技术的快速发展和测序费用的下降,
大量的线粒体基因组序列被很快测出,拼接和注释这些线粒体基因组是所有下游系统分析的先决条件。本文综述了目前可以利用的线粒体基因组拼接、注释、提交和绘图方法和软件。
线粒体基因组分析工具基本上可以分为本地
和在线服务器二种,许多软件都是只能完成分析
流程中的部分工作。Staden Package (Bonfield et al.,1995)是可以安装在本地计算机上进行拼接和注释的测序项目管理软件包,主要由Pregap4、Trev 、Gap4和Spin 等模块组成,可以进行序列拼接、突变检测、序列注释和对序列峰图及读序文件
进行操作等。其中,Pregap4是Gap4的前处理,可以处理原始的峰图文件,对序列进行载体和污染
检查,同时也可以进行Gap4组装。经Pregap4处理所得到的结果,可以通过Gap4来进行查看和编
1期李雪娟等:线粒体基因组数据的分析方法和软件·299·
辑。组装后的序列以*.seq格式输出用于在Spin 中线粒体序列的注释。本文主要以该软件为主介绍对线粒体基因组序列进行拼接和注释的方法,同时介绍了线粒体基因组常用的其他拼接软件ContigExpress、DNAMAN、DNASTAR、BioEdit和Sequencher,以及利用不同软件对线粒体基因组中的蛋白质编码基因、rRNA、tRNA和A+T富集区进行注释的方法,最后介绍了序列提交软件Sequin和线粒体基因组数据绘图工具。
2线粒体基因组序列的拼接
序列拼接是将测序生成的短读序片段通过重叠部分连接形成较长的片段,这样的较长片段称为叠连(contig)。DNA测序数据的固有特点(测序有误差、不完全覆盖性、序列所在链不确定)重复序列
的干扰是解决实际序列拼接问题的难点所在。
采用传统Sanger法测定线粒体基因组通常需要至少28对以上的引物的双向测序反应,如果引物重叠区加长的话甚至需要更多对引物,这样双向测序可以获得比较高的覆盖度和准确性。传统测序的拼接软件主要有ContigExpress、DNAMAN、DNASTAR、BioEdit、Sequencher和Staden Package 等。新一代测序技术中得到的读序片段长度短、数量巨大、覆盖度高,针对高通量测序开发了大量拼接软件(如SOAPdenovo)等。
测序获得的序列首先进行同源性搜索确定其为线粒体序列,删除测序效果不好的测序文件,准备拼接。ContigExpress作为Vector NTI的组件之一,是一款非常实用的序列拼接软件。它将每个测序片段视为一个叠连,当输入多个叠连后,软件会自动寻其中的公共序列,然后以图形方式呈现出拼接结果。DNASTAR软件包的SeqMan II可进行多序列拼接,最多支持64000条序列的同时拼接,而且在拼接时可以修整质量差的序列并清除污染数据,还提供完善的编辑和输出功能。Sequencher是序列拼接的行业标准软件,它以快速拼接叠连、用户友好型的编辑工具以及精湛的技术支持等特点而众所周知。
Staden Package软件拼接的具体流程为:
(1)打开Pregap4,将全部测序片断(测序源文件为*.abi格式)加载到Pregap4中。
(2)设置参数,在Configure Modules模块中选择各种参数,修改参数时,只需选择相应的选项,再据提示设置一定的参数,生成批处理文件*.0.aux。
(3)查看,在Gap4中打开文件*.0.aux,文件菜单含数据库打开和拷贝功能及保守序列文件产生的例行程序。一旦一个数据库被载入Gap4,将以图形方式显示出Contig Selector。当进行叠连的比较分析时,Contig Selector自动转变为Contig Comparator,在这个对话框中选择所需的组装片段,依次察看相应叠连的峰图,对峰图进行编辑。
(4)序列拼接结束后,还要对序列两头进行连接,看是否可以组成一个环状的DNA序列。全线粒体基因组序列拼接时,序列会在覆盖度最小的位置断开,因此拼接时输出的一致性序列的第1个碱基不是全线粒体基因组序列的第1个碱基。因为完整的线粒体基因组是一个环形结构,而断裂处的两条片断在连接时有一部分是重叠的,所以在输出的一致性全序列中,最前面和最后面一定数量的碱基是重复的,需要删除。注释线粒体基因组时确定起始碱基的过程称为调零,昆虫线粒体基因组以tRNA-Ile的第一个碱基设置为1,在此位置之前的序列需要拼接在3'末端。序列拼接完成后,要将输出的一致性序列输入到ClustalX 等软件中计算序列长度,并记录下来。
(5)修改拼接版本。通常情况下拼接不是一次就能够完成的,在以后的序列注释过程中会发现一些错误,需要返回来仔细查看测序峰图,修改读序,或补充测序,重新拼接,产生一个新的拼接版本,直至所有注释顺利完成,才可以确定最终的拼接结果。
3线粒体基因组序列的注释
线粒体基因组注释是确定已知的在绝大多数动物中存在的13个蛋白质编码基因、22个tRNA 基因、2个rRNA基因和1个D-loop区的位置和序列,在有些物种中也存在个别tRNA基因和D-loop 区的重复。线粒体基因组注释的标准源是NCBI 的参考序列数据库(RefSeq),该数据库中基因组序列和注释结果是经过专家核对过的,可以为各种动物线粒体基因组的注释提供了很好的参考。注释方法是通过与其近缘物种的线粒体基因组比较和分析来定位蛋白编码基因、tRNA基因、rRNA
·300·应用昆虫学报Chinese Journal of Applied Entomology50卷
基因和D-loop区。进行注释时需要建一个序列注释记录文件,记录每一次翻译过程(包括序列起始位置、碱基长度、蛋白质序列的起始密码子、tRNA 的反密码子以及其起始位置、基因位于N或J 链),以便后续的提交序列、核对及查。
线粒体基因组注释的工具很多,包括在线注释的网络服务器和本地计算机安装的注释软件。DOGMA(http://dogma.ccbb.utexas.edu/)、MOSAS(http://mosas.byu.edu)和MITOS(http:// mitos.bioinf.uni-leipzig.de/)是近年来开发的3个线粒体基因组注释网络服务器。GOBASE(O’Brien et al.,2009)试图改善现有的基因组注释,但仅仅集中于NCBI条目中;OGRe(Jameson et al.,2003)只存储NCBI的基因组注释和基因次序信息,并纳入了一些手动改善了的
注释。MitoZoa (Lupi et al.,2010)使用一系列规则(如tRNAscan-SE、ARWEN和BLAST)和专业知识,实现了系统的半自动化错误检查。此外,Jex等(2010)开发了一种线粒体基因组的高通量测序、拼接和注释通道,通过内建的自动注释通道进行注释,注释序列数据被输入到Sequin程序中进行线粒体基因组结构的最终核实,且随后直接提交到GenBank。
DOGMA是一个基于Web的自动化注释细胞器基因组(叶绿体和线粒体)的软件包,并提供了一个图形化的用户界面用于查看和编辑注释结果。用户可以在DOGMA中输入FASTA格式的线粒体基因组完整核苷酸序列。该程序允许使用BLAST搜索自定义数据库以及动物线粒体tRNAs 二级结构中保守性的碱基配对,从而识别和注释基因。最终的注释结果可以提取,并直接提交到GenBank。DOGMA在BLAST输出中构建了一系列基因,用图表为用户显示了基因列表。当一个基因被选中时,该基因核苷酸和氨基酸序列的详细视图和BLAST点击框位置会显示出来。由于使用与其他基因组中基因序列相似性的方法来定位假定的基因,所以,用户必须自己选择起始和终止密码子。每个tRNA和rRNA的起始和终止位置也必须验证。注释完成时,结果可能被恢复成Sequin格式,用于直接提交到GenBank中。对于进一步的分析而言,DOGMA还允许用户提取基因组的子序列(包括间隔区,内含子,蛋白质编码基因的氨基酸序列等)。
MITOS是后生动物线粒体基因组自动注释工具,该方法是基于蛋白质编码基因和非编码RNAs 自动一致的重新注释(Bernt et al.,2012)。MITOS 允许系统误差筛选、基因名称和基因边界划定的标准
化以及tRNA的反密码子标签,此外,MITOS 可提供框架来对基因定位的有效性进行评估。对于各种后续分析而言,MITOS还可进行如基因组重排研究和系统发育分析等,并对现有数据的重新注释以及De novo注释有助于改进数据。
METAMiGA(Feij o et al.,2006),正式命名为AMiGA,也可用于后生动物线粒体基因组的注释,且是一个更新速度较快的实用平台。
在这些注释工具中,DOGMA、MOSAS和MITOS使用BLASTX对内部数据集进行搜索来确定蛋白质编码基因,后两者也采用BLAST来检测rRNA基因。来自于各种各样后生动物的数据库序列被用于DOGMA和MITOS搜索中;而MOSAS 目前仅限于昆虫。DOGMA和MOSAS使用tRNAscan-SE用于tRNA基因的鉴定,而MITOS使用MiTFi进行tRNA注释。MITOS通道尝试来改善基因边界自动地预测。这3种工具都提供了图形和表格输出,它们允许输出Sequin格式的注释文件,以便将新的线粒体基因组提交到GenBank 中。
利用Standen Package的注释工具Spin进行线粒体基因组注释的步骤详细介绍如下。
3.1蛋白质编码基因的注释
蛋白质编码基因的注释内容主要包括13个基因起始与终止位点、起始密码子与终止密码子、编码链(
N或J链)以及基因长度等方面。可供使用的软件有BLAST、CLUSTALX、SPIN、ORFFinder 以及DOGMA等。
使用Standen Package中SPIN程序注释蛋白质编码基因的具体操作步骤为:
(1)下载一条最相近物种的有详细注释信息的线粒体基因组全序列作为注释的参考序列。打开Staden中的spin,在file主菜单中设置参考基因组和待注释基因组的所在路径。
(2)通过file菜单加载参考基因组和待注释基因组文件。
(3)设置坐标:在主菜单中sequence子菜单Horizonal(参考基因组)和Vertical(待注释基因组)中设置X轴和Y轴的两个序列。
1期李雪娟等:线粒体基因组数据的分析方法和软件·301·
(4)调零:在主菜单Comparison的子菜单Local sequences中进行参考基因组和待注释基因组全局比对。以tRNA-Ile的第一个碱基设置为1,前面序列后移。
(5)在主菜单中Translation子菜单Set genetic code中设置遗传密码,如是无脊椎动物,则选择Invertebrate mitochondrial。
(6)根据该基因在参考序列中对应的起始和终止位点确定其在待注释序列中的可能起始和终止位点。选择主菜单中Translation子菜单Find open reading frames的下拉菜单Write protein as fasta file,将核苷酸序列翻译成氨基酸序列。若终止位点与比对时预测的可能终止位点一致或基本一致(实际终止位点与预测的终止位点相差不大,仅提前向前移动了少数几个位点,且测序效果很好),则该基因注释完成,将该基因的起始、终止位点及翻译所得的蛋白质序列等信息复制保存到注释模板中的相应表格中。若终止位点与比对时预测的可能终止位点很不一致(实际终止位点与预测的终止位点相差很大),则需对终止位点前后的碱基进行检查核对,看是否因测序误差产生了移码突变;若发现有测序效果不好的碱基,则需进行必要的手工校正,并将校正后的序列重新翻译,直到能够顺利翻译为止,手工校正后的序列文件要另外保存,给予一个新的版本编号,以防手工校正不成功而破坏前面已经完成的注释工作。若序列能够顺利翻译,但末尾不是标准的终止密码子,则需将翻译位点向后移动一段,看能否到终止密码子;若仍不到终止密码子,则需将翻译所得的氨基酸序列与参考物种的氨基酸序列比对,比对结果可分为两大类:①如果序列末尾是T或TA 且比对结果很好,则认为该基因的终止密码子是不完整的终止密码子,基因注释完成,②如果序列末尾不是T或TA、或比对结果很不好,则需要在SPIN中到对应的位点进行检查与核对,再根据检查结果在拼接图中到对应的位点,查看这些位点的测序结果并进行手工校正。如果在Spin比对后到相似序列,但是在翻译过程中开放阅读框出现序列提早终止,搜索相似序列时有发现有2个或多个序列都可以到相似程度较高,那么需要查测序峰图,检查峰图效果好坏,有时需重新测序以矫正所测峰图。
(7)验证编码区及完整性,将注释获得的蛋白质序列在NCBI中的Blast进行相似性检索,查看是否到相应蛋白质的相似序列。
DOGMA也可用于注释蛋白质编码基因,这是基于数据库中与其他基因组相似序列的保守性。每个基因都在氨基酸序列数据库中使用BLASTX 对其6个阅读框进行核苷酸序列校对,各种BLAST参数(如E值)可由用户自行设置。DOGMA确定了蛋白质编码基因后,用户可为每个基因选择起始和终止密码子。对于含有内含子的基因而言,DOGMA会基于BLAST hit的边界来确定内含子边界,而后由用户进行验证。
3.2rRNA基因的注释
rRNA基因的注释内容主要包括2个rRNA基因位置、长度及二级结构验证等。可供使用的软件有BLAST、CLUSTALX、DOGMA和Infernal等。
利用Standen package中的SPIN程序注释rRNA基因的流程为:在Comparison主菜单的Align sequences子菜单中,与参考序列注释文件相比较,到大致位置,还要考虑前后的基因终止和起始位置,最好是在画出其二级结构后,再确定RNA长度。
对于已注释好的RNA基因,可使用不同的方法检测该基因序列是否可信。例如,①根据比对结果,查
看有大量空格插入的位置(包括参考序列插入空格的位置)的测序峰图,若测序效果好,则初步认为序列可信,否则考虑进一步检测或进行手工校正。②将该基因序列输入到NCBI中,用Blast命令进行比对,检查其同源性,由于一部分的rRNA基因是高度变异的,故BLAST参数(如间隔罚分或相同度)是需要不断优化的,若与近缘物种的相同基因的同源性很高,则认为该基因序列可信,注释完成。③用rRNA二级结构预测软件对其二级结构进行预测,若二级结构中的主要区域完整,则认为该基因序列可信,注释完成。
rRNA二级结构通过RNA Structure以及与近缘物种的线体粒体rRNA比对进行预测。Vienna RNA Package(Hofacker et al.,1994)可预测和比较RNA二级结构,通过能量最小化来预测RNA二级结构。
3.3tRNA基因
线粒体基因组tRNA基因注释内容主要包括基因位置、数量、长度、二级结构与变异、反密码
·302·应用昆虫学报Chinese Journal of Applied Entomology50卷
子、分布链(N或J链)及二级结构验证等。线粒体基因组通常编码22种tRNA基因,除丝氨酸和亮氨酸各有2种tRNA以外,其他氨基酸均只有一种相应的tRNA。线粒体基因组tRNA基因的2个最大特点
是:其位置多发生重排,而确定tRNA基因种类的主要依据是反密码子类型,所以tRNA的注释的核心是通过二级结构确定反密码子类型;缺乏典型三叶草结构的奇异二级结构的tRNA序列很难采用软件检测到,在计算分析和线粒体基因组注释中经常会被错过,需要通过手动注释。
线粒体基因组tRNA基因注释可供使用的软件有tRNAscan-SE、CLUSTALX、ARWEN和MiTFi 等。
tRNAscan-SE(Lowe and Eddy,1997)是应用最广泛的tRNA基因注释工具,其特点是假阳性率很低,很好的结合了tRNAscan和EufindtRNA2种算法的灵敏度,可以识别出绝大多数真实的tRNA。使用tRNAscan-SE注释tRNA基因的步骤是:(1)将已经调零的fasta格式的待注释序列输入到tRNAscan-SE服务器中(http://lowelab.ucsc.edu/tRNAscan-SE/)。
(2)设置以下选项:
检索模式(search mode)选项设置一般采用默认(Default)。检索模式决定使用哪种概率模型进行搜索,每个模型都是基于从不同分类学类中得到的tRNA序列训练的。不同的模型在灵敏度和速度上有所差别,在大多数情况下,默认的搜索模式速度快而且十分敏感。
来源(Source)选项设置为“Mito/Chloroplast”;
格式(Format)选项使用默认项“Raw Sequence”或其他中的FASTA
搜索结果可根据需要选择“Show results in this browser”或“Receive results by e-mail instead”;
“Genetic Code for tRNA Isotype Prediction”选项根据待注释序列的物种所属的生物类选用(昆虫选择“Invertebrate Mito”)。
“Cove score cutoff”值默认为20,具有典型三叶草结构的tRNA的值通常在20以上,默认报告18以上的,初学用户使用默认参数,熟练用户可以采用13可以获得23个左右的tRNA。
其他参数都采用默认设置。
(3)点击“run tRNAscan-SE”,预测结果会显示在页面上,用户可以查看tRNA基因的位置及二级结构等方面的信息。
(4)将运行结果复制并保存到注释文档中备查。点击每一个tRNA搜索结果下方的“View tRNA”按钮,打开该tRNA的二级结构图,将鼠标移至该图上,点击右键,使用“图片另存为(S)”选项保存图片(*.gif文件),图片文件名可使用“[搜索结果顺序号]-[起始位点]-[终止位点]-tRNA-[tRNA名称]”的格式,以便识别。
tRNA注释过程中需注意的事项包括:①在默认的“Cove score cutoff”情况下,tRNAscan-SE搜索的结果在20个左右。tRNA Cys和tRNA Ser基因中的一个通常搜索不到,需要通过与近缘物种的比对进行
手工寻并绘制二级结构图;②搜索结果中显示出来的tRNA序列都是提交序列,所以在寻与核对反链编码的tRNA基因序列中的反密码子时,要看对应位点的反向互补序列,绘制tRNA二级结构图时要将该段序列转换成反向互补序列再绘图。③在注释过程中如果对序列进行了手工插入或删除碱基的校正,那么要将校正后的序列输入到tRNAscan中重新搜索,以便纠正后面的tRNA基因的起始和终止位点。
MiTFi可以通过调用Infernal(Nawrocki et al.,2009)来搜索含有所有22个tRNA的目标线粒体基因组,然后,采用步进式程序来评估和总结搜索结果,输出的是一个综合性的tRNA基因注释。由于线粒体遗传密码的可变性,且对应的反密码子和同功受体种类是含糊不清的,故MiTFi允许用户从NCBI遗传密码页面指定编码,或允许用户提供改进的编码。此外,MiTFi提供了多种输出选项以方便对结果进行手动检查。对于动物线粒体基因组tRNA注释而言,MiTFi在敏感性和准确率方面有了大幅的改善。
ARWEN(Laslett and Canb ck,2008)和tRNAscan-SE中均使用了相同的模型。然而,与tRNAscan-SE相比,ARWEN首先只识别最保守的结构域和反密码子茎,随后评估可能的D-茎和T-茎结构以及搜索受体臂。ARWEN在其敏感性增加的同时,也增加了错误率。
3.4D-loop或A+T富集区的注释
线粒体D-loop或A+T富集区的注释内容主要包括序列长度变化、保守基序和重复序列等,可供使用的
软件有CLUSTALX和SPIN等。可根据

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。