四种常用的生物序列比对软件比较
陈凤珍;李玲;操利超;严志祥
【摘 要】With the rapid development of high⁃throughput sequencing technology, Next⁃generation sequencing technology has rapidly developed into a mainstream technology in the biological field. Alignment is the key step in understanding the sequence data and also it is the cornerstone for bioinformatics analysis. And thus gave birth to a lot of alignment tools. In this paper, four common biological sequence alignment tools Bowtie2, BWA, MAQ and SOAP2 were selected to evaluate and compare using the whole genome sequencing data of HPV. And a comparison of four tools from many perspectives such as algorithm and suitable sequencing platforms was given. Hopefully the research can provide theoretical and practical basis for researchers to select the best biological sequence alignment tools.%随着高通量测序技术的快速发展,下一代测序技术也迅速发展为生物领域中的主流技术,而理解下一代测序数据最重要的一步是比对。比对是进行后续生物信息分析的基石,也因此催生了很多比对软件。本文主要选取了四种常用的比对软件Bowtie2、BWA、MAQ和SOAP2,对这四种
软件及算法进行综述,并通过实际测序数据对四种软件进行比较和评估,为生物学研究者选择最佳的短序列比对软件提供理论和实践依据。
【期刊名称】《生物信息学》
【年(卷),期】2016(014)001
【总页数】5页(P56-60)
【关键词】下一代高通量测序;比对软件;生物信息
【作 者】陈凤珍;李玲;操利超;严志祥
【作者单位】深圳华大基因研究院,深圳518083;深圳华大基因研究院,深圳518083;深圳华大基因研究院,深圳518083;深圳华大基因研究院,深圳518083
【正文语种】中 文
【中图分类】Q-31
随着新一代测序(Next-generation sequencing,NGS)的蓬勃发展,核酸测序成本已大大降低,高通量测序方法已被广泛应用到DNA测序[1]、RNA测序[2]、表观遗传测序[3-4]等研究。然而,无论使用何种生物测序技术和研究方法,理解这些数据的最重要的一步是序列比对分析。序列比对是将已有基因组序列作为参考基因序列(Reference),将短序列与参考基因序列进行序列比对, 并在参考基因序列上进行精确定位。通过序列比对可以发现生物序列中的功能、结构和进化的信息。目前已有上百种序列比对工具,面对如此多的比对工具,很多生物信息分析人员通常自由的选择比对工具,而没有考虑到比对工具的特点,准确性等。然而,不同的比对软件,对同一个数据集都有可能得出大相径庭的结果[5];同一算法设置不同的参数,其结果也相差很巨大。如果选择了一个不合适的工具,将导致结果偏差甚至是错误,可能得到错误的研究结论。因而选择合适的比对工具,对于生物研究而言显得特别重要。
在Nuno A. Fonseca等人[6]的对60多种比对软件比较统计分析中,发现Bowtie2[7]、BWA[8]、MAQ[9]和SOAP2[10]被引用的次数相对其他几十种软件较多,其中Bowtie2引用率(Citations/Years)为363.42,BWA为224.20,MAQ为251.66,而SOAP2为99.38,SOAP2的前版本SOAP为104.41。因而在本研究中,主要选取了这四种常见的比对工具进行评估比较。
根据比较结果分析,Bowtie2、BWA和SOAP2处理高通量短序列数据比对问题时,计算速度快,内存使用量低,具有高效的实用性;在同等条件下,MAQ的运行速度较慢。 Bowtie2、BWA的比对率相比于SOAP2和MAQ高。BWA软件与Bowtie2软件比对的重复率较高,MAQ较低。
2.1 四种比对软件介绍
Bowtie2是一个超高速的,节约内存且灵活与成熟的短序列比对软件,比较适合下一代测序技术。通常使用全文分索引(FM-index)以及Burrows-Wheeler 变换(BWT)索引基因组使得比对非常快速且内存高效,但是这种方法不适合于到较长的、带缺口的序列比对。
BWA主要应用二代测序后的大量短小片段与参考基因组之间的定位比对。需要先对参考序列建建立索引,BWA也是基于 BWT和 FM-Index 理论来对参考基因组做索引。根据测序方法的不同,有单末端序列(Single-end,SE)比对和双末端序列(Pair-end,PE)比对。
MAQ是使用质量分数推导序列和比对序列的一致性的短序列比对工具,并且MAQ充分利用配对信息,估计每个比对read的错误的概率,同时也使用贝叶斯统计模型来评估最后的基因型错误概率。
SOAP2是短寡核苷酸比对程序(Short Oligonucleotide Alignment Program)的一个显著改进版本,它减少了计算机内存使用,并极大地提高了比对速度。SOAP2使用一个Burrows Wheeler Transformation(BWT)压缩索引替代种子策略在主存储器中索引参考序列。SOAP2适合于单末端片段和双末端片段。此外,该工具也支持多种文本和压缩文件格式。
2.2 四种比对软件算法
对于成千上万条的短序列的比对分析,目前,大多数算法是通过建立索引来加快比对的速度。常用的数据结构有哈希表法和基于BWT (Burrows-wheeler transform) 的后缀树两种。
哈希表法的算法核心思想是采用种子序列定位及延伸算法(Seed-and-extend algorithm)[11],通过扫描参考基因组序列,对参考基因组序列建立哈希表,将序列分成一定长度的小片段,这种小片段也被称之为种子。然后,在目标序列中查和种子序列相同的片段并标记,以这些标记点为锚点向左右按一定规律延伸比对,将不合条件的舍弃,符合条件的结果将输出保存。采用基于哈希表数据结构的比对算法的软件包括MAQ。
后缀树法是一种n叉树,n为字母表大小。每个节点表示从根节点到此节点所经过的所有字符
组成的字符串,它的根结点不包含任何信息,是一种以牺牲存储空间来降低序列查询时间的字符串预处理方式。为了提高空间利用率,Ferragina 和Manzini 提出了FM (Full-text minute-space)-index 算法,FM是一种基于BWT (Burrows-wheeler transform)的全文本压缩索引结构, BWT算法是通过统计基因组序列中各个碱基出现次数,将相同碱基尽量排列在一起,压缩基因组序列的索引数据结构,将基因组序列的索引数据结构重排列,实现短序列在基因组中候选位点的快速搜索,减少内存占用率。例如人类基因组约3GB,若不使用FM-index将要用12GB内存存储,超过了计算机内存使用限度,而如果使用FM-index, 每隔数行建立一个索引,人类基因组占用的内存可缩小到约1.3GB,这样普通的计算机就可以进行分析。采用BWT转换的软件有Bowtie2和SOAP2,BWA。
虽然Bowtie2、SOAP2和BWA都采用了BWT算法,然而三种软件还有差别。其中Bowtie2采用Ferragina 和Manzini 提出的FM (Full-text minute-space)-index算法,为基因组序列创建具有后缀矩阵特性的 FM 索引数据结构,实现短序列的快速搜索;SOAP2则采用的是 BWT 算法压缩基因组序列哈希表索引数据结构进行精确匹配,采用“分割短序列策略”(Split-read strategy)进行不精确匹配,比对速度显著提高且内存使用量显著地降低。最后,BWA 软件是采用 BWT 算法压缩来构建基因组序列前缀树(Prefix tree)数据结构,通过对压缩数据结构自
顶向下遍历进行反向搜索,其比对计算过程中内存覆盖区域相对较小,计算时间并不随基因组的大小而变化。
基于哈希表法和基于BWT的后缀数法数据结构的算法都有利于提高比对效率,区别在于哈希表法占用的内存空间大,产生的种子匹配多,然而哈希表法具有较高的匹配敏感性和准确性。有利于发现SNPs和突变。可用于局部匹配或从大量数据中搜索匹配点以及跨物种序列间的比对。而后缀树法可以有效减少不精确匹配,并可避免比对过程中做无用功,这个特点适用于相同物种之间相似性高的序列比对和寻保守区。
2.3 四种比对软件比较
选择合适的软件要根据软件适用的数据类型,适宜测序平台,数据格式,适宜的reads长度等进行全面考虑,做出选择。表1中对四种比对软件分析的序列类型,可用于分析的测序平台,输入和输出数据格式,最小和最大reads长度及软件是否开源进行了详细的分析和比较。从表中可以看出在适宜测序平台方面,SOAP2就受到限制,只适用于Illumina平台,BWA适用的平台最广。在适宜的reads长度方面,BWA、MAQ适用的范围较窄。最后,根据软件的输入输出格式,MAQ的适用范围更广。
3.1 实验数据
本文截取了Illumina平台测序的129126328条HPV全基因组测序数据。表2中记录了HPV全基因组测序数据情况及截取的实验数据情况。
3.2 软件运行环境
32G内存,16核处理器,linux操作系统服务器。
字符串截取工具3.3 结果评估
四种软件的比对率和时间消耗如表3。从表3可以看出BWA和Bowtie2的比对率较高,而SOAP2的时间更高效,MAQ相对来说较慢。
从四种软件比对的reads重复数两两比较可以看出,Bowtie2和BWA比对上的reads重复数较高,Maq和其他三种软件比对上的reads重复数较低,如图1。将四种软件同时比较时,发现BWA比对软件和其他三种软件不重复的reads数最少,只有62 134条,Bowtie2和其他三种软件不重复的reads数最多,为466 792条,如图2。
从实验结果看出Bowtie2和BWA的比对率相比于SOAP2和MAQ高。BWA软件与Bowtie2软件比对的重复率较高,MAQ较低,可能与选取的实验数据相关,本实验选取的是高覆盖度的HPV全基因组测序数据,BWA比对工具比较适合全基因组测序数据的比对分析。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。