如何进⾏多基因组⽐对共线性分析
如何进⾏多基因组⽐对和共线性分析
pf20200919
1、⽐对基因组
⼀个基因组⽐对的简单⽤户图形界⾯是Mauve。双击启动软件后,只需从“File”菜单中选择“Align…”或“Align with progressiveMauve…”。
然后Mauve 就提供⼀个⽐对的对话框:
下⾯部分的描述是对话框中各个输⼊参数的设置。
1.1使⽤⽐对对话框
1.1.1序列⽂件的输⼊格式
基因组序列⽂件可以以任何FastA、Multi-FastA、GenBank flat⽂件或原始格式提供给Mauve。Mauve根据⽂件扩展名推导出⽂件格式。默认情况下,任何⽆法识别的⽂件扩展名都假定为(Multi-)FastA格式。Mauve能识别的扩展名是.gbk (GenBank 格式)和.raw(原始序列数据)。请注意,⼀些⾮常⽼版本的Mauve(直到20040219)也假定.txt⽂件是原始⽂件格式。你研究的⽣物体基因组的FastA和GenBank格式⽂件通常可以从NCBI下载
ftp://www.doczj/doc/602eedbc777f5acfa1c7aa00b52acfc788eb9f7a.html /genomes/。.fna⽂件为FastA格式,.gbk ⽂件为GenBank格式。对于质粒的基因组,可能需要下载多个.fna或.gbk⽂件并组合为单个⽂件(例如运⾏代码:cat *.gbk > my_genome.gbk)。
当单个⽂件包含多个序列时,它们将被连接起来,然后整个连接起来的序列将与其他⽂件中的序列进⾏⽐对。这种⾏为允许多个染⾊体基因组通过被列在单个序列⽂件中的所有染⾊体进⾏⽐对。类似地,由⼏个序列contigs组成的不完整基因组也可以被⽐对,但要注意,在Mauve结果显⽰中,排序不正确的contigs将被认为是基因组的重排。
或者,可以指定⼀个包含所有要⽐对的基因组的单⼀多fasta⽂件。在这种情况下,Mauve 假设多快序列条⽬组成⼀个基因组,并将在基因组间相互⽐对。
1.1.2选择要⽐对的基因组
顶部的⼊⼝区域列出了将要⽐对的基因组序列⽂件。要添加序列⽂件,点击“Add
sequence…”按钮并选择要添加的⽂件。Windows版本的Mauve⽀持拖拽⽂件到该区域,允许通过点击⿏标拖放序列⽂件来添加。
1.1.3设置输出结果⽂件的位置
可以使⽤“File output:”⽂本输⼊字段设置Mauve输出⽐对结果的位置。如果留空,Mauve 将提⽰选择输出⽂件的位置。
1.1.4设置⾃定义⽐对参数
在原始的Mauve(mauveAligner)和渐进Mauve(Progressive Mauve)这2种算法之间的⽐对参数是不同的,将在后⾯的部分中详细讨论。
1.1.5计算⽐对
⼀旦基因组序列被载⼊,点击“Align…”按钮就开始⽐对了。将弹出⼀个控制台对话框,显⽰⽐对的进度。
1.1.6取消运⾏⽐对
weight的所有形式
在2.1.0版本中,可以通过返回“Align sequence…”对话框并点击“Cancel alignment”按钮来取消正在运⾏的⽐对。此外,退出Mauve程序也会使得运⾏中的⽐对终⽌。如果所有这些都失败了,可以使⽤Windows任务管理器、Mac OS X进程检查器或unix中的“kill”命令来终⽌正在运⾏的⽐对(mauveAligner或progressiveMauve)。
2、渐进的基因组⽐对参数
默认情况下,Mauve选择了⼀组⽐对参数,这些参数适合于⽐对具有中到⾼数量的基因组重排事件的亲缘关系接近基因组。但是,有些时候需要(⽽且应该!)调整⼀些⽐对参数来改变Mauve的⾏为。例如,最⼩LCB权重的默认值经常太低,应该⼿动选择⼀个恰当的值替换。当⽐对时,
2.1progressiveMauve参数描述:
匹配种⼦重量Match seed weight
与mauveAligner⼀样,在第⼀次锚定⽐对时,种⼦⼤⼩参数设置为种⼦模式的最⼩权重⽤于⽣成局部多重⽐对(匹配)。当在⽐对差异基因组或同时⽐对更多的基因组时,较低的种⼦权重可能提供更好的灵敏度。然⽽,因为Mauve还要求匹配的种⼦必须在每个基因组中是唯⼀的,所以将这个值设置得太低会降低灵敏度。
默认的种⼦权重(重量)Default seed weight
设置此选项将允许Mauve选择⼀个初始匹配种⼦权重,该权重适宜于被⽐对的序列长度。1MB基因组的默认种⼦⼤⼩通常是11个左右,5MB基因组的默认种⼦⼤⼩是15左右,种⼦⼤⼩随着⽐对基因组的⼤⼩⽽增加。默认值可能是相对保守的(太⼤),特别是当⽐对有更多差异性的基因组时。另⼀⽅⾯,较⾼的种⼦权重减少了噪声匹配,在某些情况下可以产⽣更好的⽐对结果。
使⽤种⼦家族Use seed families
设置这个选项会导致progressiveMauve使⽤三种间隔的种⼦模式来搜索匹配项,⽽不是只使⽤⼀个。使⽤三种种⼦模式可以极⼤地提⾼对不同基因组的敏感性,并允许使⽤较⾼的种⼦权重对亲缘关系密切相
关的⽣物体进⾏分析⽽不失去其分析的灵敏度。在⼤多数情况下,使⽤种⼦家族仅需要多出少量的额外计算时间。
确定LCBs Determine LCBs
如果禁⽤此选项,Mauve将简单地识别基因组之间的匹配(局部多重⽐对)。在命令⾏界⾯⼀章中可以看到匹配⽣成的描述。
假设为共线性基因组Assume collinear genomes
如果确定要⽐对的基因组之间没有重排,则选择此选项。在⽐对共线基因组时使⽤这个选项可以加快progressiveMauve的运⾏时间。
完全⽐对和迭代细化Full alignment and Iterative Refinement
选择“Full alignment”选项导致Progressive Mauve对基因组序列施⽤MUSCLE执⾏递归的锚搜索和⼀个完全的空位⽐对。如果没有选择,Progressive Mauve将识别⽐对锚,将它们聚类成LCBs中以完成⽐对。“Iterative Refinement”选项应⽤MUSCLE来优化初始⽐对,通常会改进初始⽐对。当MUSCLE执⾏独⽴树的细化迭代时,应该使⽤这个选项来避免使⽤单⼀的引导树导致有偏见的系统发育关系推断。
Sum-of-pairs LCB得分Sum-of-pairs LCB scoring
此选项选择是否在所有对现存序列中应⽤断点罚分,或者是否将罚分应⽤于推断的祖先基因排序上。由于Progressive Mauve 不能准确推断祖先的基因顺序,即使它能,它也不能推断祖先的基因组含量,因此这个选项应该被认为是“实验性的”,只能在⽐对共线性基因组时禁⽤。
原始Mauve(mauveAligner)⽐对参数
默认情况下,Mauve选择了⼀组⽐对参数,这些参数适合于对具有中等到⾼数量级基因组重排事件的亲缘关系密切相关基因组
进⾏⽐对。但是,可以(⽽且应该!)调整⼀些⽐对参数来改变Mauve的⾏为。例如,最⼩LCB权重的默认值经常太低,应该⼿动选择适合的值替换。当⽐对有更多差异性的基因组时,可以减少种⼦的⼤⼩,以到更多的⽐对锚,并在基因组上实现更⼤的⽐对覆盖率。另⼀种选择是禁⽤完整的⽐对过程,允许Mauve快速⽣成基因组组织的⽐较图。
下⾯的部分描述对话框中的各个输⼊字段。
mauveAligner参数描述:
匹配种⼦重量Match seed weight
在第⼀次锚定⽐对时,种⼦⼤⼩参数设置为种⼦模式的最⼩权重⽤于⽣成局部多重⽐对(匹配)。当在⽐
对差异基因组或同时⽐对更多的基因组时,较低的种⼦权重可能提供更好的灵敏度。然⽽,因为Mauve还要求匹配的种⼦必须在每个基因组中是唯⼀的,所以将这个值设置得太低会降低灵敏度。
默认的种⼦权重(重量)Default seed weight
设置此选项将允许Mauve选择⼀个初始匹配种⼦权重,该权重适宜于被⽐对的序列长度。1MB基因组的默认种⼦⼤⼩通常是11个左右,5MB基因组的默认种⼦⼤⼩是15左右,种⼦⼤⼩随着⽐对基因组的⼤⼩⽽增加。默认值可能是相对保守的(太⼤),特别是当⽐对有更多差异性的基因组时。另⼀⽅⾯,较⾼的种⼦权重减少了噪声匹配,在某些情况下可以产⽣更好的⽐对结果。
最⼩LCB重量Min LCB Weight
LCB权重设置为共线性区域中确定的匹配核苷酸的最⼩数⽬,使该区域被认为是真正的同源性⽽不是随机的相似性。Mauve使⽤⼀种叫做多余断点消除(greedy breakpoint elimination)的算法来计算⼀组具有给定最⼩权值的局部共线性区域(LCBs)。默认情况下,LCB 的重量是种⼦⼤⼩的3倍。但是,默认值通常过低,应该⼿动设置该值。确定最⼩LCB权重值的合理值,通常涉及到构造与默认值的初始⽐对,然后使⽤MauveGUI中的LCB权重滑块(请参阅下⼀节)来到消除所有错误重排的权重。然后可以使⽤⼿动确定的权重值重新排列序列。
确定LCBs Determine LCBs
如果禁⽤此选项,Mauve将简单地识别基因组之间的匹配(局部多重⽐对)。在命令⾏界⾯⼀章中可以看到匹配⽣成的描述。
扩展LCBs Extend LCBs
控制mauveAligner是否将尝试扩展现有LCBs的范围并搜索其他LCBs。对于⼀些数据集,LCB扩展可能是⾮常耗时的,并且可能不会在⽐对⽅⾯提供很⼤的改善。
假设为共线性基因组Assume collinear genomes
如果确定要⽐对的基因组之间没有重排,则选择此选项。在⽐对共线基因组时使⽤这个选项可以提⾼⽐对的准确度。
⽐对Aligner
设置mauveAligner是使⽤MUSCLE还是ClustalW来计算定位锚点之间的全局⽐对。肌⾁是⾸选,因为它更快,更准确。
孤岛和主链⼤⼩Island and Backbone sizes
孤岛是指⼀个基因组的序列区域,它有⼀个或多个其他基因组缺少的序列。此参数设置了⽐对空位⼤⼩,⽤于计算孤岛和主链⽚段。有关更多信息,请参阅下⾯的.islands 和.backbone的描述。
完全⽐对Full alignment
选择“完全⽐对”选项会导致Mauve执⾏递归锚搜索,并使⽤ClustalW或MUSCLE渐进⽐对⽅法对基因组序列进⾏全空位⽐对。如果未被选中,Mauve将标识LCBs,但不会执⾏递归锚搜索或渐进⽐对。
3、得到的⽐对结果如何解读?
3.1显⽰布局
根据输⼊的基因组序列排列显⽰成⼀个⽔平的“⾯板”上。每个基因组的⾯板包含基因组序列的名称,显⽰基因组序列坐标的刻度,以及⼀条⿊⾊的⽔平中⼼线。彩⾊区域块出现在中⼼线的上⽅或下⽅。每⼀个区域块都是⼀个区域,能与另⼀个基因组的⼀部分对齐⽐对上,并且可能是同源的,并且在基因组内部不受重排的影响。当⼀个区块位于中⼼线之上时,被对齐的区域相对于第⼀个基因组序列是正向对齐的。中⼼线以下的块,则表⽰是以反向互补对齐的区域。区块外的区域表⽰输⼊基因组之间缺乏同源性。在每个区块中,Mauve绘制了基因组序列的相似性轮廓图。相似剖⾯的⾼度对应于该基因组序列区域的平均保守⽔平。完全⽩⾊的区域表⽰没有⽐对上,可能包含了该基因组的特有序列。相似剖⾯的⾼度被计算为与⼀个⽐对区域的平均对齐列熵成反⽐。
图1(上图)显⽰了⼤肠杆菌K12 MG1655、S. flexneri 2a 301和S. flexneri 2457T的⽐对结果。请注意,在S. flexneri中反向互补区域是如何被清楚地描绘成基因组中⼼线以下的区块。这三个基因组下载⾃NCBI FTP站点,并使⽤Progressive Mauve默认参数,如前⼀节
所述。
在图1中,第⼀个基因组中的有⾊区域⽤直线连接到第⼆个和第三个基因组中相似的有⾊区域。这些线表⽰每个基因组中哪些区域是同源的。注意线交叉成“X”模式,它碰巧发⽣在这些⽣物体中预测的复制起点和终点的附近。当以复杂的重排⽅式来检视基因组时,LCB的连接线可能会令⼈困惑,它们可以通过输⼊Shift+L(同时按下Shift和L)或使⽤“视图”菜单来隐藏(或再次可见)。
在标准的配⾊⽅案中,彩⾊块所覆盖的序列区域在基因组之间是完全共线性和同源的。彩⾊块的边界通常表⽰基因组重排的断点,除⾮序列在断点区域被获得或丢失。
3.2主⾊调⽅案
当⽤Progressive Mauve计算出⼀种⽐对时,可以使⽤⼀种显⽰模式,即在所有基因组中保守区域的颜⾊与在基因组⼦集中保守的区域的颜⾊不同。我们把所有基因组中的保守区域称为“主⼲”,⽤淡紫⾊表⽰出来。应⽤颜⾊模式⽐对三⼤肠杆菌和志贺

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。