Mothur 命令手册-Mothur命令中文解释(一)
Mothur命令教程
从这个页面/wiki/Category:Commands
上查阅的所有命令,根据个人理解翻译了一下。个人能力有限,会有不当之处。
A-G (查看时请用Ctrl+F快捷键)
Align.check
这个命令使你计算16S rRNA基因序列中潜在的错配碱基对数目。如果你对ARB(www.arb-home.de/)的编辑窗口熟悉的话,这与计算~,#,-和=这些符号的数目相同。用greengenes的二级结构图谱和esophagus dataset运行这个命令。要运行这个命令,你必须提供FASTA格式的序列文件。
Align.seqs
这个命令把用户提供的FASTA格式的候选序列文件对齐到用户提供的同样格式的模板序列。通用的方法是:
1.采用kmer searching (sourceforge/apps/mediawiki/kmer/index.php?title=Main_Page),blastn或suffix tree searching到每个候选序列的最接近模板
2.在候选序列文件和空位模板序列之间进行碱基配对,采用Needleman-Wunsch,Gotoh,或者blastn算法规则。
3.重新在候选和模板序列对之间插入间隔(空位),采用NAST算法,这样候选序列就能与原始模板序列兼容。
我们提供了一些16S和18S基因序列的数据库,这些是与greengenes和SILVA队列兼容的。然而,自定义的任何DNA序列的排列都可以用作模板,所以鼓励用户分享他们的排列供其他人使用。普遍来说,进行排列是很快的-我们能在3小时内将超过186000个的全长序列排序到SILVA排列中,而且质量像SINA aligner做的一样好。另外,这个速率可以由多个处理器加倍。
Amova
分子方差分析(Analysis of molecular variance)是一种传统方差分析的非参数模拟。这种方法被广泛应用在种遗传学以检测关于两个种的遗传多样性不是显著不同于由这两个种的共同联合导致的多样性这样一个假设。
Anosim
参考文献:Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 落结构变化的非参数多元分析《澳大利亚生态学报》
Bin.seqs
这个命令输出一个fasta格式的文件,其中序列根据它们所属的OTU进行排序。这样的输出也许对一个OTU生成特异性引物有帮助,用来对序列进行分类。Catchall
这个命令使mothur与Linda Woodard,Sean Connolly和John Bunge开发的catchall 程序连接。获取更多信息,请参看heastern.edu/catchall/index.html。catchall的可执行程序必须与你的mothur在同一个文件夹里。如果你是一个Mac或Linux用户,你必须也安装了mono,在catchall的网页中有一个关于mono的链接。Chimera.bellerophon
采用Bellerophon方法生成一个挑选的优先嵌合序列的得分列表。
采用Ccode方法。对每个词语,在查询序列和参考序列之间对比距离的差异,以及参考序列与它们自己。
Chimera.check
采用chimeraCheck方法...注意:从RDP模型中,这个方法不能决定一个序列是否是嵌合的,但是让你决定那些基于产生的IS值的序列。
查看查询的序列的左边到它的最近的匹配的距离+查询的右边到它最近的匹配的距离-整个查询序列到它最近的匹配的距离,通过多个窗口
Chimera.perseus
这个命令读取并命名一个fasta文件,输出潜在的嵌合序列。
Chimera.pintail
采用Pintall 方法。在不同的窗口中查询一个序列,查看期望的差异与观察到的差异之间的不同
Chimera.seqs
这个命令已经被拆分为6个分离的命令。
目前,mothur执行六种方法以确定一个序列是不是嵌合的。如果有一个你喜欢看到的算法可以实施,请考虑一下或者贡献给mothur项目,或者联系开发者,我们将会考虑我们能做什么。
chimera.bellerophon
chimera.pintail
chimera.check
chimera.slayer
chimera.uchime
Chimera.slayer
这个命令读取一个fasta文件和参照文件,并输出潜在的嵌合序列。原始算法的开发者建议采用一个特殊的模版参照(例如,gold)。我们用silva参照文件提供silva-based 排列的数据库。你将需要在blast/
bin文件夹中有megablast和formatdb可执行文件的拷贝,这里blast文件夹与mothur可执行程序相邻。megablast/formatdb的版本可以在这里
ftp://bi.v/blast/executables/release/2.2.25/到,或者它们就包含在mothur的程序版本中。
Chimera.uchime
这个命令读取一个fasta文件和参考文件,并输出潜在的嵌合序列。原始的uchime 程序是由Robert C. Edgar编写的,并且贡献为公共所有。
drive5/uchime/
Chop.seqs
这个命令读取一个fasta文件,输出一个.chop.fasta,包含着修剪的整理的序列。它可以用于排序的和未排序的序列。
这个命令用来为一个OTU得到一个共有序列分类.
Classify.seqs
这个命令允许用户使用多个不同的方法把他们的序列分配到他们选择的分类提纲(轮廓)中。当前的方法包括采用一个k-nearest邻近共有序列和Bayesian方法。分
类提纲和参考序列可以在
taxonomy outline(/wiki/Taxonomy_outline)的页面中获得。这个命令需要你提供一个fasta格式的输入文件和数据库序列文件,还要有一个为了参考序列的分类文件。
<
这个命令用来为一个进化树的每个节点获得一个共有序列。
<
这个命令从内存中删除保存的参考数据,你可以在已经用以下命令(align.seqs, de, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用过保存参数之后使用
Clearcut
这个让mothur用户在mothur内部运行clearcut程序。chearcut程序是由Idaho大学的Initiative for Bioinformatics和Evolutionary Studies(IBEST)编写。了解更多clearcut 相关信息,参看bioinformatics.hungry/clearcut/。注意,在版本1.13.0中,clearcut源码已经加进mothur,所以你不再需要clearcut的可执行程序。当然,如果你愿意,你仍可以从这里下载clearcut的可执行文件/wiki/Download_Clearcut
Cluster
一旦一个距离矩阵读进mothur,cluster命令就能用来给OTUs分派序列。目前,mothur采用三个分簇方式。
最近邻:从OTU的最相似序列,一个OTU内的每一个序列都最多x%的距离
最远邻:一个OTU内的所有序列与OTU内的所有其它序列最多有X%的距离
平均邻近:这个方法介于另外两个算法的中间水平
如果您有一个算法,请考虑一下贡献给mothur项目。
Cluster.classic
这个命令可用于把序列分配到OTUs.它是cluster的dotur工具,目前mothur采用三个分簇方式。
Cluster.fragments
这个命令需要一个fasta格式的文件,也要提供
一个命名的文件而且当一个序列被确定为一个更大的序列的一部分时,列出的与序列名相关的指明文件就会被合并。
Cluster.split
这个命令用来分配序列到OTUs并输出一个.list, .rabund, .sabund文件.它把大的距离矩阵拆分为小的部分。
Collect.shared
这个命令给计算器生成一个收集曲线,描绘出不同落间的相似性或它们的共有丰度。Collector's curves描绘随着你样本增加的个体,丰富度和多样性的变化。如果Collector's curves变得与x轴平行,你可以合理的确信你在采样这个工作上做的很好,并且相信曲线上的最终值。否则,你需要继续抽样(采样),mothur能为collector's curves生成数据,就像sons做的那样。当时sons将数据呈现在sons
文件中,实际上不可能被新手分析解读。mothur解决了许多这样的问题,因为mothur为每一个估计值产生分离的文件。
Collect.single
Collect.single利用计算器(/wiki/Calculators)生成collector's curves
,描述了丰度,多样性和样本的其他特征。Collector's curves描绘了你抽取额外的个体时丰度和多样性的变化。
Consensus.seqs
这个命令可以以两种方式使用:从fasta文件创建一个共有序列,或者由一个list文件为每个OTU创建一个共有序列。序列必须进行排列。
Consensus.seqs的参数(特征,因素)是fasta, list, name和label
Cooccurrence
这个命令计算四个度量并且测试他们的显著性以评估是否样式的存在与否比起那些随机期待的有所不同。
Corr.axes
这个命令将会计算在shared/relabund文件中每一行(或列)的相关系数,记录在一个pcoa文件所显示的轴线上。
这个命令从一个特定的组(group)或者一套组算出序列,从下面这些文件类型:group 或者shared文件.
Count.seqs
这个命令计算在一个name文件中的代表性序列所代表的序列的数目。如果提供了一个group文件,它也会提供使group计数崩溃。
Create.databasephp手册官方中文版
这个命令读取一个list文件,*.cons.taxonomy, *.rep.fasta, *.rep.names和可选的group 文件,并且创建一个数据库(database)文件.
Degap.seqs
这个命令读取一个fasta文件并输出一个.ng.fasta文件,它包含所有间隔字符都被移除后的序列。
Deunique.seqs
这个命令是unique.seqs的反向命令,从一个fasta和name文件创建一个fasta文件。
这个命令把冗余序列标识符重新插入一个唯一的系统树。
Dist.seqs
这个命令将计算两个排序的DNA序列间不正确的成对距离。这个方法比通用的DNADIST更好,因为这些距离不是存储在RAM(随机存储器)中,它们直接打印到一个文件。而且,通过它可以忽略可能不感兴趣的大的距离。这个命令将产生一个列格式的距离矩阵,这个矩阵与read.dist命令中的列选项相互兼容。这个命令也能生成一个phylip格式的距离矩阵。它有多个如何操纵gap比较和末端gap的选项。
Dist.shared
这个命令将会生成一个phylip格式的距离矩阵,描述多个组的差异性。这个命令将会计算任何一个描述落成员或结构相似性的计算子(calculator)。
Fastq.info
这个命令读取一个fastq文件,并创建一个fasta和quality文件。
Filter.seqs
filter.seqs从基于一个由用户定义标准的排列删除列。例如,生成的与参照排列相对的排列经常有一些列的每一个字符是. 或者- 。这些列不会包含用于计算距离,因为他们本身没有信息。通过删除这些列,计算大量的距离这一过程就会加快。同样,
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论