微⽣物组16SrRNA数据分析⼩结:从OTUtable到marker物种
笔记内容:
由⼆代测序产⽣的序列数据(.fastq)到OTU table, 距离矩阵,物种多样性指数,序列的进化树及物种注释信息的可分析数据,为常规分析流程。可以使⽤usearch, vsearch, qiime等分析软件实现,在必要的时候需要根据序列信息的具体情况编写脚本予以实现。
本笔记描述的是微⽣物组16S rRNA的数据分析阶段,⼤概包括哪些内容,如何通过python和R来实现,⼤概会遇到什么问题以及如何解决。注意本分析是基于OTU table, 样本的距离矩阵,物种多样性指数,序列的进化树及物种注释信息⽽⾮基于序列数据(.fastq等)。
linux终端下载软件包括以下两个内容:
input⽂件介绍
OTU(Operational taxonomic unit),可操作分类单元
各OTU的代表序列(.fasta)
物种注释信息
物种进化树
各样本的多样性指数:α-diversity的input
距离矩阵:β-diversity的input
分析内容
物种构成及优势物种
α-diversity
β-diversity
biomarker
功能分析:PICRUSt
input⽂件介绍
OT U(Op e r ational tax onom ic unit),操作分类单元
在⼆代测序中,每个sample都会测到许多许多序列:
sample1: seq1, seq2, seq3, seq4,
sample2: seq1, seq2, seq3, seq4,
sample3: seq1, seq2, seq3, seq4,
...
每个序列都会有⼀⼩段barcode标记,以⽰它是来⾃哪个sample。经过⼀些预先处理,包括去除barcode, 低质量序列,污染序列,嵌合体,等。使⽤序列聚类算法将相似度(similarity)为97%以上的序列放在⼀起,组成⼀个OTU。所以⼀个OTU内所有的序列均为相似度97%以上的,相似度不⾜97%的则分到其他的OTU中去。于是我们可以得到OTU_table,⼀个给出每个sample中每个OTU包含多少reads数⽬的矩阵:
即每个sample对应每个OTU中的序列reads数⽬。如sample1在OTU1中有2个序列reads数⽬。如下所⽰的OTU_table即丰度。相对丰度则以
每个sample(每⾏)为100%,计算各OTU的reads数⽬占⼀个sample中所有的reads数⽬的百分⽐。
.....................
OTU是对相似性序列进⾏聚类,将海量测序序列聚类成数量较少的分类单元,并且每个OTU提供⼀个代表序列,基于它进⾏后续物种注释及分析,更加简便和清晰。
各OT U的代表序列(.f as ta)
以下为⼀个代表序列内容⽰例:
物种注释信息
将OTU代表序列分别与数据库进⾏⽐对,给每个OTU追溯到其物种来源。划分到界(Kingdom)、门(Phylum)、纲(Class)、⽬(Order)、科(Family)、属(Genus)、种(Species)。虽然不同软件及流程output的物种注释格式可能不⼀致,但内容⼤同⼩异,均包含了上述信息。
你可以结合OTU table和物种注释信息,将相同level的物种丰度相加,整理出每个level的物种丰度⽂件。⽐⽅说将family level中,相同family的物种丰度相加,形成⼀个family level的物种丰度⽂件。其作⽤为可以通过直接⽐较不同分组的物种丰度,从⽽出哪些物种的丰度在组间存在差异,即挑选可以区分不同组的marker.
其形式⼀般为每个OTU对应以下⼀条物种注释信息。有些公司测序并初步分析给出OTUtable, 在每⾏OTU后⾯直接附上了注释信息。
k__Bacteria; p__Firmicutes; c__Clostridia; o__Clostridiales; f__Lachnospiraceae; g__Robinsoniella; s__peoriensis
物种进化树
为了研究OTU序列所代表的物种进化关系,我们通过OTU代表序列之间的相似性构建物种进化树,代
表每个OTU的进化关系。其后缀名为.tree,可以⽤figtree软件打开。
各样本的多样性指数:α-d iv e r s ity的inp ut
α-diversity是⽤于回答“⼀个样本中有多少个物种?”的。所以α多样性指数是针对每个样本的。最简单的⼀种指数为richness,即每个样本中OTU的个数。
距离矩阵: β-d iv e r s ity的inp ut
β-diversity是⽤于回答“两个样本之间的相似程度如何?”这样的问题。它⽐较两个样本之间的相似度或者差异程度,并给这两个样本计算⼀个值,通常在0-1之间,以距离矩阵的形式呈现。可以观察到它是对称的,因为两两样本之间相似性的值是⼀样的。
分析内容
物种构成及优势物种
以下为⼀篇⽂章中的⽰例:
Phylum level microbial compositions of faeces, lavage and tissue samples. Tong M, Li X, Wegener Parfrey L,
Roth B, Ippoliti A, et al. (2013) A Modular Organization of the Human Intestinal Mucosal Microbiota and Its
Association with Inflammatory Bowel Disease. PLoS ONE 8(11): e80702.
doi:10.1371/journal.pone.0080702
可以⼤概理解为根据以上5个组的phylum level相对丰度绘制barplot, 观察到相对丰度最⼤的物种则为优势物种。在上图中
为Firmicutes和Bacteroidetes。
α-d iv e r s ity
包括rarefaction curve, rank abundance curve, 各项多样性指数的组间差异等。
在每个样本中不断抽样,每次都随机抽取⼀定数量的序列,以抽取到的序列构建OTU。其核⼼在于resampling。随着抽取的序列数⽬不断增加,其构建的OTU个数从迅速增加到趋于平坦,则说明抽样的数⽬合理,更多的序列不会再增加更多信OTU个数。即测序深度达到了要求。其横轴为每次抽取的read counts, 纵轴为以抽取的read counts构建的OTU个数。qiime可以⽣成rarefaction curve, 也可以⽤R实现。
rank abundance curve
rank abundance curve⽐较简单,其横轴为按照相对丰度从⼤到⼩排序的OTU的ID(或者其他物种ID),纵轴为相对丰度,如下所⽰。以下这个例⼦没有标出X轴的OTU ID, 只注明了其rank(排序)。
来⾃wiki
通过它可以了解优势物种有哪些。如果rank abundance curve很陡峭(即⼀开始很⾼,然后⼀个⼤跳⽔降很低),说明在样本中有明确的优势物种,且占了很⼤的⽐例。拖尾的物种丰度⽐较稀少。如果它下降的⽐较平缓,说明各物种都占有⼀定⽐例。当然你也可以根据样本分组在⼀个图中画多个rank abun
dance curve. 还可以根据⼀组样本,以相对丰度均值为纵轴画图,如下所⽰:
出⾃rpubs/marschmi/133626
各项多样性指数的组间差异
根据各样本的多样性指数:α-diversity的input(即每个样本对应⼀种多样性指数的数值)和分组信息⽂件(即根据科学问题,将样本分成不同的类别,⽽分析的意义在于寻不同类别之间的差异)。
可以⽤R将结果可视化。有时候是分多个组,需要注意使⽤哪种统计⽅法。可以参考统计检验简单⼩结

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。