微生物组16SrRNA数据分析小结:从OTUtable到marker物种--688IT编程网

微⽣物组16SrRNA数据分析⼩结：从OTUtable到marker物种

笔记内容：

由⼆代测序产⽣的序列数据（.fastq）到OTU table，距离矩阵，物种多样性指数，序列的进化树及物种注释信息的可分析数据，为常规分析流程。可以使⽤usearch, vsearch, qiime等分析软件实现，在必要的时候需要根据序列信息的具体情况编写脚本予以实现。

本笔记描述的是微⽣物组16S rRNA的数据分析阶段，⼤概包括哪些内容，如何通过python和R来实现，⼤概会遇到什么问题以及如何解决。注意本分析是基于OTU table，样本的距离矩阵，物种多样性指数，序列的进化树及物种注释信息⽽⾮基于序列数据（.fastq等）。

linux终端下载软件包括以下两个内容：

input⽂件介绍

OTU(Operational taxonomic unit)，可操作分类单元

各OTU的代表序列（.fasta）

物种注释信息

物种进化树

各样本的多样性指数：α-diversity的input

距离矩阵：β-diversity的input

分析内容

物种构成及优势物种

α-diversity

β-diversity

biomarker

功能分析：PICRUSt

input⽂件介绍

OT U(Op e r ational tax onom ic unit)，操作分类单元

在⼆代测序中，每个sample都会测到许多许多序列：

sample1: seq1, seq2, seq3, seq4,

sample2: seq1, seq2, seq3, seq4,

sample3: seq1, seq2, seq3, seq4,

...

每个序列都会有⼀⼩段barcode标记，以⽰它是来⾃哪个sample。经过⼀些预先处理，包括去除barcode, 低质量序列，污染序列，嵌合体，等。使⽤序列聚类算法将相似度（similarity）为97%以上的序列放在⼀起，组成⼀个OTU。所以⼀个OTU内所有的序列均为相似度97%以上的，相似度不⾜97%的则分到其他的OTU中去。于是我们可以得到OTU_table，⼀个给出每个sample中每个OTU包含多少reads数⽬的矩阵：

即每个sample对应每个OTU中的序列reads数⽬。如sample1在OTU1中有2个序列reads数⽬。如下所⽰的OTU_table即丰度。相对丰度则以

每个sample(每⾏)为100%，计算各OTU的reads数⽬占⼀个sample中所有的reads数⽬的百分⽐。

.....................

OTU是对相似性序列进⾏聚类，将海量测序序列聚类成数量较少的分类单元，并且每个OTU提供⼀个代表序列，基于它进⾏后续物种注释及分析，更加简便和清晰。

各OT U的代表序列（.f as ta）

以下为⼀个代表序列内容⽰例：

物种注释信息

将OTU代表序列分别与数据库进⾏⽐对，给每个OTU追溯到其物种来源。划分到界（Kingdom）、门（Phylum）、纲（Class）、⽬（Order）、科（Family）、属（Genus）、种（Species）。虽然不同软件及流程output的物种注释格式可能不⼀致，但内容⼤同⼩异，均包含了上述信息。

你可以结合OTU table和物种注释信息，将相同level的物种丰度相加，整理出每个level的物种丰度⽂件。⽐⽅说将family level中，相同family的物种丰度相加，形成⼀个family level的物种丰度⽂件。其作⽤为可以通过直接⽐较不同分组的物种丰度，从⽽出哪些物种的丰度在组间存在差异，即挑选可以区分不同组的marker.

其形式⼀般为每个OTU对应以下⼀条物种注释信息。有些公司测序并初步分析给出OTUtable, 在每⾏OTU后⾯直接附上了注释信息。

k__Bacteria; p__Firmicutes; c__Clostridia; o__Clostridiales; f__Lachnospiraceae; g__Robinsoniella; s__peoriensis

物种进化树

为了研究OTU序列所代表的物种进化关系，我们通过OTU代表序列之间的相似性构建物种进化树，代

表每个OTU的进化关系。其后缀名为.tree，可以⽤figtree软件打开。

各样本的多样性指数：α-d iv e r s ity的inp ut

α-diversity是⽤于回答“⼀个样本中有多少个物种？”的。所以α多样性指数是针对每个样本的。最简单的⼀种指数为richness，即每个样本中OTU的个数。

距离矩阵: β-d iv e r s ity的inp ut

β-diversity是⽤于回答“两个样本之间的相似程度如何？”这样的问题。它⽐较两个样本之间的相似度或者差异程度，并给这两个样本计算⼀个值，通常在0-1之间，以距离矩阵的形式呈现。可以观察到它是对称的，因为两两样本之间相似性的值是⼀样的。

分析内容

物种构成及优势物种

以下为⼀篇⽂章中的⽰例：

Phylum level microbial compositions of faeces, lavage and tissue samples. Tong M, Li X, Wegener Parfrey L,

Roth B, Ippoliti A, et al. (2013) A Modular Organization of the Human Intestinal Mucosal Microbiota and Its

Association with Inflammatory Bowel Disease. PLoS ONE 8(11): e80702.

doi:10.1371/journal.pone.0080702

可以⼤概理解为根据以上5个组的phylum level相对丰度绘制barplot, 观察到相对丰度最⼤的物种则为优势物种。在上图中

为Firmicutes和Bacteroidetes。

α-d iv e r s ity

包括rarefaction curve, rank abundance curve, 各项多样性指数的组间差异等。

在每个样本中不断抽样，每次都随机抽取⼀定数量的序列，以抽取到的序列构建OTU。其核⼼在于resampling。随着抽取的序列数⽬不断增加，其构建的OTU个数从迅速增加到趋于平坦，则说明抽样的数⽬合理，更多的序列不会再增加更多信OTU个数。即测序深度达到了要求。其横轴为每次抽取的read counts, 纵轴为以抽取的read counts构建的OTU个数。qiime可以⽣成rarefaction curve, 也可以⽤R实现。

rank abundance curve

rank abundance curve⽐较简单，其横轴为按照相对丰度从⼤到⼩排序的OTU的ID(或者其他物种ID)，纵轴为相对丰度，如下所⽰。以下这个例⼦没有标出X轴的OTU ID, 只注明了其rank(排序)。

来⾃wiki

通过它可以了解优势物种有哪些。如果rank abundance curve很陡峭(即⼀开始很⾼，然后⼀个⼤跳⽔降很低)，说明在样本中有明确的优势物种，且占了很⼤的⽐例。拖尾的物种丰度⽐较稀少。如果它下降的⽐较平缓，说明各物种都占有⼀定⽐例。当然你也可以根据样本分组在⼀个图中画多个rank abun

dance curve. 还可以根据⼀组样本，以相对丰度均值为纵轴画图，如下所⽰：

出⾃rpubs/marschmi/133626

各项多样性指数的组间差异

根据各样本的多样性指数：α-diversity的input（即每个样本对应⼀种多样性指数的数值）和分组信息⽂件（即根据科学问题，将样本分成不同的类别，⽽分析的意义在于寻不同类别之间的差异）。

可以⽤R将结果可视化。有时候是分多个组，需要注意使⽤哪种统计⽅法。可以参考统计检验简单⼩结

688IT编程网

微生物组16SrRNA数据分析小结:从OTUtable到marker物种

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

微生物组16SrRNA数据分析小结:从OTUtable到marker物种

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式