GO注释和富集分析概念介绍
什么是富集分析?
当我们获得了⼀批⽣物数据时,例如转录组的数据,蛋⽩质组的数据,其中必然要做不同样本之间的差异基因分析这⼀步,例如空⽩对照组与实验组的差异基因或蛋⽩分析。在得到差异的基因或蛋⽩列表后,这个时候可能还会遇到⼀个问题,差异基因可能有很多,有⼏⼗个到上百个不等,如何对它们进⾏⽐较呢?这⼏⼗甚⾄上百差异基因或蛋⽩如何去呈现,这是⼀个问题,如果直接列张表,把所有的差异基因都放进去这样不合适,因为不直观,不⽅便分析。
此时我们就需要把这些差异基因进⾏注释,把这些基因或蛋⽩分成⼏⼤类(⼀个类别就相当于⼀个GO term),此时看这⼏⼤类的区别,肯定⽐看⼏⼗甚⾄上百个基因或蛋⽩的差异要更加直观,分析的难度也会降低,这个过程就是富集分析,富集分析属于差异基因的下游分析,常⽤的富集分析⽅法有GO分析,KEGG分析,GSEA分析等。
富集分析涉及到两个概念,前景基因和背景基因(不同的教程使⽤的术语不⼀样,总之看具体的含义)。前景基因就是你关注的要重点研究的基因集,背景基因就是所有的基因集。⽐如做两个样本对照组和处理组的转录组测序,前景基因就是对照组vs处理组的差异基因,背景基因就是这两组样本的所有表达基因。
富集分析的例⼦
再打个⽐⽅,我想知道与整个⼴东省相⽐,深圳市的⼤学⽣是不是显著更多(“⼤学⽣”就相当于深圳市民的其中⼀个GO term)。那么前景就是深圳市的⼈⼝,背景就是⼴东省的⼈⼝,每个个体都会有⼀个标签(如⼤学⽣、中学⽣、⼩学⽣等)。 富集的意思就是,某个GO term在所关注的前景基因集中占的⽐例要显著⾼于在所有背景基因集中所占的⽐例。⽐如上⾯的例⼦,深圳市⼤学⽣显著富集,意思就是深圳市本科毕业的⼈⼝所占深圳市总⼈⼝的⽐例显著⾼于⼴东省本科毕业⼈⼝在⼴东省总⼈⼝中所占的⽐例,例如我们要计算的就是10%与2%相⽐是否有显著性,如下所⽰:
图⽚
<figcaption >mark</figcaption>
这个显著性是如何计算的呢,就是利⽤超⼏何分布来计算出来的。
什么是GO,什么⼜是GO分析
GO的全称是Gene Ontology,中⽂意思是基因本体论 。GO的出现主要是源于⽣物研究的复杂性以及⽣物研究规模的⽇益扩⼤,为了对基因的产
物进⾏统⼀的描述,就需要使⽤当前储备的知识,以计算机为⼯具对这些⽣物研究进⾏描述,这就是GO项同出现的背景,GO提供了对基因功能与基因产物最为全⾯的描述。GO知识库主要由两个内容构成:
1. GO terms,它提供⽣物过程的逻辑结构与相关关系,不同GO terms之间的关系可以通过⼀个有向⽆环图来表⽰。这是由基因本体联合会
(Gene Ontology Consortium,GOC) 负责的,GO是⼀个国际标准化的基因功能分类体系,提供了⼀套动态并可控的词汇表(controlled vocabulary)来全⾯描述⽣物体中基因和基因产物的属性,它由⼀组预先定义好的GO术语(GO term)组成,这组术语对基因产物的功能进⾏限定和描述。此处需要注意的是,GO terms是对基因的产物,⽽不是基因本⾝进⾏描述,因为基因本⾝的产物有时候不⽌⼀种。GO数据库中的GO分类相关信息会得到不断地更新与增加,这个特点要记住,因为不同的GO分析⼯具使⽤的数据库版本有可能不⼀样,造成GO分析结果出现不同,例如以前Y叔就写过这样的⽂章《SCIENCE⽂章⽤了DAVID被吐槽》。
2. GO注释(GO annotations)库,它主要是为GO terms提供注释,也就是描述这个GO terms有什么功能(例如某些基因的产物是什么,是
蛋⽩质,还是⾮编码RNA,还是⼤分⼦等)。
总之,通过ontology和注释能够对⽣物系统提供⼀个⼴泛的描述。⽬前,GO知识库(GO knowledgebase)包含源于14万篇论⽂中的实验验证,它代表了60万个有实验⽀持的GO注释。这些核⼼知识库中还含有另外600万个推断⽽来的GO注释。除了核⼼知识库外,GOC还提供了能够编辑并推断ontology之间逻辑关系的软件,分析⼯具等,GO中的注释来源,通⽤不同的代码进⾏了区分,如下所⽰。
GO中的基因注释证据代码
⼀个GO注释由⼀个与GO term相关的特定参考和基因产物构成,GO注释的来源各异,下表就说明了GO注释的各种来源代码,其中*部分表⽰证据来源可靠性⽐较⾼
缩写证据代码例⼦
IC,Inferred by curator由专家推测得到推测它定位在细胞核中⼀个蛋⽩质如果有“转录因⼦”的功能注释,专家就可以
*IDA,Inferred from direct assay有直接实验证据如酶活化实验(针对“分⼦功能”),免疫荧光显微镜(针对“细胞组分”)
IEA,Inferred from electronic annotation 有电⼦注释
基于像BLAST这些搜索软件搜索结果的电⼦注释(与ISS⽐
较,IEA没有被专家证实)
*IEP,Inferred from expression pattern 有表达模式⽅⾯的
证据
转录⽔平(如Nothern Bloting或微阵列实验结果)或蛋⽩质表
达⽔平(Western blots实验结果)
*IGI,Inferred from genetic interaction 有遗传相互作⽤⽅
⾯的证据
抑制基因;遗传致死基因;互补试验;还有其他⼀些可以提供某
⼀基因功能信息的实验
*IMP,Inferred from mutant phenotype 由突变表型推测得
到
box sizing基因突变;基因敲出;过量表达;反义RNA实验
*IPI,Inferred from physical interaction 由物理相互作⽤推
测得到
酵母双杂交实验;共纯化实验;免疫共沉淀实验;结合实验
ISS,Inferred from sequence or structural similarity 由序列或结构的相
似性得到
序列的相似性;结构域;被专家确认的BLAST软件的搜索结果
NAS,Non-traceable author statement 有报道,但报道信
息来源不可知
数据库(如SwissPort数据库)登录条⽬的记录中没有引⽤已发
表的⽂献
ND,No biological data 没有相关的⽣物数
据
对应于“unknown”的分⼦功能、细胞过程或细胞组分
TAS,Traceable author statement 有报道,且可知报
道信息来源
有⼀些综述⽂章或字典中可以到相关信息
为什么要做GO分析
GO主要⽤于解决⼀些组学实验(omics)中⼤量分⼦变化的研究问题。⼀个典型的组学实验会检测数以千计的分⼦,因此对于这些变化的分⼦进⾏解释⾮常困难(例如⼀个肿瘤细胞与⼀个正常细胞之间的差异)。⽽GO富集分析(GO Enrichment Analysis)就能把这些数以千计的分⼦(例如蛋⽩质或⼀些⾮编码RNA)根据其功能的相似性放到不同的类别中,然后对它们进⾏分析,这样就在很⼤的程度上降低了分析的难度。GO 分析⽐较的就是两组差异基因,例如实验组与对照组的差异基因,存在在某个通路中的⽐例是否有差异,其统计学基因就是超⼏何分布。
GO分析的统计学基础
GO分析的统计学基础就是超⼏何分布,超⼏何的相关知识在笔记的最后,就是对每个GO term计算⼀个P值,公式如下所⽰:
图⽚
<figcaption >mark</figcaption>
N表⽰总基因数;
n表⽰N中差异表达基因的总数;
M表⽰N中属于某个GO term的基因个数;
k表⽰n中属于某个GO term的基因个数。
这个公式表⽰的意思是,从总的N个基因中挑出n个基因,作为分母(这是背景基因),分⼦则是M个基因(我们的差异基因,这是前景基因),有k个落在了某通路⾥,有n-k个不落在了某通路⾥,然后
使⽤超⼏何分布来对它们进⾏计算,即前景基因落在某通路的⽐例是否⾼于背景基因在这⼀通路的⽐例,实际计算时,是算的odds ratio的差异。
现在举个例⼦,在GO分析的结果表格中,会出现以下信息:
Background Frequency,背景基因频数,指的是在整个背景基因集中,注释到⼀个GO term中的基因数⽬。
Sample Frequency,样本基因频数(有的也叫前景基因频数,总之,就是你要研究的⼀批基因)指的是,在你研究的基因列表中,注释到这个GO term(与Background Frequency的GO term相同的这个GO term)的基因数⽬。例如,我们在研究酿酒酵母(S. cerevisiae)的⽣物过程(biological process)时,这个物种的背景基因是6442个基因,例如我们要研究的⽬的基因有10个,其中有5个基因被注释到了⼀个这样的GO term上,这个GO term是:DNA修复(DNA repair),然后样本中的DNA修复的基因频率就是5/10,如果在酿酒酵母(S. cerevisiae)的整个基因组中,只有100个基因注释到了DNA修复的这个GO term上,那么背景基因的频率就是100/6442。GO分析就是利⽤超⼏何分布(或Fisher精确检验)来⽐较⼀下5/10和100/6442有没有统计学差异,GO分析结果的表格中会列出这个计算结果的P值。
P-value,
GO term的查询
浏览GO term经常有使⽤到两个⼯具,分别是AmiGO(GO Central )和QuickGO(EBI-GOA )。
AmiGO的GO注释⽂件(GAF,GO Annotation File)与基因是1对1的关系。QuickGO中的GO注释⽂件是GOA(Gene Ontology Annotation),它主要⽤于注释蛋⽩质,⽽⼀个基因有时候会产⽣有⼏个蛋⽩质(因为有异构体的情况,isoform)。
GO对基因的描述
⼀个GO term的编号是由两部分构成,第⼀个部分相同,都是GO,第⼆部分是⼀个唯⼀的数字标记,它是以0开头的7位数字,例
这些就是⼀个GO term的内容,GO就是为了对基因以及基因的产物进⾏统⼀注释说明⽽形成的⼀套标准,这些注释说明来⾃称为ontology的⼀套词汇。此外,GO terms中还存在着⼀些次要IDs(secondary IDs),这些次要IDs也叫替代ID,即Alternate ID,它指的是⼀个GO term,当有两个或更多的GO terms是同样的含义时,就需要使⽤到⼆级IDs,此时可以把它们合并为⼀个GO term。
有向⽆环图说明
GO terms的结构是⼀个有向⽆环图,每个GO term是⼀个节点,它们之间的关系⽤这些节点之间的箭头来表⽰。GO分析是⼀个松散的层次结构,其⼦GO term⽐⽗GO term更具体,不过与严格的层次结构不同,⼀个GO term也许有不⽌⼀个⽗GO term,⽐如biological process term "hexose biosynthesis" 有两个parents,它们分别是 "hexose metabolism"和"monosaccharide biosynthesis",这是因为⽣物合成是代谢的⼀种,⽽⼰糖⼜是单糖的⼀种。
图⽚
<figcaption >mark</figcaption>
上图是⾊素沉着的⼀系列GO term,在这张图形⾥,不同GO terms之间的关系⽤标了颜⾊的箭头来表⽰,每个箭头中间的字母就是关系类型。箭头指向的⽅向,是分类更加精细的⽅向,图表项部的节点就是细胞成分(CC),⽣物学过程(BP)与分⼦功能(MF),这三个节点没有共同的⽗节点,每个都是⼀个根节点,因此GO是三本原系统,不过在⼀些GO分析⼯具中会做出⼀个虚拟的根节点,把这三个节点都指向这个虚拟根节点。这三个节点之间不存在is_a关系,但是,这三个本体之间可能存在着其它的关系,例如part_of和regulates,例如,分⼦功能(MF)的GO term“细胞周期蛋⽩依赖性蛋⽩激酶活性”(cyclin-dependent protein kinase activity)与⽣物学过程(BP)term的“细胞周期(cell cycle)”之间的关系是part_of。
不同的term之间的关系
不同的GO term之间的关系有很多种,例如is,part of等,并且不同的关系还能组合,衍⽣出不同GO terms之间的关系,这⾥只列举⼏个说明⼀下。
is关系
不同GO terms之间的关系使⽤箭头来表⽰,实⼼箭头表⽰了它们的直接关系,虚线表⽰了对于它们的关系的推测,如下所⽰:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论