零基础大数据挖掘(三)--富集分析
“
生信草堂
号外,号外,号外
你想和生信分析大神做好朋友么?
你想认识更多爱好生信分析的小伙伴么?
你想让自己的生信分析走上快车道么?
那就赶快加入我们的生信交流吧!
正确加入我们的模式是:
添加我们的bioinformatics88为好友
标注“加入生信草堂交流”
java零基础该怎么学在里请大家注明自己本名,单位,研究领域
便于小编管理
freescience联盟
由高校、医院FS和科研技能等百家单位联合创建的科研交流分享平台;联盟的宗旨:“公正至上,自由分享,平等共赢”。欢迎您的关注,让我们共同学习进步。戳这里Freescience联盟原文,请多关注哦~
富集分析上
通过往期介绍,当我们从基因芯片的大数据中寻到几千或几百个具有统计学和表达上差异的分子后如何解释这些结果或者说最终得到一个基因列表能告诉我们什么呢?从中能给我们什么提示?能下什么结论呢?
这里就要介绍一种分析方法就是富集分析了。首先不少人经常会有这样一个疑问——仅仅一个基因列表又怎么能进行统计分析呢?又没有对照,怎么计算p值呢?
这里举个例子:在一个广场上从早上到晚上都有着各种活动,早上5-6点有老人在锻炼身体,7-8点广场上开始有小贩、游客和行人,到了下午有不少青年人举行商业促销活动,傍晚广场就是属于广场舞大妈,晚上夜宵排档四起。那么当我们在不知道时间的情况下,抽取广场100个人,是否能从这百人的列表推测出广场上正在进行的活动或者时间呢?当100人中有80%的人是大妈?那么广场上进行什么活动在什么时间就显而易见吧。
那么人换成基因也是同理的。首先要定义基因集(geneset), 也就是基于我们的先验知识(基因组注释信息)。将基因富集可以想象成代表某一功能活动的体,每个个人可能同时参与好几种功能活动,我们所分析的不是单个 个体的差异,而是实际体和期望功能体是否有差异,从而推测出此时此刻发生了什么事,在这些事件中哪些个体又起到了什么作用。
基因注释信息根据通路数据库例如KEGG,那么就是通路(Pathway)富集分析,如果根据GeneOntology包含分子功能(MolecularFunction),生物过程(biologicalprocess)和细胞组成(cellularcomponent)三个部分来注释,那就是GO功能富集分析。这样大家对富集分析有所理解了吧,当然其中会涉及到统计方法例如fisher精确概率,GSEA,PACE,一般选用以上一种方法进行即可。
以下是还原文献中Onto-Tools进行的功能富集分析描述。(PMID: 25712376)
Functional analysis
To evaluate thepotential functions of the gene list, we performed ontological analysis of DEgenes. The Onto-Express (OE) (/ontoexpress), a web-based program, was used to perform the gene ontology (GO)enrichment analysis using hypergeometric tests. The pathway was analyzed by theKyoto Encyclopedia of Genes and Genomes (KEGG) (/), as well as by Pathway-Express, another application in the Onto-Toolsdatabase.
接下来对其实现过程进行实操:
1.进入网站,注册(/projects.htm)。
2. 注册后浏览器会提示安装java,根据提示操作即可
3.接着会弹出窗口,选择Onto-Express进行GO分析,Pathway-Express进行pathway分析。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论