数据挖掘学习---GEO数据库简介
GEO 数据是⽣信技能树⽣信爆款⼊门课程数据挖掘部分Day8的讲到的⼀个重要知识点。为加深理解,现在登录⽹站做下练习巩固。
⼀、GEO 数据库简介
GEO(GENE EXPRESSION OMNIBUS)数据库是由美国国⽴⽣物技术信息中⼼(NCBI)2000 年创建的基因表达数据库,收录了世界各国研究机构提交的基因表达数据,主要包括基因芯⽚,⾼通量测序数据。⽬前已发表的论⽂中涉及到基因表达检测的数据都可以通过 GEO 数据库到,并且是免费使⽤。
⼆、GEO 数据格式
数据库存放四种数据类型:GSE,GDS,GSM 和 GPL。
⼀个 GSE ID 是指整个研究项⽬的系列数据,会涉及⼀到多个实验平台(GPL)
⼀个 GDS ID 对应同⼀个实验平台的数据集。数据库学习入门书籍
⼀个 GSM ID 对应⼀个样本的表达数据信息,GSE,GDS 会包含多个 GSM 的数据。
⼀个 GPL ID 对应⼀个实验平台的信息,包括芯⽚探针的设计和注释信息。
三、GEO 数据库的基本使⽤
先来看⼀下每个页⾯都是什么样⼦
GPL 页⾯
image.png
进去之后是
image.png GSE 页⾯
image.png 进去之后
image.png
GSM 页⾯
image.png
如何使⽤ GEO 数据库检索呢?
GEO 可以与其他 NCBI 数据库⼀样可以⽤标准关键词的⽅法进⾏检索,或者直接检索。例:在 DataSets 搜索「lung cancer」便可寻有关⼈类肺癌微阵列实验数据集合。在右上⾓出还可以⾃⾏选择想要了解的物种,左侧有根据过滤条件选择。
image.png
image.png
GEO 数据库只负责⽤户上传数据,⽽不负责对数据质量的控制,因此,有⼩伙伴也会发现,⾃⼰下载好的矩阵⽂件⾥⾯基因表达量数值特别⼤⽽且数据不集中,究其原因就是 GEO 数据库的数据参差不齐,不能确定上传者是否对整理好的数据进⾏了标准化处理。这个就需要后续的处理了。
4 GEO数据下载:
通过查阅⽂献,我们可以知道作者提交GEO数据库的GSE数据编号,通过这个编号我们就可以在GEO数据库中搜索相应的GSE编号,然后下载数据了,例如:
image.png
然后就可以看到相应的数据信息:
image.png
总结下来就是:
GEO 数据库是第⼀个基因表达数据的公共储存数据库,具有强⼤的数据收录功能。记录各类芯⽚数据和测序数据,主要为表达谱数据。⽤户可以⾃⾏上传。数据库是开放的,可供⼤众下载和使⽤。
参考
1.GEO 数据介绍及在线下载
2.⽣信第⼀课,浅谈 GEO 数据库

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。