数据挖掘只能发低分⽂章?3篇《核酸研究》看⼀下~
最近似乎有这样⼀种观点,⽣物信息就是⽤来发低分⽔刊的,快像meta分析⼀样被淘汰、被嫌弃了。
核酸结果查询对于这种看法,真正的⽣信分析师听到后只会莞尔⼀笑,「really?;are you kidding?」别问我怎么知道的,因为科研猫团队就是这么专业的团队。想做⾼质量的⽣信分析,就科研猫,全985博⼠团队,⼈⼿⼀篇10分+,⼈均100+案例分析经验,绝对靠谱~
⽣物信息这⼏年发展可谓如⽕如荼,特别是在新的测序技术推进下,在科研领域及临床应⽤上都⼤放异彩。
科研领域中,从简单的公共数据挖掘,“短平快”地发表纯数据分析的⼩⽂章;到挖掘⼤型测序数据,结合实验验证的⾼级别CNS顶级⽂章,⽣物信息都发挥着重要作⽤。
临床应⽤上,从分析肿瘤测序数据,筛选基因突变,指导抗肿瘤靶向⽤药;到病原体宏基因组测序,鉴定发热待查患者的致病病原体,⽣物信息⼀直引领精准医疗的开展。不管是何领域,都可谓⾄关重要。
咱们今天就看⼀下通过挖掘TCGA数据库,3年内接连发表3篇《Nucleic Acids Research》(IF:11.1),相关研究均是同⼀主要完成⼈/作者。
3篇⽂献都是有关与eQTL的,那么什么是eQTL。
⾸先QTL(Quantitative Trait Locus)是数量性状位点,⽐如⾝⾼、奶⽜的产奶量、癌症的⽣存时间等,其对应的性状的变异是⼀个连续的范围,其对应的控制基因的位点就是⼀个数量性状位点。⽽eQTL(expression Quantitative Trait Loci, eQTL)就是控制数量性状表达位点,即能调控数量性状基因(如⾝⾼基因)表达⽔平⾼低的那些基因的位点。可以理解为eQTL是QTL的上游调控基因,控制其表达情况。
eQTL(expression Quantitative Trait Loci, eQTL)的准确定义:是染⾊体上⼀些能特定调控mRNA和蛋⽩质表达⽔平的区域,其mRNA/蛋⽩质的表达⽔平量与数量性状成⽐例关系。eQTL可分为顺式作⽤eQTL和反式作⽤eQTL,顺式作⽤eQTL就是某个基因的eQTL定位到该基因所在的基因组区域,表明可能是该基因本⾝的差别引起的mRNA⽔平变化;反式作⽤eQTL是指某个基因的eQTL定位到其他基因组区域,表明其他基因的差别控制该基因mRNA⽔平的差异。
eQTL就是把基因表达作为⼀种性状,研究遗传突变与基因表达的相关性: 就好像研究遗传突变与⾝⾼的相关性⼀样。简单地说, 遗传学研究经常发现⼀些致病或易感突变,这些突变怎样导致表型有时候不太直观;所以⽤某个基因的差异表达作为过渡:突变A-->B基因表达变化-->表型。
早年可以通过同时做⼀个个体的SNP芯⽚和cDNA芯⽚, 在全基因组⽔平上研究突变与表达的相关性, 这种研究需要较多个体(例如1000个);现在随着深度测序的出现,很多⼈开始⽤RNA-Seq在较少量个体中研究allele-specific expression,本质上就是eQTL。
背景知识介绍完了,我们看⼀下今天安排的3篇⽂献吧。
01
这研究由美国德州⼤学健康科学中⼼韩冷教授和华中科技⼤学公共卫⽣学院缪⼩平教授共同合作完成,龚静博⼠为第⼀作者。该研究报道了针对33种肿瘤类型、近万样本的eQTL分析。
全基因组关联研究(GWAS)可以为疾病或性状的遗传病因研究提供线索。分析显⽰,GWAS发现的与疾病相关的风险位点⼤多数位于基因的⾮编码区域并在调控区域富集,这些结果提⽰疾病相关位点可能主要通过调控基因表达来发挥作⽤。
所以越来越多的研究将遗传变异与基因表达数据进⾏整合,故⽽经常⽤到eQTLs分析。有研究在通过肿瘤样本和正常样本的对⽐之后,发现⼤量eQTLs具有肿瘤特异性,然⽽癌症的eQTL分析⽬前的研究领域内是⾮常缺乏的。
作者通过挖掘TCGA数据库中33种肿瘤类型的9196个肿瘤样本的基因型和基因表达数据,共发现了5606570个可以顺式
作者通过挖掘TCGA数据库中33种肿瘤类型的9196个肿瘤样本的基因型和基因表达数据,共发现了5606570个可以顺式调控基因表达的cis-eQTLs和231210个可以远程调控基因的trans-eQTLs。
另外,作者通过整合eQTLs与临床预后信息和GWAS数据,发现了22212个与⽣存期相关的eQTLs,以及337131与GWAS分析位点重合的eQTLs。
作者还构建了数据库平台pancanQTL,供其他研究者免费查询、浏览。该平台上线⼀个⽉,就有来⾃全球13个国家近500次的数据访问。
评价:该研究可谓是⾼质量的数据挖掘研究。利⽤公共数据库中全⾯的表型资料和测序数据,不仅仅节约了研究的时间成本和经济成本,更是对全球已有数据库的整合和开发。该研究有助于增强遗传变异在肿瘤的发⽣与发展中发挥的潜在⽣物学功能的理解,促进遗传和癌症相关研究领域的发展。由此可见,数据挖掘才是后基因组时代的主⾓。
02
华中农⼤信息学院、⽣物医学与健康学院的研究团队在“Nucleic Acids Research”杂志先后发表题为「ncRNA-eQTL: a database to systematically evaluate the effects of SNPs on non-coding RNA expression across cancer types」的数据库研究。
研究团队在接受采访时打了以个这样的⽐喻「如果我们的遗传信息是⼀座⼭,遗传学家知道这⼭⾥⾯有⾦⼦,但他们⽤的是锄头。我们的⼯作就是给他们打造‘挖矿机’,帮他们把这些⾦⼦更快地挖出来;并把我们已经挖到的东西展现出来,构建成资源库,⽅便他们使⽤。」
⽬前虽然有⼀些ncRNA得到深⼊研究,但也仅仅是冰⼭⼀⾓。在该研究中,研究团队基于TCGA的癌症多组学数据和全基因组关联分析(GWAS)数据,开发了新的⽣物信息计算⽅法,系统鉴定了能影响ncRNA(包括lncRNA和miRNA)的表达数量性状基因座(ncRNA-eQTL),进⼀步整合了GWAS数据和临床信息,鉴定了与GWAS表型或临床信息相关的ncRNA-eQTL,并搭建了ncRNA-eQTL的数据平台。
在33种癌症中,共鉴定出到与lncRNA相关的600多万种顺式eQTLs和70多万种反式eQTLs。他们将已鉴定的eQTLs和癌症病⼈⽣存信息关联分析后,确定了与患者总⽣存时间相关的8235个长⾮编码RNA-eQTLs和116个microRNA-eQTLs。
⽤户可通过ncRNA-eQTL数据库查询和下载所有ncRNA-eQTL结果,包括不同癌症类型的顺式和反式ncRNA-eQTL、患者存活时间相关的ncRNA-eQTL,GWAS 相关的ncRNA-eQTL。此外,该平台提供批量查询功能,可跨癌症类型⽐较多个功能性ncRNA-eQTL或基因。该平台为探索SNP、⾮编码RNA和癌症表型之间的关联及其潜在的⽣物学机制提供极⼤便利。
评价:本篇的通讯作者就是咱们今天看的第⼀篇⽂献的first author,不难看出还是类似的思路,只是切⼊点不同。2017年的那篇是⽐较宏观分析了eQTLs和癌症表型的关系,本研究提取了ncRNA 和SNP进⾏着重分析,紧跟时代热点。
03
研究发现,可选择性多聚腺苷酸化(APA)可通过识别转录本上不同的PolyA加尾信号,使转录本具有不同长度的3’端⾮翻译区(3’UTR),从⽽影响其⽣物学功能。SNP是⼈类遗传变异的最常见类型,在⼈类复杂性状和疾病中发挥重要作⽤。近来发现,⼀些遗传变异可造成APA功能失调,APA也与癌症的发⽣发展密切相关。
研究团队,通过整合TCGA数据库中多种癌症样本的基因型数据和APA数据,系统地鉴定了影响APA事件的遗传变异(apaQTL),并根据基因调控⽅式定义了顺式和反式apaQTL。
在进⼀步整合GWAS数据后,鉴定了落在GWAS区域的tag SNP及其连锁不平衡LD区域中的apaQTL,并利⽤样本的临床信息鉴定预后相关的apaQTL。研究团队搭建了SNP2APA数据库展⽰这些结果,同时设计了软件在线预测SNP对多聚腺苷酸化信号的影响。
评价:跟第⼆篇ncRNA 和SNP关联分析不同的是,这次的切⼊点是可选择性多聚腺苷酸化(APA)和SNP,⽂章主体依旧是相似的流程,换了更新的切⼊点。相信未来该团队会从其他的切⼊点,进⾏更多的数据挖掘和⽹站开发,期待他们在QTL⽅⾯更多的研究。
⼩结
最近不知道从哪⾥吹出来的风,说⽣物信息⽂章等同灌⽔⽂章。我只能说这些⼈真的是“⼀叶障⽬,不见
泰⼭”。就像我们在⽂章中解读的这三篇⽂献,3年3篇NAR「核酸研究」。NAR可以说是⽣命科学领域内⾮常⽼牌的杂志了,能够在上⾯发表⼀篇⽂章可谓是很多科研⼈员的奋⽃⽬标。这三篇⽂献中没有涉及任何实验,纯数据挖掘,不是⼀样发表10分+?我想,这⾜以给数据挖掘正名了吧。
还有⼈说⽣物信息就像前⼏年的Meta分析⼀样,⽤不了多久就该黄了。在这⾥,我们不妄议Meta分析的⽂章,更不会妄⾃菲薄。⽣物信息是⼀门专业学科,在很多⾼校中都设⽴了⽣物信息专业。⼀门学科,⼀个专业,你敢说它⽔吗?此外,需要引起我们重视的是,近⼏年的政府⼯作报告中反复强调⼤数据的重要性,以致相关产业得到⾼速发展,在⽣命科学和临床⼤数据处理中,⽣物信息⼀直扮演着核⼼的⾓⾊。
总⽽⾔之,灌⽔⽂处处有,⽂章⽔不⽔是作者的关系,跟⽣物信息,亦或是Meta分析⽆⼲。端正科研态度,善⽤研究⽅法,紧跟科学热点,⾼质量的科研成果⾃然⽔到渠成。
参考⽂献:
doi: 10.1093/nar/gkx861
doi: 10.1093/nar/gkz711
doi: 10.1093/nar/gkz793
部分图⽚来源于⽹络,如有侵权,请联系删除。
参考资料:
关注“科研猫”,
胖⾬⼩
or
折⽿猫⼩
领取超多~超多~科研⼲货
往期⼲货链接
R语⾔从⼊门到精通系列
从今天开始,每天学点R语⾔~
R语⾔从⼊门到精通:Day1 -12
科研作图系列
【国庆特辑】崛起的中国,全球70年科研成果排名
【科研猫·绘图】⾼级科研做图 – AI⼊门
【科研猫·绘图】今夏最热的“热图”
【科研猫·绘图】看·箱线图·如何美丽动⼈
【科研猫·绘图】优雅版·⼩提琴图
【科研猫·绘图】缤纷版·韦恩图
【科研猫·绘图】朋友圈最⽕热的“⽕⼭图”
【科研猫·绘图】bar(霸)图绘制之霸⽓满屏
【科研猫·绘图】GSEA分析全攻略,带视频分享
【科研猫·绘图】团团“圆圆”,来个不⼀样的⽉饼
【科研猫·绘图】献礼国庆70年,R语⾔绘制中国地图【科研猫·绘图】趣味饼图 -从“披萨”到“圆形彩虹”
⽹络图
从⽹络图探寻基因互作的蛛丝马迹(1)-(5)
⽣存分析系列
【科研猫】⽣存分析的正确姿势(1)视频+R代码
【科研猫·出品】TCGA超⼤批量⽣存分析教程
GEO数据挖掘系列
GEO数据库挖掘(1)-(4)
GO/KEGG功能富集系列
GO/KEGG功能富集分析(1)-(4)
TCGA数据挖掘系列
隔壁实验室的“秃鹫”师兄⼜发SCI啦--TCGA数据挖掘实战TCGA数据挖掘终结者:cBioPortal
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论