⼩⽩实战课堂开课啦!⼿把⼿教你转录因⼦与靶基因预测操作~!
⼀⽂学会JASPAR数据库使⽤⽅法
嗨,⼩伙伴们⼤家好!这⾥是每周⼀弘毅专栏,我志向⽤⼩⼩⽂字助⼒你的SCI发表之路。很多⼩伙伴在设计转录因⼦相关课题的时候经常会遇到这样⼀个问题,在已知靶基因的情况下怎么寻它上游的转录因⼦?或者是已知转录因⼦怎么到它可能参与调控的靶基因?本周给⼤家梳理的知识点和介绍的JASPAR数据库便是⽤来解决这两个问题的,跟着弘毅的脚步⼀起来看看吧~!
写在前⾯:认识转录因⼦及其结合位点
1、认识转录因⼦
概念
转录因⼦(Tranion factor, TF):是⼀类序列特异性DNA结合蛋⽩,能够结合在靶基因上游的转录因⼦结合位点序列(Tranion factor binding site, TFBS),参与调控基因转录过程。
特征
1)结构特征:⾄少含有⼀个DNA结合结构域(DNA binding domain, DBD),⽤以识别和结合靶基因上游TFBS序列;含有多个转录效应结构,⽤以结合其他转录调节因⼦形成转录调控复合物。
2)功能特征:往往形成⼀个“基因启动⼦区域+TF+RNA聚合酶+其他辅助转录调控因⼦”形式的转录起始复合物,参与调控下游基因转录过程。
分类
两种分类原则
1)根据转录因⼦对转录调控的特性分为通⽤型转录因⼦和特异型转录因⼦。
2)根据转录因⼦DBD分为四⼤类:
①Basic domains,以同源或异源⼆聚体形式发挥作⽤,代表分⼦为basic leucine zipper domain(bZIP)和basic helix-loop-helix domain(bHLH);
数据验证怎么设置下拉菜单
②Zinc-coordinating DBD,含有锌指结构的C2H2、C4或C6蛋⽩,参与基因转录调控;
④beta-scaffold factors with minor groove contacts,代表分⼦为Rel homology region(RHR)。
2、转录因⼦结合位点
基本概念
转录因⼦结合位点(Tranion factor binding site, TFBS)是转录因⼦结合在靶基因DNA上的区域。
特征
1)转录因⼦结合位点序列具有保守性,通常为⼀段6~12bp的DNA序列,最多不超过20bp;
2)某些转录因⼦结合位点冗余;
3)转录因⼦在基因组结合位点不固定,允许错配,理论上转录因⼦可以结合在DNA任意区域,但是通常只有结合在启动⼦区域的转录因⼦才能发挥⽣物学意义。
动⼦区域的转录因⼦才能发挥⽣物学意义。
表述⽅式
1)⼀致性序列:将能与同⼀个转录因⼦结合的所有DNA⽚段按照对应位置进⾏排列,选择每个位置最可能出现的碱基组成该转录因⼦结合位点的⼀致性序列,序列包括A,T,C,G这4中碱基和IUPAC兼并码,
后者代表某个位置上可能出现的碱基组合。
2)序列标识图:依次绘出某个DNA motif中各个位置可能出现的碱基字母,碱基字母⾼度反映该位置的碱基保守性,字母越少⾼度越⾼的位置碱基保守性越好,碱基字母的⼤⼩与碱基在该位置上出现的频率成正⽐例关系。
3)位置频率矩阵:矩阵中,⾏代表转录因⼦结合位点区域每个碱基位置信息,列代表每个位置四种碱基出现的概率,可以矩阵或表格形式展⽰。
3、在线⽹站预测转录因⼦结合位点的缺陷与策略
⽬前转录因⼦结合位点的预测主要是基于热⼒学亲和⼒,并⾮真实发⽣在细胞内的结合,在转录因⼦结合位点预测时允许碱基错配,因此可能存在⼤量的假阳性预测结果。另外,转录因⼦发挥作⽤时,需要分⼦伴侣与或组成转录因⼦复合物发挥转录调控作⽤,组蛋⽩表观遗传学修饰引起的染⾊体结构改变也会影响转录因⼦的结合,在使⽤⽹站预测时没有考虑到这点。综上,我们在做转录因⼦预测研究时,可以考虑多个数据库的多种算法,将获得的结果取交集,并参考转录因⼦和靶基因的表达相关性,同时选择⼀个转录因⼦复合物内的多个转录因⼦进⾏研究,以通量解决概率问题。
JASPAR数据库概览
点击左侧栏10个⼦数据库各⾃对应的Browse,可进⼊该模块下各种motif信息的⽬录界⾯,分别介绍如下。
JASPAR CORE⼦数据库,是JASPAR的核⼼数据库,也是使⽤最多的⼀个数据库,收录来⾃⽂献的实验证实的真核⽣物转录因⼦结合位点序列信息,是⼀个经过⼈⼯校对过的⾮冗余数据库,数据质量较⾼,主要⽤于特定转录因⼦或具有特定结构特征的某⼀类转录因⼦的结合位点预测。该模块每个motif编号以MA开头。
Collection CNE⼦数据库,包含233个⼈类基因组中⾼度保守的⾮编码基因转录因⼦结合位点序列信息,⼤部分可以作为增强⼦来调控发育和分化相关基因表达,主要⽤于分析潜在的增强⼦。该模块每个motif编号以CN开头。
Collection FAM⼦数据库,是基于JASPAR CORE数据,根据结合位点序列特征将转录因⼦划分为11个不同的class家族,便于同⼀位点的多⽅预测,同时还能发现新的家族模型或将新发现的转录因⼦进⾏功能聚类。该模块每个class编号以MF开头。
Collection PBM⼦数据库,包含基于k-mer微阵列技术获得的104种⼩⿏转录因⼦矩阵模式数据。该模块每个motif编号以PB开头。
Collection PBM HLH⼦数据库,包含基于k-mer微阵列技术获得的19种线⾍Helix-turn-helix转录因⼦模型数据。该模块下的motif编号以PL开头。
Collection PBM HOMEO⼦数据库,包含基于k-mer微阵列技术获得的176种⿏同源结构转录因⼦矩阵模式数据。该模块每个motif编号以PH开头。
Collection PHYLOFACTS⼦数据库,包含174种进化上保守的基因上游结合元件,基于实验验证和尚未定义的转录因⼦结合位点信息,与JASPAR CORE数据互补,主要⽤于分析启动⼦的组织特异性和结构特异性。该部分每个motif的编号以PF开头。
Collection POLII⼦数据库,包含已知的与RNA聚合酶II核⼼启动⼦相关的DNA基序,⽤于分析潜在的核⼼启动⼦。该部分每个motfi编号以PL开头。
Collection SPLICE⼦数据库,包含6种典型的或⾮典型的剪切位点序列模型,主要⽤于剪切位点和可变剪切相关研究。6个motif编号均以SA开头。
Collection UNVALIDATED⼦数据库,2020年新增板块,包含⼀些未被验证的现有⽂献未见报道的转录因⼦结合位点信息,官⽅不建议使⽤。该部分每个motfi编号以UN开头。
点击About⽬录下Documentation⼦⽬录,可以查看每个⼦数据集包含的具体数据条⽬,以JASPAR CORE为例,该条⽬下包含每个Motif的ID编号,转录因⼦类型和家族信息,种属,⽂献PMID号等信息。
JASPAR功能及操作演⽰
⼀、转录因⼦TFBS信息查询
以JASPAR数据库⽰例转录因⼦SPI1为例,进⼊JASPAR主页,检索框输⼊SPI1,⾼级设置选项分别选择感兴趣的⼦数据库(Collection)、物种(Taxon)、种属(Species)、数据类型(Date type)、转录因⼦类型(Class)、转录因⼦家族(Family)和JASPAR版本。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。