⼿把⼿学习TCGA数据库:SNP突变分析第⼀期
本⽂⾸发于“百味科研芝⼠”,转载请注明:百味科研芝⼠,Focus科研⼈的百味需求。
SNP(single nucleotide polymorphism),单核苷酸多态性,在基因组上由单个核苷酸变异形成的遗传标记,⼀般指变异频率⼤于1%的单核苷酸变异。
⽤英⽂的描述⽅法是这样的“If more than 1% of a population does not carry the same nucleotide at a specific position in the DNA sequence, then this variation can be classified as a SNP.”,值得注意的⼀个词是“population”同英⽂⽂章中对样本表述的“array”,指的是在⼀⼤个体中出现⼤于1%个体中基因组DNA上某个特定位点碱基较参考基因组发⽣变化,则认为是⼀个SNP。在⼈类基因组中⼤概每1000个碱基就有⼀个SNP, ⼈类基因组上的SNP 总量⼤概是3 ×10^6个。因此,SNP成为第三代遗传标志,⼈体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。
SNP发⽣的类型
SNP发⽣包括转换、颠换、插⼊和缺失,理论上每个位点都可以有4种形式的变异,但是实际上发⽣的只有转换和颠换两种,据说发⽣转换和颠换频率是2:1。如果你注意到了,你会发现在发⽣的转换中总是A突变成G,C突变成T,⽽且即使是转换,C>T的概率也要⼤于A>G的概率,这就是为什么研究的SNP为
啥会经常是C>T或者A>G了。补充⼀下:AT 结合与CG结合中结合键是不同的:CG之间是三键结合,AT之间是双键结合,因此CG的结合⼒要⽐AT强,也就是说需要更⾼的温度,才能使得CG解链,这个温度相对应的关键参数就是Tm值,也就是解链⼀半时候的温度。
转换
[⼀种能量形式变成另外⼀种能量形式],即嘌呤变嘌呤或者嘧啶变嘧啶,主要发⽣在CG序列,由于CG(可以联想⼀下研究DNA甲基化常谈到的CpG岛)中的C碱基常发⽣甲基化(mC),可⾃发脱氨形成胸腺嘧啶(T),即常常发⽣的转化是C to T。
颠换
异型碱基的置换,⼀个嘌呤被另外⼀个嘧啶替换或⼀个嘧啶被另外⼀个嘌呤置换,即嘌呤变嘧啶,或者嘧啶变嘌呤。(主要为A变T/C,G变T或C)
SNP发⽣的位置
SNP可以发⽣基因组的任何位置,基因编码区/基因⾮编码区/基因间区等,具体机制其实说也说不清,因为⼤多数SNP 不是在外显⼦上的。基本上都是进化过程中的⼀些基因的突变,所以⼀般都不会是特别关键的位置。当然也不能说完全没有功能,有的会导致可变剪接,或者有的会导致表观上的变化。
所以SNP的研究⾯会⽐较⼴,所以会有GWAS这样的项⽬。关系如下:
发⽣在编码区
先补充⼀个概念:密码⼦简并性(氨基酸对应三联密码⼦),所以发⽣SNP不⼀定会引起编码氨基酸的改变,这就引⼊了Synonymous SNP(同义突变,不引起任何变化)和Non-Synonymous SNP(⾮同义突变,⼤家关注的焦点)概念。对于不引起编码氨基酸变化的即为同义突变,引起氨基酸变化的则为⾮同义突变。
⾮同义突变⼜可分为错义突变和⽆义突变
错义突变:编码的某种氨基酸的密码⼦变成另⼀种氨基酸密码⼦,从⽽多肽链的氨基酸种类和序列发⽣改变,错义突变通常会使多肽链丧失原有功能。
⽆义突变:编码某⼀氨基酸的密码⼦变成UAA、UGA或UAG(终⽌密码⼦),导致多肽链翻译的中⽌,从⽽形成⼀条不完整的多肽链。
不完整的多肽链。
发⽣在基因⾮编码区或基因间区
可能会影响转录因⼦与DNA结合、影响⾮编码RNA序列、影响基因的剪接、mRNA的降解等。
SNP的命名
SNP的命名是很混乱的,你会看到RS1800947或者NG_000004.3以及CYP3A5*3,看到这⼤家是不是慌了?这都是什么⿁?
其实不同的组织机构命名不⼀样,并且坚持⾃⼰的命名⽅法。关于snp位点的命名其实并不统⼀,⼤家在⽂献中⼀般⽤的都是习惯或者说惯⽤名称。具体表现在以下⼏种形式:
1、RS命名法
RS命名法也被称为GenBank官⽅的refSNP ID单核苷酸多态性命名法,其是相对⽐较完善的命名体系,命名⽅法是
rs+6/7位阿拉伯数字,包括前后序列,位置信息,分布频率等。如果已知⼀个SNP的refSNP ID,那么就可以在GenBank的SNP数据库中搜索到相关的信息和在基因组中的位置了。
譬如我搜索rs776746,你会发现CYP3A5、ZSCAN25和RS776746是⼀个东西。
2、突变信息之间加上位置信息:
主要有三种⽅式:
突变信息之间+cDNA的位置,如C188T;
突变信息之间加上DNA的位置,如A2546G;
突变氨基酸信息之间加上氨基酸位置,如Glu145Lys.
3、按发现顺序或频率顺序拟定的惯⽤名称:
⽤*表⽰的,如CYP2D6*10,CYP2C9*3等。
前⾯加个m,表⽰突变的,如cyp2c19m2等,
还有⼀些也可以在⽂献中见到,如CYP2E1的c1>c2的突变等等。其实这就是⼀种⾮常不正规的⽤HGVS Names标注SNP位置的⽅法,很明显,由于缺少引⽤核酸序列的接受号,因此读者⽆法从这样的表⽰在GenBank中查到对应的信息。
4、HGVS命名法:
HGVS命名SNP法的规则是标出引⽤的核酸序列号(Reference Sequence,RefSeq)和SNP在该核
数据库学什么酸序列中的位置,例如:NG_000004.3:g.247167G>A,其中红⾊的部分是核酸序列接受号,绿⾊的部分是该单核苷酸多态性位点在该核酸序列中的位置,G>A表⽰原始碱基是G,突变碱基是A。这样的命名⽅法有利于出所在基因序列中的位置。
OK,今天就先和⼤家分享到这,下期我们继续分享两个数据库的使⽤。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。