转录组RNAseq术语解释--688IT编程网

RNA-Seq名词解释

1.index

测序的标签，用于测定混合样本，通过每个样本添加的不同标签进行数据区分，鉴别测序样品。

2.碱基质量值

（Quality Score或Q-score）是碱基识别（Base Calling）出错的概率的整数映射。碱基质量值越高表明碱基识别越可靠，碱基测错的可能性越小。

3.Q30

碱基质量值为Q30代表碱基的精确度在99.9%。

4.FPKM（Fragments Per Kilobase of transcript per Million fragments mapped）

每1百万个map上的reads中map到外显子的每1K个碱基上的fragment个数。计算公式为

公式中，cDNA Fragments 表示比对到某一转录本上的片段数目，即双端Reads数目；Mapped Reads(Millions)表示Mapped Reads总数，以10为单位；Transcript Length(kb)：转录本长度，以kb个碱基为单位。

5.FC（Fold Change）

即差异表达倍数。

6.FDR（False Discovery Rate）

即错误发现率，定义为在多重假设检验过程中，错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。

7.P值（P-value）

即概率，反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值，一般以P<0.05为显著，P<0.01为非常显著，其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。

8.可变剪接（Alternative splicing）

有些基因的一个mRNA前体通过不同的剪接方式（选择不同的剪接位点）产生不同的mRNA剪接异构体，这一过程称为可变剪接(或选择性剪接，alternative splicing)。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制，是导致真核生物基因和蛋白质数量较大差异的重要原因。在生物体内，主要存在7种可变剪接类型：A）Exon skipping；B）Intron retention；C) Alternative 5' splice site；D) Alternative 3' splice site；E) Alternative first exon；F) Alternativelast exon；G) Mutually exclusive exon。

9.外显子跳跃（Exon skipping）

外显子在前体mRNA剪接形成成熟mRNA过程中被跳过，最终没有出现在某些成熟mRNA上，这种剪接机制被称为外显子跳跃。

10. 内含子保留（Intron retention）

前体mRNA在剪接形成成熟mRNA的过程中，部分内含子被保留下来，这种剪接机制被称为内含子保留。

11. 5'或3'端可变剪接

前体mRNA在剪接形成成熟mRNA的过程中，5'端或3'端边界发生不同方式的剪接，这种剪接机制被称为5'或3'端可变剪接。

12.基因结构优化

expressed翻译由于使用的软件或数据本身的局限性，导致所选参考基因组的注释往往不够精确，需要对原有注释的基因结构进行修正，这一过程称为基因结构优化。

13. 基因间区(intergenic)

指基因与基因之间的间隔序列，不属于基因结构，不直接决定氨基酸，可能通过转录后调控影响性状的区域。

14. UTR:(UntranslateRegions)

非翻译区域。是信使 RNA（mRNA）分子两端的非编码片段。5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子，3'-UTR从编码区末端的终止密码子延伸至多聚 A 尾巴（Poly-A）的前端。

15. ORF（open reading frame）

开放阅读框或开放读码框。是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。

16. CDS（Coding sequence）

是编码一段蛋白产物的序列，是结构基因组学术语。DNA转录成mRNA，mRNA经剪接等加工后翻译出蛋白质，所谓CDS就是与蛋白质序列一一对应的DNA序列，且该序列中间不含其它非该蛋白质对应的序列，不考虑mRNA加工等过程中的序列变化，总之，就是与蛋白质的密码子完全对应。

17. 插入片段大小（insert size）

通过检测双端序列在基因组上的起止位置，可以得到插入片段的实际长度，决定了测序的长度，是信息分析的重要参数。

18. 分子标记

是遗传标记的一种，直接在DNA分子上检测遗传变异。分子标记能对不同发育时期的个体、组织器官甚至细胞作检测，数量极多，遍及整个基因组，多态性高，遗传稳定，不受环境及基因表达与否的影响。目前常见分子标记主要有SNP、InDel、SSR 等。

19. SNP（Single Nucleotide Polymorphism）

即单核苷酸多态性，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP所表现的多态性只涉及到单个碱基的变异，这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起，也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。

20. SSR（Simple Sequence Repeat，SSR）

即简单重复序列，又叫微卫星序列，指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA，广泛分布于基因组的不同位置，长度一般在200bp以下。

21. 转换(transition)

同类型（嘌呤和嘌呤，或嘧啶和嘧啶）碱基之间的相互替换称为转换。

22. 颠换(transversion)

不同类型（嘌呤和嘧啶）碱基之间的相互替换称为颠换。

23. RNA编辑（RNA editing）

是指在mRNA水平上改变遗传信息的过程。具体来说，指基因转录产生的mRNA分子中，由于核苷酸的缺失，插入或置换，基因转录物的序列不与编码序列互补，使翻译生成的蛋白质的氨基酸组成，不同于基因序列中的编码信息现象。

24. 差异表达转录本（DifferentiallyExpressed Transcript，DET）

指表达水平存在显著差异的转录本。

25. 差异表达基因（Differentially Expressed Gene，DEG）

指在两个不同条件（如对照与处理、野生型和突变型、不同时间点、不同组织等）下，表达水平存在显著差异的基因，称之为差异表达基因。

26. 生物学重复（Biological Replicates）

可以定义为使用来自不同抽提的RNA样本进行杂交，例如，同一来源独立制备的样本，或者不同来源的样本（不同组织或者一个细胞系的不同培养物）。

27. 技术重复

使用同一个抽提的RNA进行实验称为技术重复。与生物学重复相比，技术重复不是完全独立的，取平均值不能去除共有的系统偏差。

28. 皮尔逊相关系数r（Pearson’s Correlation Coefficient）

用于度量两个变量X和Y之间的相关（线性相关），其值介于-1与1之间。其中，1表示变量完全正相关，0表示无关，-1表示完全负相关。在高通量测序中，将皮尔逊相关系数作为生物

学重复相关性的评估指标。越接近1，说明两个重复样品相关性越强。

29. Unigene

Unique Gene的英文缩写，意为广泛通用的基因数据库，通过电脑对相同基因座（Locus）的收集整理集合形成一个非冗余的基因数据库。

30. Contig

高通量测序中利用软件将具有一定长度overlap的reads连成更长的片段，这些通过reads overlap关系得到的不含N的组装片段称之为Contig。

31. Scaffold

高通量测序中reads经过拼接获得Contigs，Contig经过确定先后顺序用N连接起来组成Scaffold。

32. Contig N50

Reads拼接后会得到长度不同的Contigs。将所有Contigs的长度相加后获得一个Contig的总长度。之后将所有Contig按照序列长度由短到长进行排序，如获得Contig1，Contig2，Contig3……..。将Contig按照这个顺序一次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。

33. component

TRINITY 软件拼接过程中，由于contig的构造方法，使得各个contig之间不可能共享k个以上序列，因此这些 inchwormcontigs不能很好的表征各种可变剪切形式和同源基因等情况，软件中“chrysalis”这一步骤将那些有重叠的contigs聚类，构成components。component就成为一组可变剪切isoform或同源基因可能的表征的集合。

34. de Bruijn graph

使用 TRINITY 软件拼接时，在“chrysalis”步骤中会将 component通过 overlap 关系构建成 de Bruijn图，便于获取可变剪切的序列。

35. 数字基因表达谱（DigitalGene Expression Profile，DGE）

利用新一代高通量测序技术和高性能的计算分析技术，能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。

36. small RNA

对长度在18-40bp的短 RNA 进行序列、结构、表达、功能上的分析，主要进行miRNA，siRNA，piRNA 几种类型 sRNA 的分析；可与 mRNA 关联分析。

37. ncRNA（non-coding RNA）

非编码RNA。指不编码蛋白质的RNA。其中包括 rRNA，tRNA，snRNA，snoRNA和microRNA 等多种已知功能的 RNA，及未知功能的 RNA。其共同特点是都能从基因组上转录而来，不需要翻译成蛋白即可在 RNA 水平上行使各自的生物学功能。

38. 降解组测序（Degradome Sequencing）

利用高通量测序平台，针对miRNA介导的剪切降解片段进行深度测序，从中筛选miRNA作用的靶基因，并结合生物信息学分析确定降解片段与miRNA的精确配对信息。该技术能从细胞

或组织中准确高效的筛选出 miRNA 的靶基因，为研究miRNA 与其对应的靶基因的相互关系提供准确、高效的筛选手段。

39. lncRNA（long noncoding RNA）

长链非编码RNA。在长度200-100000nt之间，不具有编码蛋白功能的转录本。

40. 正链/负链（plus strand/minus strand）

对于一个基因来说，DNA的两条链中有一条链作为RNA合成时的模板，这条链叫负链，另一条叫正链。

41. 反义链/有义链（antisense strand/sense strand）

688IT编程网

转录组RNAseq术语解释

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

688IT编程网

转录组RNAseq术语解释

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

非零金额正则表达式