一、名词解释:
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个
序列做相似性比较。P94
7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98
8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29
9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29
10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37
11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95
12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。
13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。
14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。
15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。
16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。
17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。
系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。
18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)
19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。)
20.外类:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
21.有根树:能够确定所有分析物种的共同祖先的进化树。
22.除权配对算法(UPGMA):最初,每个序列归为一类,然后到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。
23.邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。
24.最大简约法(MP):在一系列能够解释序列差异的的进化树中到具有最少核酸或氨基酸替换的进化树。
25.最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,到概率最大的进化树。最
大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。
26.一致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。
27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。
28.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。
29.密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。
30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。
31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。
32.超家族:进化上相关,功能可能不同的一类蛋白质。
33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
34.序列表谱(profile):是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表格。
35.PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。
36.BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。
37.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。
38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。
39.PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。
41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。
42.TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到
的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。
43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB 具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。
44.SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,
数据库学什么分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。
45.PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。
46.Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。
47.表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。
48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类中的基因数目、位置、功能、表达机制和物种进化的学科。
49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。
Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推测目的基因的编码区序列, 辅助全长cDNA克隆的方法
BLAST:即基本局域联配搜索工具,Basic Local Alignment Search Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。
Entrez :是由NCBI 主持的一个数据库检索系统,它包括核酸,蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。因此,可以从一个DNA 序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。Entrez 中的数据库包括:Entrez 中核酸数据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR, PFR, PDB
PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST 和FASTA 的相似序列发现率。
ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。当一个新基因被识别,其DNA 序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信息的前提下,DNA 序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)ORF 识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA 。序列而其内部不包含启动子或终止子,符合这些条件
的序列有可能对应一个真正的单一的基因产物。ORF 的识别是证明一个新的DNA 序列为特定的蛋白质编码基因的部分或全部的先决条件。
相似性(similarity)/(identify):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
生物数据库检索(database query,数据库查询):对序列,结构以及各种二次数据库中的注释信息进行关键词匹配查. 生物数据库搜索(database search):通过特定序列相似性比对算法,出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列.
E 值:对某个已识别出的相似度值S,E 值是分值大于等于S 的期望频率,改值可以被理解为期望随机得到等于S 或大于S 值的分值数目。
序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列.
同源性(homology):生物进化过程中源于同一祖先的分支之间的关系.
Refseq:美国国家生物信息技术中心(NCBI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库。
3’UTR:3’非翻译区的缩写,真核生物的转录终止信号是在3’非翻译区的:polyA。
CpG island:是DNA 上的一个区域,富含GC,两者以磷酸酯键相连,长度:约几百到几千bp 不等,常出现在管家基因或频繁表达的基因的启动子附近,在这些部位,CpG 岛具有阻止序列甲基化的作用。
GSS:基因组勘测序列,是基因组DNA 克隆的一次性部分测序得到的序:cosmid/BAC/Y AC 末端序列、通过Exon 列。包括随机的基因组勘测序列、trapped 获得基因组序列、通过Alu PCR 获得的序列、以及转座子标记(序列等。
EST:表达序列标签—是从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分.。
MEGA(Molecular Evolutionary Genetics Analysis):是一款免费的构树软件,:它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度mRNA 氨基酸序列及遗传距离进行系统发生分评估等全套功能,能对DNA、析以及基因分化年代的分析。
maximum parsimony method:最大简约法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。
neighbor—joining method:邻接法,基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发生树时,认为在进化分子上,发生趋异的次数可以不同,它是最有效的的基于距离数据重建系统树的方法之一。
molecular phylogenetic tree:分子进化树,精确地反映物种间或体间在进:化过程中发生的极微细的遗传变异,而且借助化石提供的大分子类的分化年代能定量地估计出物种间或体间的分化年代。
Domain :功能域。蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。
EMBL:EMBL 实验室—欧洲分子生物学实验室,EMBL 数据库—是非盈利:性学术组织EMBL 建立的综合性数据库,EMBL 核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、日本的DDBJ 数据库中的数据进行交换,并同步更新。
BLAST :Basic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种快速查与给定序列具有连续相同片断的序列的技术。
SRS(sequence retrieval system):序列查询系统,是EBI 提供的多数据库查询:工具之一。有与Entrez 类似的功能外,还提供了一系列的序列分析工具,可以直接进行在线序列分析处理。
dynamic programming:动态规划程序;它将一个问题合理分解成一些小的子问题,然后利用部分计算解得到最终答案。
Match score maximum likelihood approach methylation microarray microsatellite MIAME(the minimum information about a microarray experiment) minisatellite mismatch score molecular clock匹配得分最大似然法:序列比较算法对相同字符匹配设置的得分。指在一系列的序列比对中,考虑每一个字符被替代的概率的一种系统发生学方法;也是一种基于纯统计的系统发生重建方法。一个甲基( —CH 3 ) 附着在一个核苷酸的含氮碱基或者蛋白质上。在一个固体基片上的已知位置固定了DNA 探针的有序阵列。在基因组中很多非常短的核酸序列出现的区域,例如串接出现5 ‘-CA-3‘的重复序列;通常在个体间变化很大。
PAM unit:PAM 单位是一种进化单位;特别地,指被观察的对象中每100 个残基发生一个替换所需要的平均进化时间。对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除。
PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指:向全文的链接。作为Entrez 资讯检索系统的一部分。
motif:又称模体,实序列中局部的保守区域,或者是一组序列中共有的一小:段序列模式。通常由2、个二级结构单位组成,3 一般为α螺旋、β折叠和环。motif 作为结构域中的亚单位,表现结构域的
各种生物学功能。tructure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间:的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。coiled coil:卷曲螺旋,是蛋白质中由2~7 条α螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。
NCBI :美国国立生物技术信息中心(National Center for Biotechnology Information),1988 年设立,为美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank 数据库,PubMed 医学文献检索数据库等。。
Conserved sequence :保守序列。演化过程中基本上不变的DNA 中的碱基序列或蛋白质中的氨基酸序列。Tandem repeat sequences:串联重复序列。染体上同一碱基序列的多拷贝重复,在物理作图中用作标记物。
Sequence tagged site:序列示踪位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的
基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的STSs。
Gene mapping:基因作图。对DNA分子(染体或质粒)中基因的相对位置和距离进行确定的过程。
Physical map :物理图谱。不考虑遗传,DNA 中可识别的界标(如限制性酶切位点和基因等)的位置图。界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理图谱是染体上的条带图谱;最高分辨率的物理图谱是染体中完整的核苷酸序列。
UniGene :美国国家生物技术信息中心提供的公用数据库,该数据库将 GenBank 中属于同一条基因的所有片断拼接成完整的基因进行收录。非蛋白质编码区:非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的 DNA 的复合体,它们至少包括以下类型的 DNA 成份或由其表达的 RNA 成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核 RNA (hmRNA)短散置元、(short interspersed elements)长散置元、(long interspersed elements)、伪基因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。
PAM方阵:指的是氨基酸置换矩阵,属于打分矩阵,用序列相似的一组蛋白质的对位排列来确定单步氨基酸变化,以此来预测进化过程中大部分可能的氨基酸变化。
BLAST(Basic Local Alignment Search Tool):基于局部序列排比的常用数据库搜索工具。
二级数据库:对于原始生物分子进行整理、分类的结果。是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的(存放从初级数据库派生而来的序列信息的数据库)
权重矩阵:基础上针对特定的应用目标而建立的数据库。
标度树(scaled tree):分支长度与相邻节点对的差异程度成正比的树。
rooted tree有根树:含有一个被认为是公共祖先的节点、并且该节点到其他节点只存在唯一路径的一棵系统发生树。
无根树(unrooted tree):只表明节点间的关系,无进化发生方向的信息,通过引用外或外部参照物种,可以在无根树中指派跟节点。(一种系统发育树,所有在树中的种系的最后共同祖先不显示。)
信息位点:由位点产生的突变数目把其中的一颗树与其他树区分开的位点。在这个位点上至少有两种不同的核苷酸,且这些核苷酸至少出现两次。
HMM(隐式马尔科夫模型):一种统计模型,它考虑有关匹配,错配和间隔的所有可能的组合来产生一组序列排列。①
距离法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类之间的进化距离,构建一个进化距离矩阵。其次基于这个矩阵中的进化距离关系构建进化树。
近邻:任意一颗无根树中仅被一个内部节点分隔的一对物种。
序列注释:是指从原始序列数据中获得有用的生物学信息。这主要是指基因组DNA中寻基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
系统发育学(phylogenetic):确定生物体间进化关系的科学分支。
系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程。
分子途径:指一组连续起作用以到共同目标的蛋白质。
折叠识别法:寻与已知蛋白最合适的模板,进行结构和序列比对,最终建立机构模型。
又称为线索化方法。(另一版本:先假设一个特定的蛋白构象,然后对这一构象进行评估的过程。)
蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。
虚拟筛选:针对重要疾病特定靶标生物大分子的三维结构或定量构效关系(Quantitative structure-activity relationships,QSAR)模型,从现有小分子数据库中,搜寻与靶标生物大分子结合或符合QSAR模型的化合物,进行筛选实验研究。
1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科
2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。
3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。
4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。
5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查。
7、生物数据库搜索(database search):通过特定序列相似性比对算法,出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论