、名词解释:
1.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒 介,数据库为载体。 利用数学知识建立各种数学模型 ; 利用计算机为工具对实验所得大量生 物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库: 在一级数据库、 实验数据和理论分析的基础上针对特定目标衍生而来, 是对 生物学知识和信息的进一步的整理。
序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串, 大于号( >)表示一个新文件的开始,其他无特殊要求。
序列格式: 是 GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。 该文件格式按域划分为 4 个部分:第一部分包含整个记录的信息(描述符); 第二部分包含 注释;第三部分是引文区, 提供了这个记录的科学依据; 第四部分是核苷酸序列本身, 以“ 询
序列( query sequence ):也称被检索序列,用来在数据库中检索并进行相似性比较的序
列。 P98
8.打分矩阵( scoring matrix ): 在相似性检索中对序列两两比对的质量评估方法。包括
基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如 PAM两类方法。P29
9.空位( gap): 在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳
数据库学什么比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 P29
10.空位罚分 :空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入
不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。 P37
值:衡量序列之间相似性是否显著的期望值。 E值大小说明了可以到与查询序列(query) 相匹配的随机或无关序列的概率, E值越接近零,越不可能到其他匹配序列,
E值越小意
味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。 P95
12•低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域, 如poly( A)。
13•点矩阵(dot matrix ):构建一个二维矩阵,其 X轴是一条序列,Y轴是另一个序列, 然后在2个序列相同碱基的对应位置 (x, y)加点,如果两条序列完全相同则会形成一条主
对角线, 如果两条序列相似则会出现一条或者几条直线; 如果完全没有相似性则不能连成直 线。
14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比 对,以观察它们在结构上的异同,来回答大量的生物学问题。
15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断 出物种起源的时间。
16.系统发育分析: 通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推 断不同物种或基因之间的进化关系。
17.进化树的二歧分叉结构: 指在进化树上任何一个分支节点,一个父分支都只能被分成两 个子分支。
系统发育图: 用枝长表示进化时间的系统树称为系统发育图, 是引入时间概念的支序图。
18.直系同源: 指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似 或不同的功能。 (书: 在缺乏任何基因复制证据的情况下, 具有共同祖先和相同功能的同源 基因。)
19.旁系(并系)同源: 指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这 些基因在功能上可能发生了改变。 ( 书:由于基因重复事件产生的相似序列。 )
20.外类: 是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
21.有根树: 能够确定所有分析物种的共同祖先的进化树。
22.除权配对算法( UPGM)A :最初,每个序列归为一类,然后到距离最近的两类将其归 为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。
23.邻接法( neighbor-joining method ) :是一种不仅仅计算两两比对距离,还对整个树 的长度进行最小化,从而对树的拓扑结构进行限制, 能够克服UPGM算法要求进化速率保持
恒定的缺陷。
24.最大简约法(MP :在一系列能够解释序列差异的的进化树中到具有最少核酸或氨基 酸替换的进化树。
25.最大似然法( ML): 它对每个可能的进化位点分配一个概率,然后综合所有位点,到
概率最大的进化树。 最大似然法允许采用不同的进化模型对变异进行分析评估, 并在此基础
上构建系统发育树。
26.一致树( consensus tree ):在同一算法中产生多个最优树,合并这些最优树得到的树 即一致树。
27.自举法检验( Bootstrap ): 放回式抽样统计法。通过对数据集多次重复取样,构建多 个进化树,用来检查给定树的分枝可信度。
28.开放阅读框(ORF :开放阅读框是基因序列的一部分, 包含一段可以编码蛋白的碱基序
列。
29.密码子偏好性( codon bias ): 氨基酸的同义密码子的使用频率与相应的同功 tRNA 的
水平相一致,大多数高效表达的基因仅使用那些含量高的同功 tRNA所对应的密码子,这种
效应称为密码子偏好性。
30.基因预测的从头分析: 依据综合利用基因的特征,如剪接位点,内含子与外显子边界,
调控区,预测基因组序列中包含的基因。
31.结构域( domain) : 保守的结构单元,包含独特的二级结构组合和疏水内核,可能 单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。
32.超家族 :进化上相关,功能可能不同的一类蛋白质。
33.模体( motif ):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般
10-20 个残基。
34.序列表谱( profile ):是一种特殊位点或模体序列,在多序列比较的基础上,氨 基酸的权值和空位罚分的表格。
矩阵:PAM指指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性, 通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个 PAM
单位是蛋白质序列平均发生 1%的替代量需要的进化时间。
矩阵:模块替代矩阵。 矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。
每个矩阵适合特定的进化距离。例如,在 BL0SUM6矩阵中,比对的分值来自不超过 62%^
致率的一组序列。
:位点特异性迭代比对。 是一种专门化的的比对, 通过调节序列打分矩阵 ( scoring matrix )
探测远缘相关的蛋白。
:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的 Genbank 序列。
(Protein Data Bank ): PDB中收录了大量通过实验(X射线晶体衍射,核磁共振 NMR测 定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。 PDB
数据库的访问号由一个数字和三个字母组成 (如, 4HHB ,同时支持关键词搜索, 还可以 FASTA 程序进行搜索。
:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数据库的 更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。
41.折叠子(Fold ):在两个或更多的蛋白质中具有相似二级结构的大区域, 这些大区域具有 特定的空间取向。
:是与SWISS-PROT相关的一个数据库。包含从 EMBL核酸数据库中根据编码序列 (CDS)翻译 而得到的蛋白质序列,并且这些序列尚未集成到 SWISS-PRO数据库中。
(Molecular Modeling Database) :是(NCBI)所开发的生物信息数据库集成系统 Entrez
的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。 与PDB相比,对于数据
库中的每一个生物大分子结构, MMD具有许多附加的信息,如分子的生物学功能、产生功
能的机制、分子的进化历史等 ,还提供生物大分子三维结构模型显示、结构分析和结构比 较工具。
数据库: 提供关于已知结构的蛋白质之间结构和进化关系的详细描述, 包括蛋白质结构数据
库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋 白质还包括下述信息:到 PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化 关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类( class )、
折叠子(fold )、超家族(super family )、家族(family )、单个PDB蛋白结构记录。
:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质 家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属
离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等; PROSITE还包
括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。
Ontology 协会: 编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。 从 3
个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。
47.表谱(PSSM:指一张基于多序列比对的打分表, 表示一个蛋白质家族, 可以用来搜索序
列数据库。
48.比较基因组学: 是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测 其他原核生物、真核生物类中的基因数目、位置、功能、表达机制和物种进化的学科。
49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如 果
每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非 简约性信息位点。
二、问答题
1) 生物信息学的发展经历了哪几个阶段 答:生物信息学的发展经历了 3个阶段。
第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库 的建立以及DNA和蛋白质序列分析为主要工作;
第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立 和基因寻为主要工作。
第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质 组分析以及其他各种基因组学研究。
2) 生物信息学步入后基因组时代后,其发展方向有哪几个方面。 答:生物信息学步入后基因组时代后,其发展方向主要有:
①各种生物基因组测序及新基因的发现;②单核苷酸多态性( SNP分析;③基因
组非编码区信息结构与分析;④比较基因组学和生物进化研究;⑤蛋白质结构和功能的 研究。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论