生物信息学复习资料
第一章
1、什么是生物信息学?
生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义
2、BIOINFORMATICS这个词是谁提出的?
林华安
3、生物信息学的发展经过了哪些阶段?
前基因组时代、基因组时代、后基因组时代
4、HGP是什么意思?什么时候开始?什么时候全部结束?
人类基因组计划、1990.10、2003
5、生物信息学的研究对象是什么?
6、生物信息学的研究内容有哪些?
获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;
全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片
7、学习生物信息学的目的是什么?
阐明和理解大量数据所包含的生物学意义
第二章
1、生物信息数据库有哪些要求?
时间性、注释、支撑数据、数据质量、集成性
2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?
一级数据库二级数据库;
一级数据库:
数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释
二级数据库:
对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的
一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库
二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列
、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库
3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。
网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC
核酸数据库:EMBL、DDBJ、GenBank
蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI
生物大分子数据库:PDB(Protein Data Bank)
蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP
4、NCBI和EBI使用的搜索引擎分别是什么?
NCBI提取工具:Entrez EBI提取工具:SRS6
5、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?
基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一
哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身
最后字符:所有序列数据库记录都在最后一行以“//”结尾
6、什么是Refseq?
The Reference Sequence database 参考序列数据库
RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列
7、FASTA格式有哪些部分组成,以什么字符开始?
8.NCBI的在线和离线序列提交软件是什么?
在线提交软件:Bankit 离线提交软件:Sequin
第三章
1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?
同源性:两条序列有一个共同的进化祖先,那么它们是同源的
相似性:序列间相似性的量度
同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念
直系同源(orthology):不同物种内的同源序列
旁系同源(paralogy):同一物种内的同源序列
2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?
序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。
全局比对:序列全长进行比对,寻一个最佳的配对。
局部比对:子序列比对,只需要寻局部的最佳匹配。
关键问题:计分矩阵和算法
3、核酸序列比对的记分矩阵有几种?试列出这几种积分矩阵。
计分矩阵:三种 等价矩阵、GLAST矩阵、转换颠换矩阵(transition,transversion)
等价矩阵
A | T | C | G | |
A | 1 | 0 | 0 | 0 |
T | 0 | 1 | 0 | 0 |
C | 0 | 0 | 1 | 0 |
G | 0 | 0 | 0 | 1 |
BLAST矩阵
A | T | C | G | |
A | 5 | -4 | -4 | -4 |
T | -4 | 5 | -4 | -4 |
C | -4 | -4 | 5 | -4 |
G | -4 | -4 | -4 | 5 |
转换颠换矩阵(transition,transversion)
A | T | C | G | |
A | 1 | -5 | -5 | -1 |
T | -5 | 1 | -1 | -5 |
C | -5 | -1 | 1 | -5 |
G | -1 | -5 | -5 | 1 |
4、蛋白质序列比对的的记分矩阵有几种?遗传密码矩阵和疏水矩阵是怎样得到的?
计分矩阵:六种 等价矩阵、遗传密码矩阵GCM、疏水矩阵 、PAM矩阵(Point Accepted Mutation)、BLOSUM矩阵(Blocks Amino Acid Substitution Matrices)、PAM矩阵(Point Accepted Mutation)
遗传密码矩阵:
疏水矩阵:
5、试述PAM和BLOSUM矩阵后面的数字与需要比对的序列之间相似性的关系。
相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大,采用BLOSUM矩阵时,后面的数字越小
6、什么是线性罚分和仿射罚分?计算公式是怎样的?
线性罚分:
仿射罚分:
7、点阵法序列比对是怎样进行的?滑动窗口技术有什么作用?
点阵法:点阵法是最基本的,也是很重要的一种可视化序列比对方法。 “矩阵作图法” 或 “对角线作图”
sql自学难吗
◆首先建立一个矩阵,两条序列的长度分别为矩阵的行数和列数,一条序列置于矩阵的顶部,一条序列置于矩阵的左侧。
◆把具有相同字符的单元做标记
滑动窗口技术:
◆由于序列可能很长,而字符只有4个(核酸),所以会有很多随机性的没有生物学意义的相似性,这些是比对中的噪声。
◆使用滑动窗口代替一次一个位点的比较是解决噪声问题的有效方法。
◆假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记。
◆基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域
8、Needleman-Wunsch算法和Smith-Waterman 算法哪个是全局比对,哪个是局部比对?它们的具体算法是怎样的?
◆N-W算法是一种全局比对动态规划算法
例:利用Needleman-Wunsch算法对两条DNA序列进行全局比对。
a=ATTCCAAG,b=TTCGAGT,打分系统是(4,-3,-4),匹配4分,不匹配-3,空位-4
◆首先确定打分系统
然后分3步:
(1)构造动态规划矩阵,并给动态规划矩阵赋初值
(2)按照最优分的递归算法填充动态规划矩阵
(3)从最后一个单元格开始,回溯最优化比对路径
S-W算法是局部比对算法
步骤:
1)初始化全填0。
2)按下列方法填充动态规划矩阵:填0时不画箭头
公式:
3)回溯时从最大值开始,遇到0则结束
例:
利用S-W算法对两条DNA序列进行局部比对。a=ATTCCAAG,b=TTCGAGT,得分系统:{4,-3,-4}
9、用动态规划法出两序列的所有最佳比对,要求写出详细过程。打分矩阵采用{(4,-3,-4},即匹配得4分,不匹配得-3分,空位得-4分。
序列1:AAAG,序列2:ACG
第四章
1、BLAST是什么英文名词的缩写,中文含义是什么?
BLAST (Basic Local Alignment Search Tool、基本局部比对搜索工具)
2、请简述BLAST的基本算法,其关键是什么?
简述:
◆数据库搜索相似序列的基础是序列的相似性比对,就是将查询序列与数据库里面的序列逐一的两两比对分析。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论