生物信息期末总结
1.生物信息学(Bioinformatics)定义:(第一章) ★
生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。
(或:)
生物信息学是运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。(NSFC)
2. 科研机构及网络资源中心:
NCBI:美国国立卫生研究院NIH下属国立生物技术信息中心;
EMBnet:欧洲分子生物学网络;
EMBL-EBI:欧洲分子生物学实验室下属欧洲生物信息学研究所;
ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统;(Expert Protein Analysis System)
Bioinformatics Links Directory;
PDB (Protein Data Bank);
UniProt 数据库
3. 生物信息学的主要应用:
1.生物信息学数据库;2.序列分析;3.比较基因组学;4.表达分析;5.蛋白质结构预测;6.系统生物学;7.计算进化生物学与生物多样性。
4. 什么是数据库: ★
1、定义:数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。
(记录record、字段field、值value)
2、生物信息数据库应满足5个方面的主要需求:
(1)时间性;(2)注释;(3)支撑数据 ;(4)数据质量 ;(5)集成性。
3、生物学数据库的类型:一级数据库和二级数据库。
(国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;
蛋白质序列数据库有SWISS-PROT等;蛋白质结构库有PDB等。)
4、一级数据库与二级数据库的区别: ★
1)一级数据库:
包括:a.基因组数据库----来自基因组作图;
b.核酸和蛋白质一级结构序列数据库;
c.生物大分子(主要是蛋白质)的三维空间结构数据库,(来自X-衍射和核磁共振结构测定);
2)二级数据库:
是对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。数据库学什么
二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。
5、一个数据库记录(entry)一般由两部分组成:
1)原始序列数据(sequence data);
2)描述这些数据生物学信息的注释(annotation):注释中包含的信息与相应的
序列数据同样重要和有应用价值。
6、数据的完整性和注释工作量:1)序列数据广,序列注释不够完整;
2)库数据面窄,序列注释全面.
7、数据库的动态更新:1)不断增加;2)不断修正.
5、几个大型数据库简介:
NCBI、EBI、SIB(共点:拥有庞大的一级数椐库、大量工具软件和广泛的外联。)
1、NCBI():
NCBI是指美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI),成立于1988年,其主要工作是开发以GenBank为代表的数据库,进行计算生物学研究,开发用于分析基因组数据的软件工具,发布生物医学信息。
1)Entrez(集成化的数据库)(bi.v/gquery/)
Entrez是NCBI著名的用于提取序列信息的工具,它将科学文献、DNA和蛋白质序列数据库
、蛋白质三维结构数据、种研究数据以及全基因组组装数据整合成一个高度集成的系统。类似于EBI的SRS(见下文),是一个查询、提取和显示系统。The original version(原始版本)(1991) of Entrez had just 3 nods。
2)可查Protein、PubMed(生物医学文献数据库)、Nucleotide、Genome、Gene、Pathway等相关信息。
2、EMBL-EBI(www.ebi.ac.uk)
EMBL Nucleotide Sequence Data Library(now known as EMBL-Bank)为世界上第一个核酸序列数据库(1980)。
欧洲分子生物学实验室下属欧洲生物信息学研究所(European Bioinformatics Institute, EBI,1992,英国)EMBL-EBI核酸数据库提供了序列搜索的服务。通过它的序列提取系统—SRS6(搜索引擎),我们可以用十几种不同的方法(如用关键字)搜索我们想要的序列。EBI还资助了Ensembl项目,Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站。欧洲分子生物学实验室EMBL(The European Molecular Biology Laboratory)。Services、UniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面。
3、SIB()
瑞士生物信息研究所(Swiss Institue of Bioinformatics,SIB ,30 March 1998 )。用于获取蛋白质序列和相关数据的最有用的资源之一就SIB提供的蛋白质专家分析系统:SWISS-PROT,ExPASy(Expert Protein Analysis System瑞士日内瓦大学专家蛋白质分析系统(pasy.ch/))。
6、核酸序列数据库:
1、国际上权威的核酸序列数据库:
(1)欧洲分子生物学实验室的EMBL;
(2)美国生物技术信息中心的GenBank;
(3)日本遗传研究所的DDBJ,( www.ddbj.nig.ac.jp/);
这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。
2、INSDC国际核酸序列数据库协会:
1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC),三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。(/)
7、蛋白质序列数据库:
1)PIR(Protein Information Resource);(town.edu/)
2)SWISS-PROT; (pasy.ch/sprot/sprot-top.html)
3)TrEMBL;(www.ebi.ac.uk/trembl/index.html) 是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中;
4)NCBI美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI);
5)UniProt;通用蛋白质数据库(/)包括:(Swiss-Prot、TrEMBL、PIR) 用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论