⽣物信息学的现状与展望
⽣物信息学的现状与展望
The Current Status and The Prospect of Bioinformatics
中国科学院院⼠ 张春霆
(天津⼤学⽣命科学与⼯程研究院 天津300072)
摘 要:本⽂阐述了⽣物信息学产⽣的背景,⽣物学数据库,⽣物信息学的主要研究内容,与⽣物信息学关系密切的数学和计算机科学技术领域,⽣物信息学产业等内容,展望了其未来并提出了若⼲在我国发展⽣物信息学的建议。着重指出,理解⼤量⽣物学数据所包括的⽣物学意义已成为后基因组时代极其重要的课题。⽣物信息学的作⽤将⽇益重要。有理由认为,今⽇⽣物学数据的巨⼤积累将导致重⼤⽣物学规律的发现。⽣物信息学的发展在国内、外基本上都处在起步阶段。因此,这是我国⽣物学赶超世界先进⽔平的⼀个百年⼀遇的极好机会。
关键词:⼈类基因组计划 ⽣物信息学
⼀、⽣物信息学产⽣的背景
有⼈说,基于序列的⽣物学时代已经到来,尽管对“序列⽣物学”这⼀提法可能有所争议,但是今⽇像潮⽔般涌现的序列信息却是⽆可争辩的事实。⾃从1990年美国启动⼈类基因组计划以来,⼈与模式⽣物基因组的测序⼯作进展极为迅速。迄今已完成了约40多种⽣物的全基因组测序⼯作,⼈基因组约3x109碱基对的测序⼯作也接近完成。⾄2000年6⽉26⽇,被誉为⽣命“计划”的⼈类基因组计划,经过美、英、⽇、法、德和中国科学家的艰苦努⼒,终于完成了⼯作草图,这是⼈类科学世上⼜⼀个⾥程碑式的事件。它预⽰着完成⼈类基因组计划已经指⽇可待。截⽌⽬前为⽌,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。在⼈类基因组计划进⾏过程中所积累起来的技术和经验,使得其它⽣物基因组的测序⼯作可以完成得更快捷。可以预计,今后DNA序列数据的增长将更为惊⼈。⽣物学数据的积累并不仅仅表现在DNA序列⽅⾯,与其同步的还有蛋⽩质的⼀级结构,即氨基酸序列的增长。此外,迄今为⽌,已有⼀万多种蛋⽩质的空间结构以不同的分辨率被测定。基于cDNA序列测序所建⽴起来的EST数据库其纪录已达数百万条。在这些数据基础上派⽣、整理出来的数据库已达500余个。这⼀切构成了⼀个⽣物学数据的海洋。可以打⼀个⽐⽅来说明这些数据的规模。有⼈估计,⼈类(包括已经去世的和仍然在世的)所说过的话的信息总量约为5唉字节(1唉字节等于1018字节)。⽽如今⽣物学数据信息总量已接近甚⾄超过此数量级。这种科学数据的急速和海量积累,在⼈类的科学研究历史中是空前的。
数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与正在以指数⽅
式增长的⽣物学数据相⽐,⼈类相关知识的增长(粗略地⽤每年发表的⽣物、医学论⽂数来代表)却⼗分缓慢。⼀⽅⾯是巨量的数据;另⼀⽅⾯是我们在医学、药物、农业和环保等⽅⾯对新知识的渴求,这些新知识将帮助⼈们改善其⽣存环境和提⾼⽣活质量。这就构成了⼀个极⼤的⽭盾。这个⽭盾就催⽣了⼀门新兴的交叉科学,这就是⽣物信息学。美国⼈类基因组计划实施五年后的总结报告中,对⽣物信息学作了以下定义:⽣物信息学是⼀门交叉科学,它包含了⽣物信息的获取、处理、存储、分发、分析和解释等在内的所有⽅⾯,它综合运⽤数学、计算机科学和⽣物学的各种⼯具,来阐明和理解⼤量数据所包含的⽣物学意义。⽣物信息学这⼀名词的出现仅仅是⼏年前的事情,但是计算⽣物学这⼀名词的出现要早的多。鉴于这两门学科之间并没有或难以界定严格的分界线,在这⾥统称为⽣物信息学。
⼆、⽣物学数据库
《Nucleic Acids Research》杂志连续七年在其每年的第⼀期中详细介绍最新版本的各种数据库。在2000年1⽉1⽇出版的28卷第⼀期中详细地介绍了115种通⽤和专⽤数据库,包括其详尽描述和访问⽹址。迄今为⽌,⽣物学数据库总数已达500个以上。在DNA序列⽅⾯有GenBank、EMBL和DDBJ等。在蛋⽩质⼀级结构⽅⾯有SWISS-PROT、PIR和MIPS等。在蛋⽩质和其它⽣物⼤分⼦的结构⽅⾯有PDB 等。在蛋⽩质结构分类⽅⾯有SCOP和CATH等。应该指出,⼏乎所有这些数据库对学术研究部门或⼈员来说都是免费的,可以免费下载或提供免费服务。但是鉴于相当多的数据库的经营者们⾯临
着财务紧缺的境地,这种免费的局⾯还能维持多久就不得⽽知了。有的数据库,如SWISS-PROT,已开始向商业⽤户每年收取数千⾄数万美元不等的使⽤费。其它数据库暂时还是免费的,但不知是否永远免费。如果⼀些重要的数据库对学术研究部门开始收费,这对于我国⽣物信息学的发展是⾮常不利的。中国是⼀个基因信息资源⼤国,我们应当抓紧建设我国⾃有的数据库,在世界上做出我们⾃⼰的贡献,在平等的基础上与国外共享⽣物信息资源。
三、⽣物信息学的主要研究内容
⽣物信息学主要包括以下⼏个主要研究领域,但是限于篇幅,这⾥仅列出其名称并只做简单介绍。
1、序列⽐对(Alignment)。
基本问题是⽐较两个或两个以上符号序列的相似性或不相似性。序列⽐对是⽣物信息学的基础,⾮常重要。两个序列的⽐对有较成熟的动态规划算法,以及在此基础上编写的⽐对软件包——BALST和FASTA,可以免费下载使⽤。这些软件在数据库查询和搜索中有重要的应⽤。有时两个序列总体并不很相似,但某些局部⽚断相似性很⾼。Smith-Waterman算法是解决局部⽐对的好算法,缺点是速度较慢。两个以上序列的多重序列⽐对⽬前还缺乏快速⽽⼜⼗分有效的算法。
2、结构⽐对。
基本问题是⽐较两个或两个以上蛋⽩质分⼦空间结构的相似性或不相似性。已有⼀些算法。
3、蛋⽩质结构预测,包括2级和3级结构预测,是最重要的课题之⼀。
从⽅法上来看有演绎法和归纳法两种途径。前者主要是从⼀些基本原理或假设出发来预测和研究蛋⽩质的结构和折叠过程。分⼦⼒学和分⼦动⼒学属这⼀范畴。后者主要是从观察和总结已知结构的蛋⽩质结构规律出发来预测未知蛋⽩质的结构。同源模建和指认(Threading)⽅法属于这⼀范畴。虽然经过30余年的努⼒,蛋⽩结构预测研究现状远远不能满⾜实际需要。
4、计算机辅助基因识别(仅指蛋⽩质编码基因)。
基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之⼀,⽽且越来越重要。经过20余年的努⼒,提出了数⼗种算法,有⼗种左右重要的算法和相应软件上⽹提供免费服务。原核⽣物计算机辅助基因识别相对容易些,结果好⼀些。从具有较多内含⼦的真核⽣物基因组序列中正确识别出起始密码⼦、剪切位点和终⽌密码⼦,是个相当困难的问题,研究现状不能令⼈满意,仍有⼤量的⼯作要做。
5、⾮编码区分析和DNA语⾔研究,是最重要的课题之⼀。
在⼈类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实⼀点也不是垃圾,只
是我们暂时还不知道其重要的功能。分析⾮编码区DNA序列需要⼤胆的想象和崭新的研究思路和⽅法。DNA序列作为⼀种遗传语⾔,不仅体现在编码序列之中,⽽且隐含在⾮编码序列之中。
6、分⼦进化和⽐较基因组学,是最重要的课题之⼀。
早期的⼯作主要是利⽤不同物种中同⼀种基因序列的异同来研究⽣物的进化,构建进化树。既可以⽤DNA序列也可以⽤其编码的氨基酸序列来做,甚⾄于可通过相关蛋⽩质的结构⽐对来研究分⼦进化。以上研究已经积累了⼤量的⼯作。近年来由于较多模式⽣物基因组测序任务的完成,为从整个基因组的⾓度来研究分⼦进化提供了条件。可以设想,⽐较两个或多个完整基因组这⼀⼯作需要新的思路和⽅法,当然也渴望得到更丰硕的成果。这⽅⾯可做的⼯作是很多的。
7、序列重叠(Contigs)装配。
⼀般来说,根据现⾏的测序技术,每次反应只能测出500 或更多⼀些碱基对的序列,这就有⼀个把⼤量的较短的序列全体构成了重叠(Contigs)。逐步把它们拼接起来形成序列更长的重叠,直⾄得到完整序列的过程称为重叠装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是⼀个NP-完备性算法问题。
数据库学什么8、遗传密码的起源。
遗传密码为什么是现在这样的?这⼀直是⼀个谜。⼀种最简单的理论认为,密码⼦与氨基酸之间的关系是⽣物进化历史上⼀次偶然的事件⽽造成的,并被固定在现代⽣物最后的共同祖先⾥,⼀直延续⾄今。不同于这种“冻结”理论,有⼈曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种⽣物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。
9、基于结构的药物设计。
⼈类基因组计划的⽬的之⼀在于阐明⼈的约10万种蛋⽩质的结构、功能、相互作⽤以及与各种⼈类疾病之间的关系,寻求各种和预防⽅法,包括药物。基于⽣物⼤分⼦结构的药物设计是⽣物信息学中的极为重要的研究领域。为了抑制某些酶或蛋⽩质的活性,在已知其3级结构的基础上,可以利⽤分⼦对接算法,在计算机上设计抑制剂分⼦,作为候选药物。这种发现新药物的⽅法有强⼤的⽣命⼒,也有着巨⼤的经济效益。
10、其他。
如基因表达浦分析,代谢⽹络分析;基因芯⽚设计和蛋⽩质组学数据分析等,逐渐成为⽣物信息学中新兴的重要研究领域。这⾥不再赘述。
四、与⽣物信息学关系密切的数学领域
限于篇幅,仅列出它们的名称。统计学,包括多元统计学,是⽣物信息学的数学基础之⼀;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在⽣物信息学中有重要应⽤;运筹学,如动态规划法是序列⽐对的基本⼯具,最优化理论与算法,在蛋⽩质空间结构预测和分⼦对接研究中有重要应⽤,拓扑学,这⾥指⼏何拓扑,在DNA超螺旋研究中是重要⼯具,在多肽链折叠研究中也有应⽤;函数论,如傅⾥叶变换和⼩波变换等都是⽣物信息学中的常规⼯具;信息论,在分⼦进化、蛋⽩质结构预测、序列⽐对中有重要应⽤,⽽⼈⼯神经⽹络⽅法则⽤途极为⼴泛;计算数学,如常微分⽅程数值解法是分⼦动⼒学的基本⼯具;论,在研究遗传密码和DNA序列的对称性⽅⾯有重要应⽤;组合数学,在分⼦进化和基因组序列研究中⼗分有⽤。原则上讲,各种数学理论或多或少或直接或间接都应该在⽣物学研究中有各种各样的应⽤,其中包括⽣物信息学,这种情况正像过去的⼀、两个世纪,数学应⽤于物理学⼀样。⽽且,⽣物信息学的发展,⼜为数学的发展提供了⼀个新的机遇,可能会产⽣⼀些新的分⽀科学。
五、与⽣物信息学密切相关的计算机科学技术
⾸先是⽹络技术和数据库(特别是关系型数据库)管理技术,包括极为重要的实验室数据信息管理系统(LIMS)。其它诸如数据整合和可视化、数据挖掘(Data Mining)、基于Unix操作系统的各种软件包以及⼈⼯智能,和⼀些重要算法的复杂性研究。
六、⽣物信息学⼯业
⽣物信息学不仅具有重⼤的科学意义,⽽且具有巨⼤的经济效益。它既属于基础研究,以探索⽣物学⾃然学⾃然规律为⼰任;⼜属于应⽤研究,它的许多研究成果可以较快或⽴即产业化,成为价值很⾼的产品。⽣物信息学的这⼀特点在现有的许多学科中⼏乎是独⼀⽆⼆的。
这⾥仅举⼀个例⼦来说明⽣物信息学⼯业的潜⼒。据报导,只有50名员⼯的德国Lion⽣物信息学公司,将通过扫描公共数据库中的序列来发现500个可能的药物作⽤靶点,以⼀亿美元的价格预售给德国Bayer公司。⼜据报导,⽣物信息学产业的市场在1998年已经达到10亿美元,⽽到2002年估计可增长到2000亿美元以上。这是⼀笔巨⼤的财富,任何政府的科技决策⼈都不能对此视⽽不见。NIH已向美国国会建议投资160亿美元在美国建⽴5~20个将⽣物学与计算结合起来的中⼼。法国议会科技决策评估办公室,最近评估了基因⼯程、⽣物信息学和组合化学等学科的应⽤前景及法国的对策。美国出现了⼤批的基于⽣物信息学的公司,实施了许多⽣物信息学研究计划,主要与药物设计,基因⼯程药物,⽣物芯⽚,代谢⼯程与化学⼯程密切相关。⽣物信息学⼯业是知识经济的⼀个典型,潜⼒巨⼤。
七、展望与建议
⽣物学是⽣物信息学的核⼼和灵魂,数学与计算机技术则是它的基本⼯具。这⼀点必须着重指出。预测⽣物信息学的未来主要就是要预测他对⽣物学的发展将带来什么样的根本性的突破。这种预测是⼗分困难的,甚⾄⼏乎不可能。但是⼈类科学研究史表明,科学数据的⼤量积累将导致重⼤的科学规律
的发现。例如:对数百颗天体运⾏数据的分析导致了开普勒三⼤定律和万有引⼒定律的发现;数⼗种元素和上万种化合物数据的积累导致了元素周期表的发现;氢原⼦光谱学数据的积累促成了量⼦理论的提出,为量⼦⼒学的建⽴奠定了基础。历史的经验值得注意,有理由认为,今⽇⽣物学数据的巨⼤积累也将导致重⼤⽣物学规律的发现。⽣物信息学的发展在国内、外基本上都处在起步阶段,所拥有的条件也⼤体相同,即使我国有关条件差⼀些,但差别也不⼤。因此,这是我国⽣物学赶超国际先进⽔平的⼀个百年⼀遇的极好机会。机不可失,时不再来,鉴于⽣物信息学在我国⽣物信息学和经济发展中的重要意义和其发展的紧迫性,因此,由国家出⾯组织全国的⼒量,搞个类似“两弹⼀星”那样的,但是,规模要⼩的多,花钱也少的多的⽣物信息学发展计划,不是不可以考虑的。要充分发挥中央与地⽅,⽣物学科研究⼈员等⽅⽅⾯⾯的积极性。⽣物信息学研究投资少,见效快,可充分发挥我国智⼒资源丰富的长处,是特别适合我国国情的⼀项研究领域。要在⼤学⾥建⽴⽣物信息学专业,设⽴硕⼠点和博⼠点,培养专门⼈才。可以组织⼀⼤批数学、物理、化学和计算机科技⼯作者,在⾃愿的基础上,学习有关的⽣物学知识,开展多⽅⾯的⽣物信息学研究。经过⼗⼏年或更长的时间的努⼒,逐渐使我国成为⽣物信息学研究强国,是完全有可能的。(2000年)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论