多重PCR引物设计的软件开发

第一章   
1.1  背景知识简介
聚合酶链式反应(Polymerase Chain Reaction, PCR)是体外扩增DNA的一种技术;其能够在短时间内根据极微量的模板序列扩增出大量特异性DNA片断,扩增过程类似于核裂变。Mullis博士在1983年发明了该技术,并因此于1993年获得诺贝尔化学奖。PCR技术是现代分子生物学中最有价值的技术之一[1];例如:人类基因组计划,亲子鉴定,对罪犯DNA的鉴别,都依赖于这一技术。
在聚合酶链式反应中,原始的DNA片段称为模板序列;待复制的DNA片段称为目标序列,它是模板序列的一部分;引导目标序列合成的寡核苷酸片段称为引物,其长度一般在16-27之间。每个反应一般含2040个循环,每次循环目标序列含量翻一倍;每个循环由三个主要步骤构成:1.变性(90-96):双链数据结构与算法论文DNA模板在热作用下,氢键断裂,形成单链DNA2.退火(2
5-65):系统温度降低,引物与DNA模板结合,形成局部双链;3.延伸(70-75):在Taq酶的作用下,以dNTP为原料,从引物的5′→3′端延伸,合成与模板互补的DNA链。扩增一段目标序列需要两条引物,分别和目标序列的两端相匹配。引物的作用类似于电路里的开关,引物设计不好会导致产物杂乱无章(即扩增失败),因此引物设计是PCR成功的关键之一。引物设计需要综合考虑引物的退火温度,GC含量,引物长度,特异性等。现有的PCR引物设计软件已经非常成熟,可以达到较好的效果, 常用软件有PRIMER 3, PRIMER 5, OLIGO 6.0等。
1.1.1多重PCR引物设计简介
多重聚合酶链式反应(多重PCR)是指在同一试管中同时进行多个PCR,从而一次性扩增多个目标片段,因此节省了大量的时间和金钱,具有巨大的经济和时间效应。由于引物之间以及引物与模板序列之间的相互干扰,一方面导致了多重PCR引物设计考虑因素增加,另一方面极大地增加了计算的空间和时间复杂度。同时多重PCR引物设计问题需要被当作一个整体考虑,不能被分割为多个PCR引物设计问题的简单组合[2]。现尚无完善的理论解决这一问题。综上所述,要实现多重PCR引物设计的自动化,在实践中需要解决两个问题:一、多重PCR引物设计的约束条件与评价标准;二、载体算法的选择。
1.1.2 遗传算法简介
遗传算法是一种随机优化算法,用于求解问题的全局最优解,尤其是对非线性问题的全局搜索和最优化。该算法由美国密歇根大学的John Holland教授于80年代提出,其借鉴了达尔文优胜劣汰的思想,以及遗传过程中的染体交叉与变异的概念。虽然遗传算法尚未被完全从理论上证明,但遗传算法已得到比较成熟的发展,并广泛地被成功应用于各类实际问题;Schema定理部分证明了该算法的有效性[3]
遗传算法主要步骤包括初始化,可行解的评估,交叉,变异,和收敛。每个步骤根据问题的性质与规模不同,均有多种策略可以选择。在实践中,要将遗传算法和问题结合需要解决如下几个问题:一、建立问题的数学模型并表示为数据结构;二、初始化策略的选择;三、挑选双亲与交叉策略的选择;四、变异策略的选择;五、收敛条件的选择;六、交叉率,变异率,初始解数目的选择。参见图1.1遗传算法流程图.

1.1遗传算法流程图
1.2 相关文献综述
由于多重PCR引物设计问题尚未在算法理论上得到完善解决,根据对文献的总结,一方面、国内对引物设计的自动化问题关注较少,鲜有文献记载;国外近几年已提出一些启发性的算法和相应的软件,例如MultiPLX[4][5],但尚无宣称成熟的算法与软件。另一方面、为了满足现实需要国外也有比较成熟的大型系统采用常规的算法,使用大量并行计算机以及较长的时间来为大规模多重PCR设计引物,虽然较好地解决了问题,但这需要以大量的时间和金钱为代价,同时也将应用限制在大规模PCR引物设计问题上。例如日本的PrimerStation,使用了100CPU(SunFire 15K)来为人类全基因扩增问题设计引物,耗时为3个月[6]
在调查总结文献的基础上,本研究选择了遗传算法作为解决问题的载体,具体思路将在第二章中进行阐述。台湾国立中央大学与国立中山大学共有两篇论文运用了遗传算法进行了多重PCR引物设计的研究[7][8];随后由李宗南教授总结后几位作者共同在05年国际遗传算法年会上公开提出用遗传算法来解决多重PCR引物设计这一观点[9]以上两项工作基本类似,因此共同存在三个较大的问题:首先、虽然作者从计算机专家的角度出发强调了遗传算法的应用,但对生物方面的约束条件未进行详细的调查研究而考虑不周全,甚至存在一些生物概念的误解。例如:退火温度TM是设计引物时关键的约束条件之一,而计算TM时作者使用了60
代提出的理论估算公式:TM=(A+T)+4(G+C),该公式忽略了影响退火温度的许多重要因素,已被实践证明无法准确估算退火温度,甚至无法适应单个PCR引物的设计[2];又例如:作者将引物自互补和发夹结构两个概念误解为同一个,前者是指完全相同的两条引物互补从而产生二聚物, 而后者是指一条引物折叠后和自身产生互补从而形成发夹二级结构;其次、作者对多重PCR生物参数部分未做较好的建模从而导致了生物定义上的错误;例如:作者因未定义合理的引物评价制度,从而特异性条件无法满足,所以作者自行提出了二次特异性的概念来使条件得到满足,但这是不合理的;又例如:作者只区分了引物的合不合适,却未分出合适的引物之间的好坏。最后,作者虽然提供了三个范围的输入给用户,但未给用户提供反馈接口,实验者只能被动接受计算结果,而无法将信息反馈到机器中来设计合适的产物;此外、作者未对遗传算法各参数和各部分未做较好的选择与调整。以上三个问题,前两个问题导致了程序不能成功地设计可以在实际实验中使用的多重PCR引物;最后一个问题导致了用户缺乏自主权,无法按照实际情况主导程序来选择合适的引物。综上所述,以上两项工作将遗传算法与引物设计问题结合从而给出了解决问题的新方法,但由于忽略了问题的实用方面从而导致问题未能实际解决。
1.3 研究目的与成果
工作目的归纳为:开发适用于中、小规模生物实验室的多重PCR引物设计软件;并将研究目的推广为:归纳总结开发多重PCR引物设计软件的一般性思路,提出启发性的方法,并将以上两项付诸实践检验;最后将研究思路概括为:针对性、实用性和一般性。
为了开发能够在实际生物实验中使用的应用软件,经调查研究后借鉴了应用遗传算法设计多重PCR引物的思想,对多重PCR引物设计软件开发问题的其它部分进行了独立的调查研究与设计。调查总结了多重PCR引物设计中的生物参数,参考了部分成熟的单重PCR引物设计软件,研究了多目标优化算法;最终建立了解决问题的数学模型, 选择了遗传算法作为载体并优化了其各部分的参数和选择计算策略。开发出在个人电脑(DELL INSPRION 630m; CPU: Pentium IV, 1.89GHz; RAM: 512MB)上可运行的多重PCR引物设计软件GAPrimer并撰写了相关用户操作手册;为了使软件在以后能在一个更广泛的领域被应用,以及受到可利用文献资源的限制,开发过程为全英文环境。GAPrimer使用了23个参数来约束14个生物学条件,通过14个权值来控制上述14个条件,并DOS下操作系统给用户提供了简易的人机接口使得以上37个参数均对用户开放;另外,GAPrimer 可以用于对40个引物以下的引物集合评估,还可以用于格式化从网上下载的序列。
1.4 本章小结
        本章的目的是为下文建立背景框架:首先回顾了相关的背景知识,随后根据研究目的和工作情况总结了相关文献,最后阐述了研究目的成果;下文中将以GAPrimer的建立过程为基础,对多重PCR引物设计的软件开发问题进行系统的阐述,并对在本章中提出的问题做出详细的解答。下文将按研究思路发展的顺序分七个章节进行阐述: 问题分析、相关生物学参数简介及其数学模型、引物评价体系、引物设计的遗传算法实现、GAPrimer 简介、实验结果及数据分析、总结与展望。

第二章  问题分析
2.1 多重PCR引物设计问题的数学模型
多重PCR引物设计问题是建立在PCR引物设计的基础上的多目标优化问题。一方面需要让每对引物满足单重PCR引物的约束条件,另一方面要考虑引物之间的相互影响;与此同时,多重PCR引物设计问题需要被当作一个整体考虑,不能被分割为多个PCR引物设计问题的简单组合[2]。由此可见,多重PCR引物设计是个全局优化问题,同时也是多目标优化问题。
目前,多重PCR引物设计问题在算法上已被证明为完全非确定多项式(NP-COMPLETE)问题,这意味着解决该问题的高效算法是基本上不存在的[10]。对于NP-COMPLETE问题,到全局最优解的唯一方法是穷举所有可能的情况,由于多重PCR引物设计考虑因素较多、数据量较大,因此依靠穷举来实现是多重PCR引物设计基本不可能的。
综上所述,可以认为多重PCR引物设计问题的可行数学模型有两个特点:一、该模型应适用于多目标优化算法;二、该模型可以较完整地表达NP-COMPLETE问题;同时从实用角度出发,该模型应允许使用者来定义什么是合适的引物。
2.2 载体算法的选择
选择载体算法主要需要考虑可行性。根据对文献的总结,GAPrimer选择了遗传算法作为解决问题的载体,关于遗传算法的简介和其他相关多重PCR引物设计算法的介绍请参见第一章。选择的原因如下:首先、遗传算法已经比较成熟,并已被成功运用到许多NP-COMPLETE问题上,这和多重PCR引物设计问题性质相符合。其次、遗传算法可利用的方法和参考资料较丰富,这为问题解决提供了更多的途径;再次、遗传算法长于解决全局优化问题,而且多目标优化问题是其主要应用对象之一,这使得该算法能够从全局上解决多重PCR引物设计问题。
最后、第一章中提及的两篇相关文献的结果[8][9]证实了遗传算法在多重PCR引物设计问题上的可行性。
2.3 本章小结
本章对问题性质进行了分析,并阐述了选择遗传算法的原因,一方面为了启发读者选择并应用新的算法到多重PCR引物设计问题上,从而使问题得到更好的解决。另一方面、本章中仅对问题进行了分析,为下文提供相关背景,关于建立数学模型的具体内容将在三、四两章中进行阐述。遗传算法的应用将在第五章中进行讨论。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。