基于BioPerl实现从NCBI中精确下载LEA基因序列--688IT编程网

Hans Journal of Computational Biology 计算生物学, 2014, 4, 13-19

Published Online June 2014 in Hans. /journal/hjcb

/10.12677/hjcb.2014.42002

Based on BioPerl Realize Accurately

Download LEA Gene Sequences from

the NCBI

Xiaojing Zhang*, Xingqin Cao, Weimin Pan#

School of Life Sciences, Xinjiang Normal University, Urumchi

Email: 313741033@qq, #379483304@qq

Received: Apr. 11th, 2014; revised: Apr. 18th, 2014; accepted: Apr. 22nd, 2014

This work is licensed under the Creative Commons Attribution International License (CC BY).

/licenses/by/4.0/

Abstract

Recently, researchers have paid more and more attention to the resistance gene research; in Xin-jiang, especially the research of drought resistance gene has attached great importance. Based on these factors, according to the conservative domain structure of LEA gene (late embriogenesis ab-undant gene, LEA) and the corresponding keywords, this paper designed a program that LEA gene sequences was downloaded accurately from NCBI based on the BioPerl. This procedure not only solves the precise acquisition of LEA gene, but also provides a better solution to download differ-ent types of sequence exactly.perl怎么下载

Keywords

BioPerl, Conservative Structure Domain, Feature List, Key Words, LEA Gene

基于BioPerl实现从NCBI中精确下载

LEA基因序列

张晓婧*，曹兴芹，潘伟民#

新疆师范大学生命科学学院，乌鲁木齐

Email: 313741033@qq, #379483304@qq

#通讯作者。

收稿日期：2014年4月11日；修回日期：2014年4月18日；录用日期：2014年4月22日

摘要

近年来关于抗逆基因的研究，越来越受研究者们的关注，在新疆尤其重视抗干旱基因的研究。基于这些因素，本文根据LEA基因(late embriogenesis abundant gene, LEA)的保守结构域所在片段(下文简称保守结构片段)和相应的关键词，基于BioPerl设计了从NCBI中精确下载LEA基因序列的程序。此程序不仅解决了LEA基因的精确获取，同时也为不同类型序列的精确下载，提供了一种较好的解决办法。

关键词

BioPerl，保守结构域，特征表，关键词，LEA基因

1. 引言

随着人类基因组计划的完成，生物数据急剧增长，海量的数据已经不是传统生物实验所能分析的，需要

借助生物信息学对生物数据进行搜集、分析，为了更好的研究生物数据，构建二次生物数据库是必不可少的，但构建二次生物数据库的前提就是，需要获取准确、完整的生物数据，以往人们是从NCBI 中手动获取数据，或者是实验积累过程中发现的数据，这些工作都比较费时费力，是不可行的，但是利用生物信息学实现大规模数据的获取是非常便利的。BioPerl是Perl为生物学提供的专业处理生物数据的软件包[1]，不仅可以从本地或远程数据库获取序列，还可以对序列进行各种处理功能，对于现今大量的生物数据来说，这是一个非常专业、便利的工具。

在新疆地区，绿洲面积仅约占全区面积的5%，适宜植物生长的土地资源非常稀少, 植物不仅面临干旱、盐碱胁迫，还面临着高温、低温等非生物胁迫，这些因素或多或少会制约农业经济的发展，因此抗逆基因的研究，对于新疆地区或是全球来说都具有重要的意义，而要研究抗逆基因，构建抗逆基因二次数据库是或不可缺的。晚期胚胎发生丰富蛋白(LEA)存在于大部分生物体中，它是一类与渗透调节有关的家族蛋白[2]，当生物体受到干旱、低温、盐胁迫等环境胁迫时，LEA基因会在生物体中大量积累[3]-[5]，保护生物对抗非生物胁迫，简单的说LEA基因就是一种抗逆基因。精确、完整地下载LEA基因序列数据是构建抗逆基因二次数据库的一部分关键工作，也能为需要精确序列的工作研究奠定良好的基础，并且这种搜索下载序列的方法模式，能为以后这方面的研究做一个参考。

本程序基于bioperl，用Perl语言结合保守结构片段及它所对应的关键词，来精确检索LEA基因，并将其下载下来，打破了以往模糊下载的模式[6]-[8]，提供了一种更精确、更可靠的方法来远程获取序列数据，

不仅可用于数据库的构建，也可用于平时搜索数据使用，为生物学家带来便利，对于生命科学的研究有重要意义。

2. 程序方法设计

2.1. 匹配条件选择

一般要达到精确检索的这个目的，匹配条件对于目标序列来说一定是唯一的，即根据这个匹配条件只能确定目标序列，而不能确定别的序列，这样才能做到精确下载。从大量文献中可以发现，LEA基因被分为七个族，每个族都有各自的保守结构域[9] [10](详见参考文献[9] [10])，而保守结构域就是指在生

物进化或者一个蛋白质家族中具有不变或相同的结构域，他们不能被改变，由保守结构域的定义可以知道每个LEA基因族所具有的保守结构域是不变的，这样刚好构成了本文所需要的匹配条件，只要在程序中用保守结构片段筛选LEA基因序列，就能达到精确下载的目的。因此本文将LEA基因的保守结构片段作为本程序的匹配条件。

2.2. 生物特征与程序之间的中间媒介

由于此程序的匹配条件用到的是LEA基因的保守结构片段，这个属于生物特征，要想与计算机程序联系起来，就必须需要一个中间媒介，来将两者联系起来。GenBank格式中有一个非常重要的部分，就是特征表(FEATURES)部分，它用大量的词汇来描述核酸序列的结构、功能等大量重要的信息，并巧妙的处理它们，它具体对以下信息进行描述：执行一个生物学功能；影响或是一个生物学功能表达的产物；与其他分子之间的相互作用；影响一个序列的复制；影响或是不同序列重组的结果；是一个可识别的重复单元；有第二级或第三级结构；显示变异，或有被修改。

可以看出特征表(FEATURES)中基本上包含了基因的所有信息，当然也包含了本文需要的中间媒介，这就是“translation”这个标签，在此标签中能将基因序列翻译成蛋白质序列，因为保守结构片段是蛋白质序列，所以刚好能与此标签联系起来，作为此程序中联系生物特征的中间媒介。程序只需要在这个标签中来匹配保守结构片段，就能精确的在NCBI中查LEA基因。以下是从BioPerl网站的HowTo中引用的标签介绍表，及特征表(FEATURES)格式[11]：(图1，图2)。

2.3. 缩小检索范围

本程序设计初期时，是希望将特征表中含有“CDS”主标签的序列先检索出来(因为“CDS”主标签包含“translation”标签)，但是由于NCBI中的数据量太过于庞大，检索时导致内存不足，无法实现，所以后

期笔者进行了LEA基因族关键词筛选，将筛选出的关键词与保守结构片段结合起来检索，这样便可起到缩小检索范围的作用，不至于导致内存不足，程序无法执行。

LEA基因族被分类以来，每一个家族都有自己特定的名称，并不是都称为LEA，本文为了得到可靠准确的关键词，对LEA基因族保守结构片段进行blastp，在得出的众多同源序列中，手动筛选，发现每一个族的同源序列中都有一个固定的名称，即每个LEA基因家族特有的名称，例如，LEA2家族，研究者一般都不把它称为LEA或LEA2，而是称为dehydrin(脱水素)，在很多文献中也有介绍过(详见参考文

Figure 1. Tag examples of the feature table (be-

long to the BioPerl’s HowTo)

图1.特征表中的标签例子(引用于BioPerl网站

中的HowTo文档)

献[9] [10])，准确性可以保证。由此能将每个族的固定名称作为检索数据库时的关键词条件，这里的检索是模糊检索，并不能精确的检索到LEA基因(因为用关键词检索NCBI时是全文检索，即只要L-E-A三个字母挨在一起就会被检索出，准确率比较低)，所以要将关键词与保守结构片段结合起来查询下载，才可完成本程序的目的。

表1为保守结构片段与关键词结合列表。

本文以LEA2中的“SSSSSEDD”这个保守结构片段为例，来介绍程序(其他族的程序与此类似，只需将对应的关键词及保守结构片段换掉即可)。

2.4. 程序流程设计

程序流程设计如图3。程序首先根据相对应的关键词进行模糊检索，并将这些序列下载下来，程序开始读入序列文件，每次读取1个序列(next_seq)，取得序列成功后，程序指向序列的FEATURES部分(get_SeqFeatures)，首先判断此特征表中是否有“CDS”主标签，如果有就继续判断是否有“translation”标签，有就获取其值，并将此值与保守结构片段($val)进行匹配，匹配成功便将此序列下载下来，并打印其display_id，如果不匹配则读取下一条序列，如此反复循环，最终将所有符合条件的LEA基因下载下来。图3中虚线框部分可以替换，以适应不同特点的序列的获取。

3. 程序运行环境及核心代码

3.1. 程序的运行环境

程序环境：Windows XP + ActivePerl 5.16.1 Build + BioPerl 1.6.1，以上的安装配置均参照BioPerl网站中Installing BioPerl on Windows文件[12]。

3.2. 获取LEA2程序的核心代码

如图4所示，是本程序的核心代码。程序第一步是利用LEA2族关键词“dehydrin”来缩小检索范围，

Figure 2. Feature example

图2.特征表的例子

Table 1. Conservative structural fragments and keywords list

表1.保守结构片段与关键词结合列表

LEA族保守结构片段关键词

LEA1 TRKEQLGTEGYQEMGRKGGL LEA、late embryogenesis abundant pro-

teins

LEA2 EKKGIMDKIKEKLPG

SSSSSEDD

RTDEYGNPVH

dehydrin

LEA3 TAEAAKQKAGE LEA、late embryogenesis abundant pro-

teins

LEA4 AQEKAEKATARDPXEKEMAHEKKEAK

MQSAKEKASNMAASAKAGMEKTKAK

EAEMDKHQAKAHHAAEKQ

PTGTHQMSALPGHGTGQPTGHVVEG

seed maturation protein

LEA5 无无

LEA6 LEDYKMQGYGTQGHQQPKPGRG

GSTDAPTLSGGAV

TDAINRHGVP

GLPTETSPTVC

LEA、late embryogenesis abundant pro-

teins

LEA7 AAGAYALHEKHKAKKDPEHAHRHKI

ETAAAAAVGAGGFAFHEHHEKKEAK

DYKKEEKHHKHMEHLGELGAV

HHHHHLFHHHKD

EEEEEAHGKKHHHLF

abscisic stress ripening proteins

Figure 3.Flow sheet of program 图3.程序流程图

688IT编程网

基于BioPerl实现从NCBI中精确下载LEA基因序列

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于BioPerl实现从NCBI中精确下载LEA基因序列

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式