(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 110534157 A
(43)申请公布日 2019.12.03
(21)申请号 CN201910684539.6
(22)申请日 2019.07.26
(71)申请人 江苏省农业科学院
    地址 210014 江苏省南京市玄武区钟灵街50号
(72)发明人 郭月 刘静 胡茂龙 浦惠明 张洁夫 龙卫华 张维 周晓婴 孙程明
(74)专利代理机构 北京德崇智捷知识产权代理有限公司
    代理人 俞文斌
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
正则匹配哈希值
      一种批量提取基因组基因信息并翻译比对分析序列的方法
(57)摘要
      本发明公开了一种批量提取基因组基因信息并翻译比对分析序列的方法。本发明所提供的批量提取基因组基因信息并翻译比对分析序列的方法综合运用了基于多序列比对分析的MUSCLE程序,并结合多个Perl脚本语言编程的方法。实验证明,本发明所提供的批量提取基因组基因信息并翻译比对分析序列的方法比较系统,能够完成目标基因序列和转录本序列的提取、目标基因或转录本的基因组关键信息获取、DNA序列翻译以及翻译后序列的多重比较,获取各相关结果文件的重复效果好,速度快,易实现批量化、自动化和流程化。
法律状态
法律状态公告日
法律状态信息
法律状态
2023-07-25
授权
发明专利权授予
权 利 要 求 说 明 书
1.一种批量提取基因组基因信息并翻译比对分析序列的方法,其特征在于,将某一物种的转录本ID或者基因ID,依据供试基因组cds文件、蛋白质文件、gff文件和染体fasta文件信息,通过6个perl脚本程序,实现目标转录本或基因在基因组上的位置、长度、正反义链结构信息的提取,并在染体fasta文件上提取该转录本或基因的cds或基因序列,在基因组蛋白文件上提取该转录本的蛋白质序列;最后对所需cds序列进行翻译,或者直接用所获的蛋白质序列,调用Linux系统程序完成蛋白质的多序列比对工作。
2.根据权利要求1所述的方法,其特征在于,包括如下步骤:
(1)建立工作文件夹work_dir,将某一物种的转录本ID文件记为数据集A,所述数据集A的文件名为“XXX1”,运行“perl script1.pl XXX1”命令,在当前工作文件夹work_dir下得到“res_Gene_ID”文件;所述“XXX1”在运行“perl script1.pl XXX1”程序时已置于包含脚本“script1.pl”的当前工作文件夹work_dir内,关闭所有相关文件;所述“res_Gene_ID”文件为该物种转录本ID对应的基因ID文件,记为数据集B,命名为“XXX3”;
如果上述步骤直接提供的是某一物种基因ID,则将该基因ID文件记为数据集B,命名为“XXX3”;
(2)将该物种基因组gff文件记为C数据集,所述C数据集的文件名为“XXX2”,运行“perlscript2.pl XXX2 XXX3”命令,在当前工作文件夹work_dir下得到“res_Geneinfo”文件;
所述“res_Geneinfo”文件为根据该物种基因ID文件提取的基因组信息文件,记为数据集D;所述“XXX2”、“XXX3”在运行“perl script2.pl XXX2 XXX3”程序时已置于包含脚本“script2.pl”的当前工作文件夹work_dir内,关闭所有相关文件;
(3)为Strawberry Perl软件安装Bioperl模块,将该物种基因组cds的fasta格式文件记为数据集E,所述数据集E的文件名为“XXX4”,运行“perl script3.pl XXX1”命令,在当前工作文件夹work_dir下得到“res_CDS_seq”文件;
所述“res_CDS_seq”文件为根据该物种转录本ID文件提取的基因cds序列fasta文件,记为数据集G;所述“XXX4
”在运行“perl script3.pl XXX1”程序时已置于包含脚本“script3.pl”的当前工作文件夹work_dir内,关闭所有相关文件;
(4)将该物种基因组染体的fasta格式文件记为数据集F,所述数据集F的文件名为“XXX5”,运行“perl script 4.pl res_Geneinfo”命令,在当前工作文件夹work_dir下得到“res_Gene_seq”文件;
所述“res_Gene_seq”文件为根据该物种基因ID文件从该物种基因组染体文件中提取的基因序列fasta文件,记为数据集H;所述“XXX5”在运行“perl script 4.pl res_Geneinfo”程序时已置于包含脚本“script 4.pl”的当前工作文件夹work_dir内,关闭所有相关文件;
(5)在当前工作文件夹work_dir内运行“perl script 5.pl”命令,得到“PRO_1st.fa”、“PRO_2nd.fa”、“PRO_3rd.fa”、“PRO_RC_1st.fa”、“PRO_RC_2nd.fa”、 “PRO_RC_3rd.fa” 和“PRO_last.fa”7个文件;
所述“PRO_1st.fa”、“PRO_2nd.fa”、“PRO_3rd.fa”、“PRO_RC_1st.fa”、“PRO_RC_2nd.fa”和“PRO_RC_3rd.fa”6个文件为根据该物种基因ID文件提取的基因序列或者转录本cds序列翻译后的蛋白质fasta文件,分别记为数据
集I、J、K、L、M和N;所述“PRO_last.fa”文件为筛选出的用于后续多序列比对计算的蛋白质序列文件,记为数据集O;所述“res_CDS_seq”文件在运行“perl script 5.pl”程序时已置于包含脚本“perl script 5.pl”的当前工作文件夹work_dir内,关闭所有相关文件;
(6)如果通过下载获得该物种基因组蛋白质的fasta格式文件,则将其记为P数据集,所述P数据集的文件名为“XXX6”,运行“perl script6.pl XXX1”命令,在当前工作文件夹work_dir下得到“res_PRO_seq”文件;
所述“res_PRO_seq”文件为根据该物种转录本ID文件提取的基因蛋白质序列fasta文件,记为数据集Q;所述“XXX6”在运行“perl script6.pl XXX1”程序时已置于包含脚本“script6.pl”的当前工作文件夹work_dir内,关闭所有相关文件;
(7)在当前工作文件夹work_dir内运行 “muscle -in PRO_last.fa –out PRO_last.out”命令,如果存在上述步骤(6),则运行 “muscle -in res_PRO_seq –out res_PRO_seq.out”命令,在当前工作文件夹中得到多重序列比对的结果文件;
所述“PRO_last.out” 和“res_PRO_seq.out”文件为MUSCLE软件计算后的输出文件,记为数据集R;且在运行“muscle -in PRO_last.fa –out PRO_last.out”命令或者“muscle -in res_PRO_seq –out res_PRO_seq.out”命令后所产生的结果文件在当前工作文件夹work_dir中,关闭所有相关文件。
3.根据权利要求2所述的方法,其特征在于:步骤(1)中,所述脚本“script1.pl”中关于获得 “res_Gene_ID”文件是基于如下方法进行编程的:
While循环对“XXX1”文件进行逐行处理,对每行进行模式匹配,将Bn 开头到“.”符号前的基因ID进行提取并存入变量$gene_id中,将结果打印至同一文件中,文件名即为“res_Gene_ID”,同时把该文件置于当前工作目录work_dir文件夹中,关闭所有相关文件。
4.根据权利要求2所述的方法,其特征在于:步骤(2)中,所述脚本“script2.pl”中关于获得 “res_Geneinfo”文件是基于如下方法进行编程的:
将res_Gene_ID文件读入数组@name_can中,打开该物种基因组gff文件“XXX2”,while循环逐条处理并分割“XXX2”文件;模式匹配识别“mRNA”标识的行并提取该行的基因ID到变量$id_tmp,for循环遍历数组@name_can的每一行,当变量$id_tmp与数组某行基因ID相同时,计算该基因的长度并存入到变量$genelen中,把基因ID、所在染体号、基因的起始位点、终止位点、基因长度以及正反义链信息,逐行打印至同一文件,文件名为“res_Geneinfo”,同时把该文件置于当前工作目录work_dir文件夹中,关闭所有相关文件。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。