如何计算蛋⽩序列的长度、分⼦量、等电点等信息
做基因家族等分析时,有时候我们想知道蛋⽩质的分⼦量、等电点信息以及序列长度等信息。今天,⼩编教⼤家如何获取这些信息。
ExPASy ProtParam在线获取
ExPASy ProtParam 是⼀款在线蛋⽩质分析软件,它可以计算⼀个蛋⽩质序列的各种理化参数,例如氨基酸序列长度、等电点、分⼦量等等。其⽤法如下:
输⼊⼀条蛋⽩质序列:
提交后,系统会计算蛋⽩质序列的各种理化参数并显⽰出来,⽽我们需要的信息如下图所⽰:
perl脚本批量计算
ProtParam ⽹站⼀次只能提交⼀条序列,如果我们的蛋⽩质序列较少还可以使⽤,但是序列多的话就
不适⽤了。这就需要⼀种批量处理的⽅法,为此我们专门写了⼀个perl脚本,利⽤bioperl包⾥⾯的⽅法,批量计算蛋⽩序列的长度、分⼦量、等电点信息。
使⽤⽅法:
perl stat_protein_fa.pl pep.fa pep.stat.xls
pep.fa :是输⼊的蛋⽩质序列;
pep.fa
pep.stat.xls :为输出⽂件。
perl脚本代码如下:
#北京组学⽣物科技有限公司
#email: huangls@biomics
die"perl $0 <in> <out>"unless(@ARGV==2);
useBio::SeqIO;
useBio::Seq;
useBio::Tools::SeqStats;
useBio::Tools::pICalculator;
useData::Dumper;
#读⼊序列
my$in = Bio::SeqIO->new(
-file =>"$ARGV[0]",
-format =>'Fasta'
);
openOUT,">$ARGV[1]"ordie"$!";
printOUT"#ID\tlength\tMV(Da)\tpI\n";
my$calc = Bio::Tools::pICalculator->new(-places =>2,-pKset =>'EMBOSS'); #逐条读取序列
while(my$seq = $in->next_seq()) {
my( $id, $sequence, $desc ) = ( $seq->id, $seq->seq, $seq->desc );
my$weight = Bio::Tools::SeqStats ->get_mol_wt($seq);
$calc->seq($seq);
my$iep = $calc->iep;
printOUTsprintf("%s\t%s\t%s\t%s\n",
$seq->id,
$seq->length,
"$weight->[0]",
$iep);
}
$in->close();
close(OUT);
更多⽣物信息相关课程:
1. ⽂章越来越难发?是你没发现新思路,基因家族分析发2-4分⽂章简单快速,学习链接:基因家族分析实操课程、基因家族⽂献思路解读
2. 转录组数据理解不深⼊?图表看不懂?点击链接学习深⼊解读数据结果⽂件,学习链接:转录组(有参)结果解读;转录组(⽆参)结果解读
3. 转录组数据深⼊挖掘技能-WGCNA,提升你的⽂章档次,学习链接:WGCNA-加权基因共表达⽹络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组⽂献解读
5.微⽣物16S/ITS/18S分析原理及结果解读、OTU⽹络图绘制、cytoscape与⽹络图绘制课程
perl下载安装教程
6. ⽣物信息⼊门到精通必修基础课,学习链接:linux系统使⽤、perl⼊门到精通、perl语⾔⾼级、R语⾔画图
7. 医学相关数据挖掘课程,不⽤做实验也能发⽂章,学习链接:TCGA-差异基因分析、GEO芯⽚数据挖掘、GSEA富集分析课程、TCGA临床数据⽣存分析、TCGA-转录因⼦分析、TCGA-ceRNA调控⽹络分析
8.其他课程链接:⼆代测序转录组数据⾃主分析、NCBI数据上传、⼆代测序数据解读。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论