生物信息学分析的计算机环境最优配置
摘要:生物信息学是现代生物学、计算机科学和数学的交叉学科,主要通过数学方法借助计算机对生物数据进行科学分析,相对于传统实验方法更高效、更具有逻辑性。本文主要以Linux系统的衍生系统——Ubuntu系统为分析系统,介绍如何配置最适合于生物信息学分析的计算机环境。
关键词:生物信息学;分析环境配置;Ubuntu系统;生物数据分析
生物信息学是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,是生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技术而揭示繁杂的生物数据所蕴含的生物学意义。ubuntu系统基于Debian发行版和GNOME 桌面环境。它的目标在于为用户提供一个最新的、相对稳定的主要由自由软件构成的操作系统,可免费使用,并带有社团及专业支持。本文介绍了如何借助Ubuntu系统,配置较优的生物信息学分析环境。
1生物信息分析环境的配置
1.1安装win+Ubuntu双系统
第一步:进入程序员管理空间Win+X,在管理磁盘栏目下面选择二进制空间完好且较大的空间进行分配。将分配空间进行二进制码压缩,选择60*1024MB的二进制空间压缩。然后产生黑可用空间。
第二步:同样在程序员空间下进入电源选项,修改原来在windows系统下的電源功能。将原来的默认值修改为关闭快速启动的值,保证在安装Ubuntu系统后的grub正常运行。最后使用wq方式保存当前安装。也可以进入DOS环境编译修改win的设置。
第三步:在DOS环境中restart个人终端。通过快捷键进入bios空间。进入方式依据PC型号不同而不同,进入系统bios后将U盘启动调整为最优先工程,设置后再次restart切换进入ubuntu安装界面。进入ubuntu主界面后在U盘中到刻录的ISO文件双击翻开ubuntu 安装文件,完成默认设置。【1】
第四步:在Ubuntu下创立新的二进制空间,以add方式创立四个新的分区空间,分区空间以之前分配的60*1024MB为基准。首先将10*1024MB分配为根底二进制空间,又在根底二进制空间上,添加20*1024MB作为空间的起始局部。通过布尔转换设置空间的日志及逻辑分区,将剩下的空间全部作为衔接双系统的swap逻辑空间。
切换回windows系统设置引导内容,保证两个系统在开机中有选择性进入栏目。在DOS下进入/boot编译设置,将引导路径设置为由windows下主导的路径。restart终端,进入Win10下的EasyBCD完成最后的引导设置。在进入add新条目栏目下选择Linux/BSD操作系统,在“驱动器〞栏目选择接近200M的Linux分区,点添加条目。
为了将Ubuntu系统配置为适合生物信息分析系统,方便编译生物信息分析软件,需要修改gcc,通常
计算机内置gcc为以下:
Lrwx1rootroot72021
rwxrxrx1rootroot22154232021
rwxx1rootroot2143692021
rwxrxrx1rootroot3365472021linux系统免费下载
由上面显示可以看出默认安装的是gcc4.6,现在来改成gcc4.4:
〔1〕rmdirpgcc-4.6/usr/bin/etc/gcc。将这个连接的软性设置删除
〔2〕terminal:sudormdirr/usr/bin/etc/gcc&chown/usr/bin/etc/gcc770
〔3〕创立一个软连接,指向gcc4.4【2】
〔5〕terminalusing:gccv
〔6〕使用内建specs
目标:i686linuxgnu
配置为:
2软件安装与编译
高通量测序数据下载后的原始fastq文件,包含4行,其中一行为质量值,另外一行那么为对应序列,我们都了解高通量的数据处理首先要进行质量控制【3】,这些过程包括去接头、过滤低质量reads、去除低质量的3和5端,去除N较多的reads等,而针对高通量测序数据的质控软件也有很多,一般使用Fastxtoolkit,下载如下:
./configure&&make&&sudomakeinstall
ExportPATHPKG_CONFIG_PATH=/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH
cd../fastx_toolkitsudomakeinstall
TopHat是一个快速将RNASeq数据剪接映射的程序,它将读段大小分散成不同的小片段,对每个小片段进行重新建模,再根据空位罚分机制将小片段和参考基因组上的片段进行比对。在片段长度足够小的时候会增加非特异性比对次数,所以需要设置最小片段的最大长度限制。通常大基因组物种选择长
读段测序,设置较大最小片段的最大长度,小基因组物种那么反之。直接下载适合于Linuxx86_64的二进制文件,解压缩即可使用。
需要注意,很多接头序列比较长,应搞清楚具体实验时的接头长度。通常情况下,我们需要将接头之间的序列进行比对和过滤。
3结论
生物信息的环境配置首先要将原Ubuntu系统的g++/gcc进行修改,这样可以将权限及操作环境修改为最适合生物信息分析的状态。
软件安装上,使用Fastx_toolkit和比对软件可以对各种测序结果进行数据分析。
Tophat可以将数据进行动态映射,保证数据分析的快速性。
参考文献:
2021〔01〕:4756.
【2】汤庄力,王添,肖生祥,王晓鹏.表皮松解性掌跖角化病一家系KRT9基因突变检测及生物信息学分析[J].中国麻风皮肤病杂志,2021,33〔12〕:709711+716.
【3】罗文奇.计算机技术在生物信息学研究中的应用分析[J].中国管理信息化,2021,20〔20〕:151152.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。