ncbi下载数据sra和转换fastq流程
nohup prefetch --option-file SRR_ &
$ wget -
此命令常⽤于批量下载的情形,把所有需要下载⽂件的地址放到 中,然后 wget 就会⾃动为你下载所有⽂件了。
实践证明,wget下载sra数据是有风险的中间有断点的话会造成数据不完整,以防万⼀,⼀定要加上⾃动断点续传参数-c!
ftp='ftp://bi.v/sra/sra-instant/reads/ByRun/sra/SRR'
mkdir sra  # make a output directory
cat SRR_ |  while read i
do
SRR=$(echo ${i:0:6})
wget -c -t 0 -P ./sra ${ftp}/${SRR}/${i}/*
done
参数说明:
-c ⾃动断点续传,⼀定要加!否则数据会有不完整的情况
-t 配合-c参数,设置为0表⽰连接失败后⽆限次重新尝试,直到成功为⽌
-P 表⽰把数据下载到指定⽂件夹下
cat SRR_ |  while read i
do
SRR=$(echo ${i:0:6}) ##输出前6个字段
wget -c -t 0 -P ./sra ${ftp}/${SRR}/${i}/*
done
##ncbi的fastq⽂件  连接没有规律
>>>>>>>>#
使⽤如下命令批量下载 (放⼊后台不中断下载:nohup cmd &):
nohup prefetch -O . $(<SRR_) &
Note:
1. aspera在下载其他数据库(如EBI)的数据时,仍然是⼗分不错的⼯具
2. 下载完之后,可以⽤如下命令批量解压:
–split-spot: 将双端测序分为两份,但是都放在同⼀个⽂件中
–split-files: 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的reads直接丢弃
–split-3 : 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的reads会单独放在⼀个⽂件夹⾥
cd ~/ncbi/public/sra/  #将拆分⽂件放在sra⽂件夹⾥
fastq-dump --split-3 SRR824846  #将双端测序⽂件拆分为两个reads
使⽤NCBI提供的SRA-toolkit中的⼯具fastq-dump直接下载SRR⽂件,并转换为FASTQ格式,--split-3参数表⽰如果是双端测序就⾃动拆分,如果是单端不受影响。--gzip转换fastq为压缩⽂件,节省空间。
具体步骤
【1】SRA⽂件转换成fastq⽂件
-----单个⽂件转换
fastq-dump --gzip --split-3 -O outputdir -A file1.sra
-----多个⽂件批量转换
复制代码
# 1、编写⼀个脚本  sra_to_fq.sh
for I in `seq 56 62`
do
fastq-dump --gzip –split-3 -O ./fastq/ -A SRR35899${I}.sra
done
# --split-3:如果是双端测序数据,则输出两个⽂件,如果不是则只输出⼀个⽂件
# --gzip:输出格式为gzip的压缩⽂件(fastqc软件可以直接识别gzip压缩的⽂件)
# -A:accession序列号,输⼊的⽂件
# -O:outdir输出⽂件夹,指定输出路径
# 2、运⾏脚本
bash sra_to_fq.sh
复制代码
【2】QC(测序质量分析):多个⽂件批量进⾏
$ fastqc  -q  -t  4  -o  ./fastqc_result/  *.  &
# -t 8:调⽤8个核⼼
# -q :安静运⾏,在运⾏过程中不会⽣成报告,只会在结束时将报告⽣成⼀个⽂件
# -o ../FastQC_result.raw/ :⽂件输出位置,输出到当前⽂件夹下的FastQC_result ⼦⽬录中
# *. fq.gz:,输⼊⽂件:当前⽬录下所有名字中有“  .fq.gz  ”的⽂件
【3】查看QC结果
1、单个查看:⿏标双击打开html⽂件查看
2、批量查看:使⽤ moltiqc软件: moltiqc  *fastqc.zipgzip是什么文件夹
Fastqc结果报告关注重点:
1).basic statistics
2).per base sequence quality
3).per base sequcence content
4).adaptor content
5).sequence duplication levels
主要的⼏个指标是GC含量,Q20和Q30的⽐例以及是否存在接头(adaptor)、index以及其他物种序列的污染等。
质控软件:
测序数据去掉接头:cutadapt
删掉测序质量差的reads:fastx_trimmer

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。

发表评论