⽤aspera⼯具快速下载NCBI⼤数据
NCBIaspera下载命令:
/root/.aspera/connect/bin/ascp -QT -l 300m -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh
anonftp@www.doczj/doc/8a70376cb7360b4c2e3f64fc.html :/blast/db/ .
SRA下载⽅式:
1、通过sratoolkit,可以直接下载成fastq格式,速度⽐ftp快,⽐aspera慢。
/data/soft/sratoolkit.2.3.5-2-centos_linux64/bin/fastq-dump.2.3.5.2 SRR167669
2、ftp下载
3、通过aspera下载:
⽹页下载:速度很快,不过需要把数据再上传到服务器上,多费⼀道⼯序
下载⽹页版AsperaConnectML-3.5.2.97180.msi安装,⽹页上下载时点aspera下载链接就可以;linux命令⾏下载:注意绝对路径
/root/.aspera/connect/bin/ascp -QT -l 300m -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh
anonftp@www.doczj/doc/8a70376cb7360b4c2e3f64fc.html :/sra/sra-
instant/reads//BySample/sra/SRS/SRS398/SRS398262/SR R768448/SRR768448.sra .(注意最后的“.”,⼀定要有,表明下载存放路径)
(使⽤正确的秘钥应该是这个:asperaweb_id_dsa.openssh)
转成fatsq格式:
/data/soft/sratoolkit.2.3.5-2-centos_linux64/bin/fastq-dump.2.3.5.2 --split-files --split-3
/extend/pig_rnaseq_sra/SRR653843.sra -O ./fastq/
安装aspera:ssh工具安卓下载
下载aspera-connect-3.5.1.92523-linux-64.sh
安装
⾸先,到aspera⽹站下载你的操作系统对应的aspera connect。(如果选Linux,下载以后会是⼀个⼏M⼤,内嵌⼆进制代码的shell脚本。。) 。不需要root或者sudo权限,直接安装之:
$ sh aspera-connect-2.4.7.37118-linux-64.sh
安装好以后,会在HOME⽬录下新建⼀个叫.aspera的⽬录,有两个⽂件⽐较重要:
⼀个是ascp的可执⾏⽂件:
~/.aspera/connect/bin/ascp
另⼀个ascp的密钥⽂件:
~/.aspera/connect/etc/asperaweb_id_dsa.putty
建议将密钥备份到HOME⽬录下⽅便使⽤:
$ cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/
再把aspera-license复制到系统⽬录
~/.aspera/connect/etc$ sudo cp aspera-license /usr/local/bin/
再把ascp可执⾏⽂件的路径加⼊PATH变量中,或者将其拷贝到当前⽬录。
使⽤
执⾏以下两条命令(注意最后要加点号“.”,表⽰当前⽬录)
从EBI下载:
$ ascp -i ~/asperaweb_id_dsa.putty
era-fasp@www.doczj/doc/8a70376cb7360b4c2e3f64fc.html
:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff
$ ascp -i ~/asperaweb_id_dsa.putty
anonftp@www.doczj/doc/8a70376cb7360b4c2e3f64fc.html :/sra/sra-instant/reads/ByRun/litesra/SRR/SRR09
6/SRR096072/SRR096072.lite.sra .
这个时候的速度相⽐于wget,应该已经很快了,⼤约能达到9Mb/s以上,如果还嫌慢,可以在-i 参数的前⾯添加⼏项设置,像这样:
ascp -QT -l 100M -i ~/asperaweb_id_dsa.putty
era-fasp@www.doczj/doc/8a70376cb7360b4c2e3f64fc.html
:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff 这样可以将速度提⾼到20Mb/s左右,偶尔能达到100Mb/s。
ascp下载地址的获取
以EBI上的SRR346368这套数据为例。⾸先到EBI页⾯⾥,到你想要下载的⽂件,将指针移到这个⽂件的”ftp”这⼀列,即可看到其ftp地址,例如:
ftp://www.doczj/doc/8a70376cb7360b4c2e3f64fc.html /vol1/fastq/SRR346/SRR346368/,
然后呢:将ftp://www.doczj/doc/8a70376cb7360b4c2e3f64fc.html 换成era-
fasp@www.doczj/doc/8a70376cb7360b4c2e3f64fc.html 即可:
$ ascp -i ~/asperaweb_id_dsa.putty
era-fasp@www.doczj/doc/8a70376cb7360b4c2e3f64fc.html
:/vol1/fastq/SRR346/SRR346368/ .
NCBI的SRA数据库也是同样的⽅法,即可获取其ascp下载地址。
⼩技巧
如果嫌每次都输⼊密码太⿇烦,可以在命令⾏或.profile中设置ASPERA_SCP_PASS这个环境变量:
export ASPERA_SCP_PASS=你的aspera密码
即可。
更多的说明
请参见官⽅的SRA下载⼿册:
NCBI: www.doczj/doc/8a70376cb7360b4c2e3f64fc.html /books/NBK47540/
EBI: www.doczj/doc/8a70376cb7360b4c2e3f64fc.html /ena/about/sra_data_download

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。