如何克隆⼀个⽹站全站或部分内容(做⽹站镜像)
我们会有这种需求,看到有个⽹站很多⽂章内容不错,想把它们全部保存下来在⼿机上或电脑上有空看,但是不想联⽹看,或者我们想在公司内⽹搭个⽹站,和这个⽹站内容⼀模⼀样,⽅便公司⼈员阅读,这时候我们如何做这个⽹站的镜像呢?
⽹上当然有很多⼯具能⽤,但很多都是收费的,我们考虑⼀个免费⼩巧的⼯具来实现我们的要求,那就是Linux上⼀个有名的⼯具wget。⼀、⽤WGET做⽹站镜像
这个⼯具有windows版本,⽹上搜⼀下,到合适地址下载。
网站制作工具下载下来后,为了能在命令⾏中⽅便使⽤,我把它放到了C:\Windows\System32⽬录下(如果你会设置环境变量可以设置上,你也可以⽤cd 命令切换到wget所在⽬录操作)。
我们WIN+R,输⼊cmd进⼊到命令⾏界⾯输⼊wget -h看下帮助信息
wget的命令⾏参数太多了,我们只考虑做⽹站镜像的有⽤参数。
我们来看⼀个学习编程的⽹站w3school
假如我们想做这个⽹站的镜像怎么办呢?
这种是最简单暴⼒的⽤法,但是如果⽹站引⽤了外部的链接,这个下载下来的东西太多了,⽽且有些asp后缀的页⾯,我们如果想在本地⽤浏览器打开看没法直接打开,⽽且有时候我们可能只想下载某个⽹站⽬录下的⽂件,不想下载太多。
我们需要限制下。
假如我们只想下载w3school上的JS教程,我们⽤如下命令即可:
但是这个命令还是缺少⼀些东西,⽐如后缀有ASP,其它的还有断点续传,⽂件后缀,模拟浏览器,https下是否检查证书等。
⼆、WGET做镜像演⽰
我们先实际操作⼀下,我们下载下JS的教程.。
我们⽤浏览器直接双击打开上⾯标红的index.asp.html,如下图:
测试看来,我们成功的镜像了JS教程的页⾯,⽽且页⾯显⽰完好。
总结:最终⽤到的命令如下:
1wget -c -m -k -np -p -E -U Mozilla --no-check-certificate 欲镜像的⽹址
1wget -c -m -k -p -e robots=off -E -U Mozilla --no-check-certificate 欲镜像的⽹址(如果robots限制了采集内容可以⽤这⼀条)
你也可以⽤⼀些CHM制作软件把镜像完的本地HTML制成CHM格式的教程发布出去。
如果你想进⾏限速,间隔下载等特殊需求可以⽹上查下wget的命令帮助进⾏解决,这个⽐较简单,就不⼀⼀介绍了。
如果命令语法在实际测试中有问题,欢迎提出建议。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论