火车头使用说明
别的不说了,直接开始使用。(ps:开始之前,最好把爬虫的原理了解一下)
咱们用的是免费版,功能什么的很多受到限制,免费版网页只能抓到两级,而且无法定时执行任务。
1、安装完火车头后,直接双击图标打开,此时会弹出一个登录页面,什么都不要管,直接点击登录就进入了主界面,主界面如下:
你会发现它有一些内置的分组,分组下面有内置的测试任务,这里要强调一点,每个任务从上到下对应着火车头安装目录data目录下的以数字开头的文件夹,里面放着各自的数据文件,大概内置测试任务有38个,所以data目录下有对应从1到38的38个文件夹,你以后新建任务后,会自动再data目录下建立文件夹,序号依次递增。
2、新建任务和分组。你可以新建分组,也可以再已有的测试分组下面建立任务,但是有一点要注意,任务不能脱离分组而存在,必须把任务存在分组里面,这里咱们新建一个名字叫做腾讯的分组。
3、右键单击腾讯,选择新建任务,弹出新建任务对话框
4、下面我们以腾讯新闻采集为例说一下如何去配置,任务名叫做腾讯新闻
可以看到,这里分为四步,第一部就是采集网址规则(这一步就相当于爬虫里面设置种子url并且入队的过程),在出现的起始网址,添加单条网址,并点击”添加“按钮。
我们在网页中,通过分析,发现国内新闻的第二页及以后都是以数字递增的方式显示的,我们现在添加等差数列形式的网址
最后点击完成,查看效果
下载好的mysql文件无法双击下载
起始网址的添加就是种子URL的设置过程,这里可以添加多个种子URL,我这里设置了六页
下面就是多级网址获取,点击添加按钮,出现如下画面(这一步相当于提取网页所有连接的过程)
如果直接点击保存,相当于提取网页中所有链接,但真实情况下我们并不需要所有的链接,所以需要对链接进行过滤,可以从该选定区域提取网址,也可以对结果网址过滤,这里我们设置结果网址必须包含news.qq/a,然后点击保存。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论