百度文库xpath定位使用八爪鱼采集一二页重复循环提取数据怎么办
很多用户在制作规则的时候,可能会遇到总是在一二页循环提取数据,而不会转到第三页的情况,这其实是由于Xpath定位不好导致的,我们需要通过修改Xpath来解决这个翻页问题。
在出现这个问题的时候,我们可以直接在流程里面到问题所在,下面的规则是直接按照新手入门的步骤做的。
如下图,选中循环翻页步骤,我们可以看到,循环是“下一页”。
一二页重复循环-图1
在流程里点击“点击翻页”,八爪鱼里的浏览器会直接跳到第二页。
一二页重复循环-图2
再点击流程图里的“循环翻页”步骤,可以看到,循环列表已经变成了“上一页”,系统再点击翻页的时候,就会直接跳回第一页,提取第一页的数据。如此重复循环。
一二页重复循环-图3
打开“高级选项”,可以看到“下一页”的XPath如下图所示:
一二页重复循环-图4
我们把这个XPath复制到火狐里面去,发现在第一页,可以定位到“下一页”;但是在第二页,“上一页”和“下一页”都被定位了。八爪鱼自动识别的,都是当前页面的XPath,系统没有翻到第二页不知道第二页的情况。因此,我们翻页的XPath,只有在第一页里面是正常的。
一二页重复循环-图5
再看一下火狐浏览器里面的源码,在第二页里面这个XPath对应的不正确,把“上一页”和“下一页”,都对应到了。所以,我们需要通过修改XPath来正确定位“下一页”。
一二页重复循环-图6
观察网页源码特点,我们直接可以用text()函数来定位“下一页”。在XPath入门2里面,给大家介绍过这个函数的意思:text()函数是一个文本函数,直接可以定位源码里面包含的文本。在火狐里面,我们将Xpath写成://A[text()='下一页']。然后将这条XPath再复制到八爪鱼里面,即可解决1、2页重复循环问题。
一二页重复循环-图7
相关采集教程
黄页88数据采集
赶集招聘信息采集
搜狗文章采集
八爪鱼——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。