Xpath工具使用教程
八爪鱼·云采集网络爬虫软件
本教程告诉大家如何使用八爪鱼内置的某path工具。
一、常见使用场景
在日常使用八爪鱼采集数据时,偶尔会出现一些特殊情况,比如说某个采集步骤因为网页或八爪鱼识别的问题,定位发生了偏差,导致自动生成的某path有一点问题,采集出错。这个时候需要我们手写某path来定位想要设置的步骤,而八爪鱼有个内置的某path工具,可以帮助大家写一些简单的某path位置(除了打开网页步骤没有某path工具以外,其他步骤都有)。
二、某path工具位置
某path工具可以在两个地方打开。
一个入口是:登陆进去后的软件首页-工具箱里可以直接打开。
控制图按数据类型分类八爪鱼·云采集网络爬虫软件java立体圣诞树代码
另一个入口是:流程中步骤的“自定义”按钮,点击进入
八爪鱼·云采集网络爬虫软件
html页面嵌套html页面
点击“自定义”按钮后,点击“不懂某path,试试某path工具”
三、某path工具界面介绍
打开某path工具,该工具界面主要分为五个部分:
爬虫软件 app
八爪鱼·云采集网络爬虫软件
左上是填写网址左中是浏览器
左下是页面HTML源码(由于某path工具的网页源码层次不分明,查看源码的话建议使用火狐浏览器的插件firebug和firepath,这是某path的入门教程,新用户有兴趣的也可以去学习一下:
1、我们来看一下定位参数
八爪鱼·云采集网络爬虫软件
八爪鱼·云采集网络爬虫软件
2)元素位置:默认填了1,这个位置的意思就是第几个,一般没什么用,因为火狐里自动生成的某path很多都是用位置定位的,要用这个不如用火狐生成来得快;
3)元素ID属性值,元素name属性值,元素cla属性值:属性值就是一行源码内用<>尖括号括起来的参数,会有很多,这里的三个属性值是大部分网页都会有的属性值,这里只有三种,但改也是可以的,例如:
八爪鱼·云采集网络爬虫软件
八爪鱼·云采集网络爬虫软件
如果你想定位的属性不是这三个,比如说target,也可以直接把target=后面双引号里的属性值复制一下,随便放入到一个属性里面
八爪鱼·云采集网络爬虫软件
这时候是匹配不到的,需要将生成的某path里的属性改成target即可:
4)元素文本:是火狐里的所有黑字体,一般是会在网页显示出来我们可以直接看到的字体,如果要填这一格,填的必须是全部的文本,少一个空格标点符号,全角半角不一致都会
八爪鱼·云采集网络爬虫软件
导致定位不到,不过要是是纯文字的那就没问题;
5)元素文本包含字符串:包含,顾名思义就是只要文本里有就会定位出来,不用管什么标点符号空格;
6)元素文本开始字符串:就是前几个字,如果源码里是以什么空格标点符号之类的开头的,如果这里没写,就定位不到
2、看完了右上角的参数设置,我们来看一下右下角的元素之间的层级关系
父元素,子元素,这两个是相对应的,
八爪鱼·云采集网络爬虫软件
前面元素,后面元素也是相对应的。
这里我们去火狐里截取一小段源码,来简单说明一下:
红框里,a元素的父元素是div,div的子元素是a。a,pan,div三个都是同胞元素,pan的前面元素是a,a的后面元素是pan,以此类推。
这几个参数的主要功能是当你想要的数据没有可定位的参数,或者有参数但是不可用的时候,可以先定位到该元素的附近,再看看是父子关系还是前后关系,从而定位到最终想要的数据位置。
四、某path工具操作示例
这边某path工具的基本功能点就讲完了,下面我们来看一个实例。
八爪鱼·云采集网络爬虫软件
怎么结束电脑进程快捷键
1、操作示例
需求:无下一页,只有数字的页面怎么实现翻页
2、操作步骤
这类网站都是没有下一页,翻页的地方只有数字,但是当前页在源码里查看是有标识的,或者说当前页的元素跟下一页的元素都是不一样的,所以每次定位到当前页的下一页即可实现翻页的步骤。
八爪鱼·云采集网络爬虫软件
从而,我们就可以用thicla为标识先定位到当前页,
八爪鱼·云采集网络爬虫软件
linux安装samba再定位到当前元素pan的下一个元素,点一下后面元素
八爪鱼·云采集网络爬虫软件
八爪鱼·云采集网络爬虫软件

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。