Xpath工具使用教程--688IT编程网

Xpath工具使用教程

八爪鱼·云采集网络爬虫软件

本教程告诉大家如何使用八爪鱼内置的某path工具。

一、常见使用场景

在日常使用八爪鱼采集数据时，偶尔会出现一些特殊情况，比如说某个采集步骤因为网页或八爪鱼识别的问题，定位发生了偏差，导致自动生成的某path有一点问题，采集出错。这个时候需要我们手写某path来定位想要设置的步骤，而八爪鱼有个内置的某path工具，可以帮助大家写一些简单的某path位置（除了打开网页步骤没有某path工具以外，其他步骤都有）。

二、某path工具位置

某path工具可以在两个地方打开。

一个入口是：登陆进去后的软件首页-工具箱里可以直接打开。

控制图按数据类型分类八爪鱼·云采集网络爬虫软件java立体圣诞树代码

另一个入口是：流程中步骤的“自定义”按钮，点击进入

八爪鱼·云采集网络爬虫软件

html页面嵌套html页面

点击“自定义”按钮后，点击“不懂某path，试试某path工具”

三、某path工具界面介绍

打开某path工具，该工具界面主要分为五个部分：

爬虫软件 app

八爪鱼·云采集网络爬虫软件

左上是填写网址左中是浏览器

左下是页面HTML源码（由于某path工具的网页源码层次不分明，查看源码的话建议使用火狐浏览器的插件firebug和firepath，这是某path的入门教程，新用户有兴趣的也可以去学习一下：

1、我们来看一下定位参数

八爪鱼·云采集网络爬虫软件

2）元素位置：默认填了1，这个位置的意思就是第几个，一般没什么用，因为火狐里自动生成的某path很多都是用位置定位的，要用这个不如用火狐生成来得快；

3）元素ID属性值,元素name属性值，元素cla属性值：属性值就是一行源码内用<>尖括号括起来的参数，会有很多，这里的三个属性值是大部分网页都会有的属性值，这里只有三种，但改也是可以的,例如：

八爪鱼·云采集网络爬虫软件

如果你想定位的属性不是这三个，比如说target，也可以直接把target=后面双引号里的属性值复制一下，随便放入到一个属性里面

八爪鱼·云采集网络爬虫软件

这时候是匹配不到的，需要将生成的某path里的属性改成target即可：

4）元素文本：是火狐里的所有黑字体，一般是会在网页显示出来我们可以直接看到的字体，如果要填这一格，填的必须是全部的文本，少一个空格标点符号，全角半角不一致都会

八爪鱼·云采集网络爬虫软件

导致定位不到，不过要是是纯文字的那就没问题；

5）元素文本包含字符串：包含，顾名思义就是只要文本里有就会定位出来，不用管什么标点符号空格；

6）元素文本开始字符串：就是前几个字，如果源码里是以什么空格标点符号之类的开头的，如果这里没写，就定位不到

2、看完了右上角的参数设置，我们来看一下右下角的元素之间的层级关系

父元素，子元素，这两个是相对应的，

八爪鱼·云采集网络爬虫软件

前面元素，后面元素也是相对应的。

这里我们去火狐里截取一小段源码，来简单说明一下：

红框里，a元素的父元素是div，div的子元素是a。a，pan，div三个都是同胞元素，pan的前面元素是a，a的后面元素是pan，以此类推。

这几个参数的主要功能是当你想要的数据没有可定位的参数，或者有参数但是不可用的时候，可以先定位到该元素的附近，再看看是父子关系还是前后关系，从而定位到最终想要的数据位置。

四、某path工具操作示例

这边某path工具的基本功能点就讲完了，下面我们来看一个实例。

八爪鱼·云采集网络爬虫软件

怎么结束电脑进程快捷键

1、操作示例

需求：无下一页，只有数字的页面怎么实现翻页

2、操作步骤

这类网站都是没有下一页，翻页的地方只有数字，但是当前页在源码里查看是有标识的，或者说当前页的元素跟下一页的元素都是不一样的，所以每次定位到当前页的下一页即可实现翻页的步骤。

八爪鱼·云采集网络爬虫软件

从而，我们就可以用thicla为标识先定位到当前页，

八爪鱼·云采集网络爬虫软件

linux安装samba再定位到当前元素pan的下一个元素，点一下后面元素

八爪鱼·云采集网络爬虫软件

688IT编程网

Xpath工具使用教程

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Xpath工具使用教程

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式