抓取网页数据工具Xpath提取示例--688IT编程网

抓取⽹页数据⼯具Xpath提取⽰例

我们在使⽤⽕车采集器时，经常会⽤到不同的数据提取⽅式，除了前后截取、正⽂提取、正则提取之外，Xpath提取也是常⽤的⼀种。XPath是⼀门在 HTML/XML ⽂档中查信息的语⾔，XPath使⽤路径表达式在XML⽂档中进⾏导航，可以通过FireFox firebug 或者Chrome 开发者⼯具快速获取。下⾯就详细地演⽰下抓取⽹页数据⼯具⽕车采集器的Xpath 提取⽰例。

XPath节点属性

innerHTML：获取位于对象起始和结束标签内的 HTML (HTML代码，不包含开始/结束代码)

innerText：获取位于对象起始和结束标签内的⽂本 (⽂本字段，不包含开始/结束代码)xpath注入是针对xml数据应用吗

outerHTML：获取对象及其内容的HTML形式 (HTML代码，包含开始/结束代码)

Href：获取超链接

1、⾸先，我们⽤⾕歌浏览器打开上⾯的⽹页，然后打开Chrome开发者⼯具，打开开发者⼯具的快捷键是 “ F12 ”，反复按下F12可以切换状态（打开或关闭）。如果在原⽹页中，直接右击选择“审查元素”也是可以的。

2、获取标题的XPath，操作如下图：

按照图标箭头的顺序，先点击查选中标题，右击代码中的选中部分，点击copy xpath，可得出代码为 //*

[@id="mainContent"]/div[2]/h2

3、获取内容的XPath，操作如下图：

操作和标题操作差不多，但需注意的是，当⿏标悬停在内容上⾯时，需要选中全部内容⽽不是部分段落，这样再去代码中点击，才能得出完整的Xpath表达式，右击后复制得出代码为 //*[@id="cmsContent"] 。

看完之后⼤家有没有觉得Xpath提取很好⽤，觉得好⽤的话就⾃⼰也来操作试试吧，除了上⾯提到的四种提取⽅式外，抓取⽹页数据的⼯具⽕车采集器V9还有JSON提取⽅式，⼤家也可以学习研究⼀下。

发表评论

688IT编程网

抓取网页数据工具Xpath提取示例

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

抓取网页数据工具Xpath提取示例

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式