抓取⽹页数据⼯具Xpath提取⽰例
我们在使⽤⽕车采集器时,经常会⽤到不同的数据提取⽅式,除了前后截取、正⽂提取、正则提取之外,Xpath提取也是常⽤的⼀种。XPath是⼀门在 HTML/XML ⽂档中查信息的语⾔,XPath使⽤路径表达式在XML⽂档中进⾏导航,可以通过FireFox firebug 或者Chrome 开发者⼯具快速获取。下⾯就详细地演⽰下抓取⽹页数据⼯具⽕车采集器的Xpath 提取⽰例。
XPath节点属性
innerHTML:获取位于对象起始和结束标签内的 HTML (HTML代码,不包含开始/结束代码)
innerText:获取位于对象起始和结束标签内的⽂本 (⽂本字段,不包含开始/结束代码)xpath注入是针对xml数据应用吗
outerHTML:获取对象及其内容的HTML形式 (HTML代码,包含开始/结束代码)
Href:获取超链接
1、⾸先,我们⽤⾕歌浏览器打开上⾯的⽹页,然后打开Chrome开发者⼯具,打开开发者⼯具的快捷键是 “ F12 ”,反复按下F12可以切换状态(打开或关闭)。如果在原⽹页中,直接右击选择“审查元素”也是可以的。
2、获取标题的XPath,操作如下图:
按照图标箭头的顺序,先点击查选中标题,右击代码中的选中部分,点击copy xpath,可得出代码为 //*
[@id="mainContent"]/div[2]/h2
3、获取内容的XPath,操作如下图:
操作和标题操作差不多,但需注意的是,当⿏标悬停在内容上⾯时,需要选中全部内容⽽不是部分段落,这样再去代码中点击,才能得出完整的Xpath表达式,右击后复制得出代码为 //*[@id="cmsContent"] 。
看完之后⼤家有没有觉得Xpath提取很好⽤,觉得好⽤的话就⾃⼰也来操作试试吧,除了上⾯提到的四种提取⽅式外,抓取⽹页数据的⼯具⽕车采集器V9还有JSON提取⽅式,⼤家也可以学习研究⼀下。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论