xpath选择器简介及如何使用--688IT编程网

xpath选择器简介及如何使⽤

⼀、总结

⼀句话总结：XPath 的全称是 XML Path Language，即 XML 路径语⾔，它是⼀种在结构化⽂档（⽐如 XML 和 HTML ⽂档）中定位信息的语⾔，XPath 使⽤路径表达式来选取 XML ⽂档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

XPath 使⽤路径表达式来选取 XML ⽂档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

息的语⾔，

1、xpath如何使⽤？

19 xml=loadXMLDoc("/example/l");

20 path="/bookstore/book/title"

32 // code for Mozilla, Firefox, Opera, etc.

33 else if (document.implementation && ateDocument)

34 {

35 var nodes=xml.evaluate(path, xml, null, XPathResult.ANY_TYPE, null);

36 var result=nodes.iterateNext();

38 while (result)

2、插件如何使⽤？

其实所有的插件的使⽤⽆⾮就是以下步骤：

1、引⼊插件

2、调⽤函数

⼆、xpath选择器

XPath 的全称是 XML Path Language，即 XML 路径语⾔，它是⼀种在结构化⽂档（⽐如 XML 和 HTML ⽂档）中定位信息的语⾔，XPath 使⽤路径表达式来选取 XML ⽂档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

XPath 是⼀门在 XML ⽂档中查信息的语⾔。XPath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。

XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

因此，对 XPath 的理解是很多⾼级 XML 应⽤的基础。

1. 语法

1.1 HTML 实例⽂档

后⾯我们将以下⾯的 HTML ⽂档介绍 XPath 的使⽤。

<html>

<head>

<title>Example website</title>

</head>

<body>

<a href='image1.html'>Name: My image 1 <br/><img src='image1_thumb.jpg'/></a>

<a href='image2.html'>Name: My image 2 <br/><img src='image2_thumb.jpg'/></a>

<a href='image3.html'>Name: My image 3 <br/><img src='image3_thumb.jpg'/></a>

<a href='image4.html'>Name: My image 4 <br/><img src='image4_thumb.jpg'/></a>

<a>Name: My image 5 <br/><img src='image5_thumb.jpg'/></a>

</div>

</body></html>

1.2 选取节点

下表是 XPath 常⽤的语法，实例对应的是上⾯的 HTML ⽂档。

表达式描述实例结果

nodename选取此节点的所有⼦节点body选取 body 元素的所有⼦节点

/从根节点选取/html选取根元素 html

//匹配选择的当前节点，不考虑位置//img选取所有 img 元素，⽽不管它们在⽂档的位置

.选取当前节点./img选取当前节点下的 img 节点

..选取当前节点的⽗节点../img选取当前节点的⽗节点下的 title

@选取属性//a[@href=”image1.html”]选取所有 href 属性为 “image1.html” 的 a 节点

//a/@href获取所有 a 节点的 href 属性的值

1.3 谓语

谓语⽤来查某个特定的节点或者包含某个指定的值的节点，谓语嵌在⽅括号中。

路径表达式结果

//body//a[1]选取属于 body ⼦元素的第⼀个 a 元素

//body//a[last()]选取属于 body ⼦元素的最好⼀个 a 元素

//a[@href]选取所有拥有名为 href 的属性的 a 元素

//a[@href=’image2.html’]选取所有 href 属性等于 “image2.html” 的 a 元素

2. 在 Python 中使⽤

在 python 中使⽤ XPath 需要安装相应的库，这⾥推荐使⽤ lxml 库。

代码⽰例：

# -*- coding: utf-8 -*-

from lxml import etree

html = """<html>

<head>

<title>Example website</title>

</head>

<body>

<a href='image1.html'>Name: My image 1 <br/><img src='image1_thumb.jpg'/></a>

<a href='image2.html'>Name: My image 2 <br/><img src='image2_thumb.jpg'/></a>

<a href='image3.html'>Name: My image 3 <br/><img src='image3_thumb.jpg'/></a>

<a href='image4.html'>Name: My image 4 <br/><img src='image4_thumb.jpg'/></a>

<a>Name: My image 5 <br/><img src='image5_thumb.jpg'/></a>

</div>

</body>

</html>"""

from lxml import etree

soup = etree.HTML(html)

page=soup.xpath('/html/head/base/@href') #从根节点开始选取

page=soup.xpath('/html/head//@href') #也可以这样选择结果是相同的

#//表⽰从当前节点开始选择，不必考虑位置。

#选取title下所有⽂本

page=soup.xpath("//title/text()")

#选取HTML下所有a节点

page=soup.xpath('//a')

#选取标签下属性为image.html的scr属性

page=soup.xpath("//a[@href='image1.html']/img/@src")

#选取a标签下第三个href属性

page=soup.xpath("//a[contains(@href, '3')]/@href")

#body最后⼀个a标签href属性

page=soup.xpath("//body//a[last()]/img/@src")

page=soup.xpath('//a[@class="active"][@id="value"]/img/@src') #多个属性定位

3.常⽤函数

除了索引、属性外，Xpath还可以使⽤便捷的函数来增强定位的准确性。下⾯试常⽤的⼏个函数：

#定位href属性中包含“promote.html”的所有a节点

//a[contains(@href,'promote.html')]

#元素内的⽂本为“应⽤推⼴”的所有a节点

//a[text()='应⽤推⼴']

#href属性值是以“/ads”开头的所有a节点

//a[starts-with(@href,'/ads')]

参考：xpath选择器 - moon的博客 - CSDN博客

blog.csdn/qq_32942549/article/details/78400675

三、xpath使⽤实例

1、操作的xml（l）

<?xml version="1.0" encoding="ISO-8859-1"?>

<title lang="en">Everyday Italian</title>

<author>Giada De Laurentiis</author>

</book>

<title lang="en">Harry Potter</title>

<author>J K. Rowling</author>

</book>

<title lang="en">XQuery Kick Start</title>

<author>James McGovern</author>

<author>Per Bothner</author>

<author>Kurt Cagle</author>

<author>James Linn</author>

<author>Vaidyanathan Nagarajan</author>

</book>

<title lang="en">Learning XML</title>

</book>

</bookstore>

2、需求及代码

选取所有 title

下⾯的例⼦选取所有 title 节点：

/bookstore/book/title

1<html>

2<body>

3<script type="text/javascript">

4function loadXMLDoc(dname)

5 {

6if (window.XMLHttpRequest)

7 {

8 xhttp=new XMLHttpRequest();

9 }

10else

11 {

12 xhttp=new ActiveXObject("Microsoft.XMLHTTP");

13 }

14 xhttp.open("GET",dname,false);

15 xhttp.send("");

sponseXML;

17 }

19 xml=loadXMLDoc("/example/l");

20 path="/bookstore/book/title"

21// code for IE

22if (window.ActiveXObject)

23 {

24var nodes=xml.selectNodes(path);

26for (i=0;i<nodes.length;i++)

27 {

28 document.write(nodes[i].childNodes[0].nodeValue);

29 document.write("<br />");

xpath语法 python30 }

31 }

32// code for Mozilla, Firefox, Opera, etc.

33else if (document.implementation && ateDocument) 34 {

35var nodes=xml.evaluate(path, xml, null, XPathResult.ANY_TYPE, null);

36var result=nodes.iterateNext();

38while (result)

39 {

40 document.write(result.childNodes[0].nodeValue);

41 document.write("<br />");

42 result=nodes.iterateNext();

43 }

44 }

45</script>

47</body>

48</html>

3、结果

Harry Potter

Everyday Italian

Learning XML

XQuery Kick Start

688IT编程网

xpath选择器简介及如何使用

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

xpath选择器简介及如何使用

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式