更简单高效的HTML数据提取-Xpath--688IT编程网

更简单⾼效的HTML数据提取-Xpath

XPath 是⼀门在 XML ⽂档中查信息的语⾔。XPath ⽤于在 XML ⽂档中通过元素和属性进⾏导航。

相⽐于BeautifulSoup，Xpath在提取数据时会更加的⽅便。

安装

在Python中很多库都有提供Xpath的功能，但是最基本的还是lxml这个库，效率最⾼。在之前BeautifulSoup章节中我们也介绍到了lxml是如何安装的。

pip install lxml

语法

XPath 使⽤路径表达式在 XML ⽂档中选取节点。节点是通过沿着路径或者 step 来选取的。

我们将⽤以下的HTML⽂档来进⾏演⽰：

html_doc = '''<html>

<body>

<title lang="en">Everyday Italian</title>

<author>Giada De Laurentiis</author>

</book>

<title lang="en">Harry Potter</title>

<author>J K. Rowling</author>

</book>

<title lang="en">XQuery Kick Start</title>

<author>James McGovern</author>

<author>Per Bothner</author>

<author>Kurt Cagle</author>

<author>James Linn</author>

<author>Vaidyanathan Nagarajan</author>

</book>

<title lang="en">Learning XML</title>

<year>2003</year> <price>39.95</price> </book> </bookstore></body></html>'''

from lxml import etree

page = etree.HTML(html_doc)

路径查

表达式描述

nodename选取此节点的⼦节点。

从当前根节点选取。

//从匹配选择的当前节点选择⽂档中的节点，⽽不考虑它们的位置。

.选取当前节点。

..选取当前节点的⽗节点。

表达式描述

@选取属性。

查当前节点的⼦节点

In [1]: page.xpath('head')

Out[1]: [<Element head at 0x111c74c48>]

从根节点进⾏查

In [2]: page.xpath('/html')

Out[2]: [<Element html at 0x11208be88>]

从整个⽂档中所有节点查

In [3]: page.xpath('//book')

Out[3]:

[<Element book at 0x1128c02c8>,

<Element book at 0x111c74108>,

<Element book at 0x111fd2288>,

<Element book at 0x1128da348>]

选取当前节点的⽗节点xpath语法 python

In [4]: page.xpath('//book')[0].xpath('..')

Out[4]: [<Element bookstore at 0x1128c0ac8>]

选取属性

In [5]: page.xpath('//book')[0].xpath('@category')

Out[5]: ['COOKING']

节点查

表达式结果

nodename[1]选取第⼀个元素。

nodename[last()]选取最后⼀个元素。

nodename[last()-1]选取倒数第⼆个元素。

nodename[position()<3]选取前两个⼦元素。

nodename[@lang]选取拥有名为 lang 的属性的元素。nodename[@lang='eng']选取拥有lang属性，且值为 eng 的元素。

选取第⼆个book元素

In [1]: page.xpath('//book[2]/@category')

Out[1]: ['CHILDREN']

选取倒数第三个book元素

In [2]: page.xpath('//book[last()-2]/@category')

Out[2]: ['CHILDREN']

选取第⼆个元素开始的所有元素

In [3]: page.xpath('//book[position() > 1]/@category')

Out[3]: ['CHILDREN', 'WEB', 'WEB']

选取category属性为WEB的的元素

In [4]: page.xpath('//book[@category="WEB"]/@category')

Out[4]: ['WEB', 'WEB']

未知节点

通配符描述

*匹配任何元素节点。

@*匹配任何属性节点。

匹配第⼀个book元素下的所有元素

In [1]: page.xpath('//book[1]/*')

Out[1]:

[<Element title at 0x111f76788>,

<Element author at 0x111f76188>,

<Element year at 0x1128c1a88>,

<Element price at 0x1128c1cc8>]

获取节点中的⽂本

⽤text()获取某个节点下的⽂本

In [1]: page.xpath('//book[1]/author/text()')

Out[1]: ['Giada De Laurentiis']

如果这个节点下有多个⽂本，则只能取到⼀段。

⽤string()获取某个节点下所有的⽂本

In [2]: page.xpath('string(//book[1])')

Out[2]: '\n Everyday Italian\n Giada De Laurentiis\n 2005\n 30.00\n '

选取多个路径

通过在路径表达式中使⽤“|”运算符，您可以选取若⼲个路径。

In [1]: page.xpath('//book[1]/title/text() | //book[1]/author/text()')

Out[1]: ['Everyday Italian', 'Giada De Laurentiis']

688IT编程网

更简单高效的HTML数据提取-Xpath

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

更简单高效的HTML数据提取-Xpath

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式