xpath教程二---通过ID和Class检索--688IT编程网

xpath教程⼆----通过ID和Class检索

必备知识点

在html中，id是唯⼀的

在html中，class是可以多处引⽤的

⼯具

Python3版本

lxml库【优点是解析快】

HTML代码块【从⽹络中获取或者⾃⼰杜撰⼀个】

requests【推荐安装，从⽹页上获取⽹页代码练⼿，再好不过了】

Xpath学习

先定义html代码块【这次只从body开始】

<body>

<div class="two">王牌对王牌</div>

<a>

</a>

</div>

xpath语法 python

<div class="three">说的话房间不开封</div>

</div>

<div class="three">说的话房间开封</div>

</div>

</body>

"""

再准备python代码块

from lxml import etree

html = etree.HTML(html_str)

任务⼀：获取类名为one的⽂本值

解决这个问题，有⾮常简单的xpath路径，直接匹配html代码中的class，然后获取⽂本值就⾏

代码如下：

print(html.xpath('.//div[@class="one"]/text()'))

结果：['都市']

这⾥需要解释多个地⽅： - @的作⽤：表⽰属性，div属于标签，它有⾃⼰的属性，例如class、id等等。 - 点 . 的作⽤：表⽰当前位置；与其对应的是双点 .. ：表⽰上⼀层级的位置 - 双斜杠 // 的作⽤：查当前标签下所有⼦级中搜索；与其对应的是单斜杆 / ，这个标签标签下⼀层所有中搜索。【后⾯两个任务是这点的练习】

任务⼆：获取id为first下，第⼀层⼦级div标签的⽂本值

只需要获取第⼀层，使⽤单斜杆就⾜够了，xpath路径如下：

print(html.xpath('.//div[@id="first"]/div/text()'))

结果：['都市', '德玛西亚', '王牌对王牌']

任务三：获取id为first下，所有层级div标签的⽂本值

这个任务和上⼀个任务形成对⽐，⼀个是单斜杆⼀个是双斜杠，则xpath的代码如下：

print(html.xpath('.//div[@id="first"]//div/text()'))

结果：['都市', '德玛西亚', '王牌对王牌', '特殊位置']

任务四：获取id为second下，所有类为three的div标签的⽂本值

指定id为second，并且⼦级div的类名是three，然后是获取⽂本，则xpath如下

print(html.xpath('.//div[@id="second"]/div[@class="three"]/text()'))

结果：['⽔电费', '说的话房间不开封']

任务五：获取所有类为three的div标签的⽂本值

观察html代码块，会发现类为three的div标签在⼏个地⽅，所以这⾥最好的⽅法就是全局范围内的直接搜索，简单粗暴的xpath如下：print(html.xpath('.//div[@class="three"]/text()'))

结果：['⽔电费', '说的话房间不开封', '⽔电费', '说的话房间开封']

任务六：获取⽂本等于⽔电费的标签，取出他们的class

通过⽂本值，获取他们的类名信息，就是把上⼀个任务反过来做就⾏，xpath如下：

print(html.xpath('.//div[text()="⽔电费"]/@class'))

结果：['three', 'three']

最终的代码和运⾏截图

html_str = """

<body>

<div class="two">王牌对王牌</div>

<a>

</a>

</div>

<div class="three">说的话房间不开封</div>

</div>

<div class="three">说的话房间开封</div>

</div>

</body>

"""

from lxml import etree

html = etree.HTML(html_str)

print(html.xpath('.//div[@class="one"]/text()'))

print(html.xpath('.//div[@id="first"]/div/text()'))

print(html.xpath('.//div[@id="first"]//div/text()'))

print(html.xpath('.//div[@id="second"]/div[@class="three"]/text()'))

print(html.xpath('.//div[@class="three"]/text()'))

print(html.xpath('.//div[text()="⽔电费"]/@class'))

688IT编程网

xpath教程二---通过ID和Class检索

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

xpath教程二---通过ID和Class检索

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式