python中的xpath解析定位--688IT编程网

python中的xpath解析定位

#例如：'别名'下的span标签⽂本，‘发病部位’下的span标签⽂本以及‘挂号科室‘下的span标签⽂本

def disease(url):

text = get_html(url)

tree = etree.HTML(text)

bm = tree.xpath('//ul[@class="information_ul"]/li/i[text()="别名："]/following-sibling::span/text()')

bw = tree.xpath('//ul[@class="information_ul"]/li/i[text()="发病部位："]/following-sibling::span/a/text()')

ks = tree.xpath('//ul[@class="information_ul"]/li/i[text()="挂号科室："]/following-sibling::span/a/text()')

return bm, bw, ks

补充其他：

# /从根元素开始，相当于绝对路径

print(tree.xpath('/html/body/ul'))

# //全局搜索，到所有

print(tree.xpath('//li'))

ul = tree.xpath('//ul')

# . 当前

# 返回的都是列表，查到所有

li = ul[0].xpath('./li')

print(li)

for l in li:

# 获取属性id的值 @id

print(l.xpath('./@id'))

# 定位 /标签[@属性='值']

liClass = tree.xpath("//li[@class='liClass']")

print(liClass)

#判断，@属性='值' --->返回True或False

print(tree.xpath("//li/@id='12'"))

print("===========================")

#直接使⽤下标访问，下标从1开始获取对个li⾥⾯的⽂本

print(tree.xpath('//li[2]/text()'))

#last()最后⼀个

print(tree.xpath('//li[last()]/text()'))

position标签属性

#倒数第⼆个

print(tree.xpath('//li[last()-1]/text()'))

# position() 位置 > < = >= <=

print(tree.xpath('//li[position()>1]'))

#* 通配

print(tree.xpath('//*[@class="liClass"]'))

# 或 |

print(tree.xpath('//li[@class="liClass"] | //div[@class="liClass"]'))

xpath基本语法

表达式说明

article选取所有article元素的所有⼦节点/article选取根元素article

表达式说明

article/a选取所有属于article的⼦元素的a元素

//div选取所有div元素（不管出现在⽂档⾥的任何地⽅）article//div选取所有属于article元素的后代的div元素，不管它出现在article之下的任何位置//@class选取所有名为class的属性

表达式说明

/article/div[1]选取属于article⼦元素的第⼀个div元素

/article/div[last()]选取属于article⼦元素的最后⼀个div元素

/article/div[last()-1]选取属于article⼦元素的倒数第⼆个div元素//div[@color]选取所有拥有color属性的div元素//div[@color=‘red’]选取所有color属性值为red的div元素

表达式说明

/div/*选取属于div元素的所有⼦节点

//*选取所有元素

//div[@*]选取所有带属性的div 元素//div/a ⼁//div/p选取所有div元素的a和p元素

//span⼁//ul选取⽂档中的span和ul元素article/div/p⼁//span选取所有属于article元素的div元素的p元素以及⽂档中所有的 span元素补充：

相邻元素定位，

前⼀位：

preceding-sibling::div[1]

后⼀位：

following-sibling::div[1]

前N位：

preceding-sibling::div[N]

后N位：

following-sibling::div[N]

# 爬取i标签中包含相关检查节点的兄弟 a节点（到i节点—>到其⽗节点->到该⽗节点的⼦节点a）

content = tree.xpath('//i[contains(text(),"相关检查：")]/../a[@class="blue"]/text()')

xpath多个class限制

//div[contains(@class,'demo')and contains(@class,'other')]

xpath 同时多个标签⽤|分隔

//div[contains(@class,"jib-lh-articl")]/p |//div[contains(@class,"jib-lh-articl")]/h3

选择不包含某⼀属性的节点

//div[not(@class)]没有class属性的div

//tbody/tr[not(@class or @id)]

获取当前节点的是什么类型的html标签

xpath_element.tag

688IT编程网

python中的xpath解析定位

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python中的xpath解析定位

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式