python中的xpath解析定位
#例如:'别名'下的span标签⽂本,‘发病部位’下的span标签⽂本以及‘挂号科室‘下的span标签⽂本
#
def disease(url):
text = get_html(url)
tree = etree.HTML(text)
bm = tree.xpath('//ul[@class="information_ul"]/li/i[text()="别名:"]/following-sibling::span/text()')
bw = tree.xpath('//ul[@class="information_ul"]/li/i[text()="发病部位:"]/following-sibling::span/a/text()')
ks = tree.xpath('//ul[@class="information_ul"]/li/i[text()="挂号科室:"]/following-sibling::span/a/text()')
return bm, bw, ks
补充其他:
# /从根元素开始,相当于绝对路径
print(tree.xpath('/html/body/ul'))
# //全局搜索,到所有
print(tree.xpath('//li'))
ul = tree.xpath('//ul')
# . 当前
# 返回的都是列表,查到所有
li = ul[0].xpath('./li')
print(li)
for l in li:
# 获取属性id的值 @id
print(l.xpath('./@id'))
# 定位 /标签[@属性='值']
liClass = tree.xpath("//li[@class='liClass']")
print(liClass)
#判断,@属性='值' --->返回True或False
print(tree.xpath("//li/@id='12'"))
print("===========================")
#直接使⽤下标访问,下标从1开始获取对个li⾥⾯的⽂本
print(tree.xpath('//li[2]/text()'))
#last()最后⼀个
print(tree.xpath('//li[last()]/text()'))
position标签属性
#倒数第⼆个
print(tree.xpath('//li[last()-1]/text()'))
# position() 位置 > < = >= <=
print(tree.xpath('//li[position()>1]'))
#* 通配
print(tree.xpath('//*[@class="liClass"]'))
# 或 |
print(tree.xpath('//li[@class="liClass"] | //div[@class="liClass"]'))
xpath基本语法
表达式说明
article选取所有article元素的所有⼦节点/article选取根元素article
表达式说明
article/a选取所有属于article的⼦元素的a元素
//div选取所有div元素(不管出现在⽂档⾥的任何地⽅)article//div选取所有属于article元素的后代的div元素,不管它出现在article之下的任何位置//@class选取所有名为class的属性
表达式说明
/article/div[1]选取属于article⼦元素的第⼀个div元素
/article/div[last()]选取属于article⼦元素的最后⼀个div元素
/article/div[last()-1]选取属于article⼦元素的倒数第⼆个div元素//div[@color]选取所有拥有color属性的div元素//div[@color=‘red’]选取所有color属性值为red的div元素
表达式说明
/div/*选取属于div元素的所有⼦节点
//*选取所有元素
//div[@*]选取所有带属性的div 元素//div/a ⼁//div/p选取所有div元素的a和p元素
//span⼁//ul选取⽂档中的span和ul元素article/div/p⼁//span选取所有属于article元素的div元素的p元素以及⽂档中所有的 span元素补充:
相邻元素定位,
前⼀位:
preceding-sibling::div[1]
后⼀位:
following-sibling::div[1]
前N位:
preceding-sibling::div[N]
后N位:
following-sibling::div[N]
# 爬取i标签中包含相关检查节点的兄弟 a节点(到i节点—>到其⽗节点->到该⽗节点的⼦节点a)
content = tree.xpath('//i[contains(text(),"相关检查:")]/../a[@class="blue"]/text()')
xpath多个class限制
//div[contains(@class,'demo')and contains(@class,'other')]
xpath 同时多个标签⽤|分隔
//div[contains(@class,"jib-lh-articl")]/p |//div[contains(@class,"jib-lh-articl")]/h3
选择不包含某⼀属性的节点
//div[not(@class)]没有class属性的div
//tbody/tr[not(@class or @id)]
获取当前节点的是什么类型的html标签
xpath_element.tag
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论