python解析xml和html元素定位,解决a标签下有子标签时,获取a标签的--688IT编程网

python解析xml和html元素定位，解决a标签下有⼦标签时，获

取a标签的text⽂本问题

python处理xml文件

闲的蛋疼处理了个xml.

xml 长这样：

<a>

<span class="country_flag BR"></span>Brazil

</a>

</div>

<a>

<span class="country_flag FR"></span>France

</a>

</div>

尝试了⼏个包去获取这个Brazil，不成功的代码都删除了，以下⼤概凭记忆粘⼀下步骤，报错需要调⼀下。

1. xml 的parse。获取失败，结果为空。

from xml.dom.minidom import parse

dom_tree = parse("./l")

root_node = dom_tree.documentElement

tag_a = ElementsByTagName('a')

a = tag_a[0]

print(a.firstChild.data)

2. lxml 解析然后xpath 获取⽂本属性失败（代码未列出，可参考上⾯的），然后⼜根据text属性定位，发现到不。

from lxml import etree

text = "(xml⽂本内容）"

html = etree.HTML(text)

rst = html.xpath('//a')

rst = html.xpath('//a[contains(text(),"France")]')

3. BeautifulSoup 获取成功，这⾥你会发现，如果span标签中也有⽂本，会⼀同提取出来。

from bs4 import BeautifulSoup

f = open("./option.html", "r")

html = f.read()

soup = BeautifulSoup(html, 'lxml')

a = soup.find_all("a")

print(a[0].getText())

发表评论

688IT编程网

python解析xml和html元素定位,解决a标签下有子标签时,获取a标签的

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python解析xml和html元素定位,解决a标签下有子标签时,获取a标签的

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式