ElementTree解析XML文件--688IT编程网

(⼀)简介

1. ElementTree模块实现了⼀个简单⽽⾼效的API⽤于解析和创建XML数据。ElementTree模块对于恶意构造的数

据是不安全的。如果您需要解析不受信任或未经验证的数据，请参阅XML漏洞。

2. 参考⽂献：/

3.6/elementtree.html

1.XML tree and elements

XML是⼀种固有的分层数据格式，最⾃然的表⽰⽅法是使⽤树。ET有两个类为此⽬的—ElementTree表⽰整个XML⽂档为树，元素表⽰此树中的单个节点。与整个⽂档的交互(读取和写⼊⽂件)通常是在ElementTree级别上完成的。与单个XML元素及其⼦元素的交互是在元素级别上完成的。

2.解析XML⽂件

我们将使⽤以下XML⽂档作为本节的⽰例数据。

<?xml version="1.0"?>

<data>

</country>

</country>

python处理xml文件<country name="Panama">

</country>

</data>

我们可以通过读取⽂件来导⼊这些数据:

ElementTree as ET

tree = ET.parse('l')

root = t()

作为⼀个元素，root有⼀个标签和⼀个属性字典:

>>> root.tag

'data'

>>> root.attrib

{}

它也有⼦节点，我们可以迭代:

>>> for child in root:

... print(child.tag, child.attrib)

...

country {'name': 'Liechtenstein'}

country {'name': 'Singapore'}

country {'name': 'Panama'}

孩⼦节点是嵌套的，我们可以通过索引访问特定的⼦节点:

>>> root[0][1].text

'2008'

注：并不是所有的XML元素输⼊将作为解析数元素的结尾，⽬前这个模块跳过了所有XML注解、处理

指令和⽂档类型声明。然⽽创建tree使⽤的是该模块的API，⽽不是解析XML⽂本。通过将⾃定义TreeBuilder实例传递给XMLParser构造函数，可以访问⽂档类型声明。

3.获取XML中的元素

Element有⼀些有⽤的⽅法，可以帮助递归地遍历它下⾯的所有⼦树(它的⼦树，它们的⼦树，等等)⽐如：Element.iter():

>>> for neighbor in root.iter('neighbor'):

... print(neighbor.attrib)

...

{'name': 'Austria', 'direction': 'E'}

{'name': 'Switzerland', 'direction': 'W'}

{'name': 'Malaysia', 'direction': 'N'}

{'name': 'Costa Rica', 'direction': 'W'}

{'name': 'Colombia', 'direction': 'E'}

1.Element.findall(): 只到带有标签的元素，该标签是当前元素的直接⼦元素。

2.Element.find() ：到第⼀个带有特定标签的⼦元素。

3. ：访问标签的内容

4. ()：访问标签的属性值

>>> for country in root.findall('country'):

... rank = country.find('rank').text

... name = ('name')

... print(name, rank)

...

Liechtenstein 1

Singapore 4

Panama 68

4.修改XML⽂件

ElementTree提供了⼀种构建XML⽂档并将xml写⼊⽂件的简单⽅法。

1.ElementTree.write() ：创建xml⽂件或向xml中写⼊数据。

2.Element.set()：添加和修改标签的属性和属性值。

3.Element.append()：添加孩⼦节点

假设我们想在每个国家的排名中添加⼀个，并将更新后的属性添加到rank元素:

>>> for rank in root.iter('rank'):

... new_rank = ) + 1

... = str(new_rank)

.. rank.set('updated', 'yes')

...

>>> tree.write('l')

修改后XML是这样的:

<?xml version="1.0"?>

<data>

</country>

</country>

</country>

</data>

我们使⽤ve()删除标签，假设我们想要移除所有排名⾼于50的国家:

>>> for country in root.findall('country'):

... rank = int(country.find('rank').text)

... if rank > 50:

... ve(country)

...

>>> tree.write('l')

删除满⾜条件标签后XML是这样的:

<?xml version="1.0"?>

<data>

</country>

</country>

</data>

5.创建XML⽂档

1.SubElement()：⽤于创建新的⼦元素。

>>> a = ET.Element('a')

>>> b = ET.SubElement(a, 'b')

>>> c = ET.SubElement(a, 'c')

>>> d = ET.SubElement(c, 'd')

>>> ET.dump(a)

6.解析XML名称空间

If the XML input has namespaces, tags and attributes with prefixes in the form prefix:sometag get expanded to

{uri}sometag where the prefix is replaced by the full URI. Also, if there is a default namespace, that full URI gets prepended to all of the non-prefixed tags.

这⾥有⼀个XML⽰例它包含两个名称空间，⼀个是前缀“ fictional”另⼀个是默认的名称空间:

<?xml version="1.0"?>

<actors xmlns:fictional="ample"

xmlns="ample">

<actor>

<name>John Cleese</name>

<fictional:character>Lancelot</fictional:character>

<fictional:character>Archie Leach</fictional:character>

</actor>

<actor>

<fictional:character>Sir Robin</fictional:character>

<fictional:character>Gunther</fictional:character>

<fictional:character>Commander Clement</fictional:character>

</actor>

</actors>

搜索名称空间XML⽰例的更好⽅法是使⽤⾃⼰的前缀创建字典，并在搜索函数中使⽤这些前缀:

ns = {'real_person': 'ample',

'role': 'ample'}

for actor in root.findall('real_person:actor', ns):

name = actor.find('real_person:name', ns)

)

for char in actor.findall('role:character', ns):

print(' |-->', )

输出结果：

John Cleese

|--> Lancelot

|--> Archie Leach

Eric Idle

|--> Sir Robin

|--> Gunther

|--> Commander Clement

7.对XPath的⽀持

下⾯的⽰例演⽰了模块的⼀些XPath功能。我们将使⽤解析XML部分中的countrydata XML⽂档:

ElementTree as ET

root = ET.fromstring(countrydata)

# Top-level elements

root.findall(".")

# All 'neighbor' grand-children of 'country' children of the top-level

# elements

root.findall("./country/neighbor")

# Nodes with name='Singapore' that have a 'year' child

root.findall(".//year/..[@name='Singapore']")

# 'year' nodes that are children of nodes with name='Singapore'

root.findall(".//*[@name='Singapore']/year")

# All 'neighbor' nodes that are the second child of their parent

root.findall(".//neighbor[2]")

01.⽀持XPath语法

如图所⽰：

(⼆)参考API

1.函数

注意：XMLParser忽略了输⼊中的注释，⽽不是为它们创建注释对象。如果ElementTree使⽤其中⼀个元素⽅法插⼊到树中，它只会包含注释节点。

688IT编程网

ElementTree解析XML文件

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

ElementTree解析XML文件

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式