python读取xml⽂件⽅法解析
  关于python读取xml⽂章很多,但⼤多⽂章都是贴⼀个xml⽂件,然后再贴个处理⽂件的代码。这样并不利于初学者的学习,希望这篇⽂章可以更通俗易懂的教如何使⽤python来读取xml⽂件。
什么是xml?
xml即可扩展标记语⾔,它可以⽤来标记数据、定义数据类型,是⼀种允许⽤户对⾃⼰的标记语⾔进⾏定义的源语⾔。l
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
Ok,从结构上,它很像我们常见的HTML超⽂本标记语⾔。但他们被设计的⽬的是不同的,被设计⽤来显⽰数据,其焦点是数据的外观。它被设计⽤来传输和存储数据,其焦点是数据的内容。
那么它有如下特征:
⾸先,它是有标签对组成,<aa></aa>
标签可以有属性:<aaid='123'></aa>
标签对可以嵌⼊数据:<aa>abc</aa>
标签可以嵌⼊⼦标签(具有层级关系):
<aa>
<bb></bb>
</aa>
获得标签属性
那么,下⾯来介绍如何⽤python来读取这种类型的⽂件。
#coding=utf-8
import xml.dom.minidom
#打开xml⽂档
dom = xml.dom.minidom.parse('l')
#得到⽂档元素对象
root = dom.documentElement
deName
deValue
deType
print root.ELEMENT_NODE
mxl.dom.minidom模块被⽤来处理xml⽂件,所以要先引⼊。
xml.dom.minidom.parse()⽤于打开⼀个xml⽂件,并将这个⽂件对象dom变量。
documentElement⽤于得到dom对象的⽂档元素,并把获得的对象给root
每⼀个结点都有它的nodeName,nodeValue,nodeType属性。
nodeName为结点名字。
nodeValue是结点的值,只对⽂本结点有效。
nodeType是结点的类型。catalog是ELEMENT_NODE类型
现在有以下⼏种:
'ATTRIBUTE_NODE'
'CDATA_SECTION_NODE'
'COMMENT_NODE'
'DOCUMENT_FRAGMENT_NODE'
'DOCUMENT_NODE'
'DOCUMENT_TYPE_NODE'
'ELEMENT_NODE'
'ENTITY_NODE'
'ENTITY_REFERENCE_NODE'
'NOTATION_NODE'
'PROCESSING_INSTRUCTION_NODE'
'TEXT_NODE'
NodeTypes-有名常数
获得⼦标签
现在要获得catalog的⼦标签以的标签name
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
  <caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
对于知道元素名字的⼦元素,可以使⽤getElementsByTagName⽅法获取:<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
  <caption>Python</caption>
python处理xml文件<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
如何区分相同标签名字的标签:
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
  <caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
<caption>和<item>标签不⽌⼀个如何区分?
import xml.dom.minidom
#打开xml⽂档
dom = xml.dom.minidom.parse('l')
#得到⽂档元素对象
root = dom.documentElement
bb = ElementsByTagName('caption')
b= bb[2]
deName
bb = ElementsByTagName('item')
b= bb[1]
deName
获得标签属性值
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
  <caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
<login>和<item>标签是有属性的,如何获得他们的属性?
#coding=utf-8
import xml.dom.minidom
#打开xml⽂档
dom = xml.dom.minidom.parse('l')
#得到⽂档元素对象
root = dom.documentElement
itemlist = ElementsByTagName('login')
item = itemlist[0]
Attribute("username")
print un
Attribute("passwd")
print pd
ii = ElementsByTagName('item')
i1 = ii[0]
Attribute("id")
print i
i2 = ii[1]
Attribute("id")
print i
getAttribute⽅法可以获得元素的属性所对应的值。
获得标签对之间的数据
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
  <caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<caption>Zope</caption>
</item>
</catalog>
<caption>标签对之间是有数据的,如何获得这些数据?
获得标签对之间的数据有多种⽅法,
⽅法⼀
#coding=utf-8
import xml.dom.minidom
#打开xml⽂档
dom = xml.dom.minidom.parse('l')
#得到⽂档元素对象
root = dom.documentElement
ElementsByTagName('caption')
c1=cc[0]
print c1.firstChild.data
c2=cc[1]
print c2.firstChild.data
c3=cc[2]
print c3.firstChild.data
firstChild属性返回被选节点的第⼀个⼦节点,.data表⽰获取该节点⼈数据。
⽅法⼆
#coding=utf-8
import ElementTree as ET
per=ET.parse('l')
p=per.findall('./login/item')
for oneper in p:
for child hildren():
print child.tag,':',
p=per.findall('./item')
for oneper in p:
for child hildren():
print child.tag,':',
⽅法⼆有点复杂,所引⽤模块也与前⾯的不⼀样,findall⽤于指定在哪⼀级标签下开始遍历。
getchildren⽅法按照⽂档顺序返回所有⼦标签。并输出标签名(child.tag)和标签的数据()
其实,⽅法⼆的作⽤不在于此,它核⼼功能是可以遍历某⼀级标签下的所有⼦标签。
到此这篇关于python读取xml⽂件⽅法解析的⽂章就介绍到这了,更多相关python读取xml⽂件内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持!

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。