【Python】基于DOM的XML文档解析(xml.dom.minidom)--688IT编程网

【Python】基于DOM的XML⽂档解析（xml.dom.minidom）

⽂章⽬录

简介

是 DOM 接⼝的最⼩化实现，具有和其它语⾔类似的 API。它的⽬标是⽐完整的 DOM 简单，并且更为⼩巧。对于 DOM 不熟悉的⽤户⽤户应当考虑⽤模块来进⾏ XML ⽂件的处理。

开始

DOM 应⽤程序通常会从将某个 XML 解析为 DOM 开始。使⽤ xml.dom.minidom 时，这是通过各种解析函数来完成的：

from xml.dom.minidom import parse, parseString

dom1 = parse('c:\\temp\\l')# parse an XML file by name

datasource =open('c:\\temp\\l')

dom2 = parse(datasource)# parse an open file

dom3 = parseString('<myxml>Some data<empty/> some more data</myxml>')# parse a string

parse() 函数可以接受⼀个⽂件名或打开的⽂件对象。如果你将 XML 存为字符串，则可以改⽤ parseString() 函数。两个函数均返回⼀个代表⽂档内容的 Document 对象。

新建

你也可以通过在⼀个 DOM Implementation 对象上调⽤⽅法来创造 Document。此对象可通过调⽤ xml.dom 包或 xml.dom.minidom 模块中的 getDOMImplementation() 函数来获取。⼀旦你获得了⼀个 Document，你可以向其添加⼦节点来填充 DOM。

from xml.dom.minidom import getDOMImplementation

impl = getDOMImplementation()

newdoc = ateDocument(None,"some_tag",None)

top_element = newdoc.documentElement

text = ateTextNode('Some textual content.')

top_element.appendChild(text)

调⽤

⼀旦你得到了 DOM ⽂档对象，你就可以通过其的属性和⽅法访问 XML ⽂档的各个部分。这些属性定义在 DOM 规格说明当中。⽂档对象的主要特征属性是 documentElement 属性。它给出了 XML ⽂档中的主元素：即包含了所有其它元素的元素。以下是⼀个程序⽰例：

dom3 = parseString("<myxml>Some data</myxml>")

python处理xml文件

assert dom3.documentElement.tagName == "myxml"

结束

当你完成⼀个 DOM 树的处理时，你可以选择调⽤ unlink() ⽅法以⿎励尽早清除不再需要的对象。unlink() 是 xml.dom.minidom 针对DOM API 的专属拓展，它会将特定节点和它的下级节点标记为不再有⽤。此外，Python 的垃圾回收器将负责处理树结构中的对象。

⽰例

程序代码：

import xml.dom.minidom

document ="""\

<title>Demo slideshow</title>

<slide><title>Slide title</title>

<point>Of a program for processing slides</point>

</slide>

<slide><title>Another demo slide</title>

<point>It is important</point>

<point>one slide</point>

</slide>

</slideshow>

"""

dom = xml.dom.minidom.parseString(document)

def getText(nodelist):

rc =[]

for node in nodelist:

deType == node.TEXT_NODE:

rc.append(node.data)

return''.join(rc)

def handleSlideshow(slideshow):

print("<html>")

ElementsByTagName("title")[0]) slides = ElementsByTagName("slide")

handleToc(slides)

handleSlides(slides)

print("</html>")

def handleSlides(slides):

for slide in slides:

handleSlide(slide)

def handleSlide(slide):

ElementsByTagName("title")[0])

ElementsByTagName("point"))

def handleSlideshowTitle(title):

print("<title>%s</title>"% getText(title.childNodes))

def handleSlideTitle(title):

print("<h2>%s</h2>"% getText(title.childNodes))

def handlePoints(points):

print("<ul>")

for point in points:

handlePoint(point)

print("</ul>")

def handlePoint(point):

print("<li>%s</li>"% getText(point.childNodes))

def handleToc(slides):

for slide in slides:

title = ElementsByTagName("title")[0]

print("<p>%s</p>"% getText(title.childNodes)) handleSlideshow(dom)

执⾏结果：

<html>

<title>Demo slideshow</title>

<p>Slide title</p>

<p>Another demo slide</p>

<h2>Slide title</h2>

<ul>

<li>Of a program for processing slides</li> </ul>

<h2>Another demo slide</h2>

<ul>

<li>It is important</li>

<li>one slide</li>

</ul>

</html>

参考

688IT编程网

【Python】基于DOM的XML文档解析(xml.dom.minidom)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

【Python】基于DOM的XML文档解析(xml.dom.minidom)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式