python读取word中的⽂字格式_尝试使⽤Python解析xml格式
的docx⽂档以打印粗体字
我有⼀个word docx⽂件,我想打印粗体在xml格式的⽂档中查看我要打印的单词似乎具有以下属性。在
Print this Sentence
特别是指定⽂本为粗体的w:rsidRPr="00510F21"属性。下⾯是更多的XML⽂档,让我们更好地了解它的结构。在
^{pr2}$
在做了⼀些研究并尝试使⽤pythondocx库来实现这⼀点之后,我决定尝试使⽤lxml。我得到⼀个关于名称空间的错误,并试图添加该名称空间,但它返回⼀个空集。下⾯是⽂档中的⼀些命名空间内容。在
xmlns:wpc="schemas.microsoft/office/word/2010/wordprocessingCanvas"
xmlns:mo="schemas.microsoft/office/mac/office/2008/main"
xmlns:mc="/markup-compatibility/2006"
xmlns:mv="urn:schemas-microsoft-com:mac:vml"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:r="/officeDocument/2006/relationships"
xmlns:m="/officeDocument/2006/math"
xmlns:v="urn:schemas-microsoft-com:vml"
xmlns:wp14="schemas.microsoft/office/word/2010/wordprocessingDrawing"
xmlns:wp="/drawingml/2006/wordprocessingDrawing"
xmlns:w10="urn:schemas-microsoft-com:office:word"
xmlns:w="/wordprocessingml/2006/main"
xmlns:w14="schemas.microsoft/office/word/2010/wordml"
xmlns:w15="schemas.microsoft/office/word/2012/wordml"
xmlns:wpg="schemas.microsoft/office/word/2010/wordprocessingGroup"
xmlns:wpi="schemas.microsoft/office/word/2010/wordprocessingInk"
xmlns:wne="schemas.microsoft/office/word/2006/wordml"
xmlns:wps="schemas.microsoft/office/word/2010/wordprocessingShape"
mc:Ignorable="w14 w15 wp14">
python处理xml文件下⾯是我使⽤的代码。如果属性是w:rsidRPr="00510F21",我想再次打印。在from lxml import etree
root = etree.parse("l")
namespaces = {'w':'/wordprocessingml/2006/main'}
wr_roots = root.findall('w:r', namespaces)
print wr_roots # prints empty set
for atype in wr_roots:
if w:rsidRPr == '00510F21':
('w:t'))
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论