python处理doc格式⽂档
(1)调⽤python的docx库进⾏读取word⽂档:
import docx
fn = r'E:\abc\test.docx'
doc = docx.Document(fn)
for paragraph in doc.paragraphs:
)
该⽅法⾃⼰⽤的时候发现,并不是能读出所有的⽂字,有些格式不⼀样的可能读取的时候就被忽略了,因此我计较推荐使⽤第⼆种⽅法。(2)将word⽂档压缩后会有4个⽂件,⽽正⽂⽂本储存在l的标签下,所以只需要⽤正则取出正⽂⽂本。
from zipfile import ZipFile
from bs4 import BeautifulSoup
python中文文档document = ZipFile('test.docx')
xml = ad("l")
wordObj = BeautifulSoup(xml.decode("utf-8"))
texts = wordObj.findAll("w:t")
str=''
for text in texts:
is not None:
# )
str=str+
# print(str)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。