Python读取word文档内容--688IT编程网

Python读取word⽂档内容1，利⽤python读取纯⽂字的word⽂档，读取段落和段落⾥的⽂字。

先读取段落，代码如下：

1'''

2 #利⽤python读取word⽂档，先读取段落

3'''

4#导⼊所需库

5from docx import Document

7#打开word⽂档

8 document = Document("D:/路径/长恨歌.docx")

10#获取所有段落

11 all_paragraphs = document.paragraphs

12#打印看看all_paragraphs是什么东西

13print(type(all_paragraphs)) #<class 'list'>，打印后发现是列表

14#是列表就开始循环读取

15for paragraph in all_paragraphs:

16#打印每⼀个段落的⽂字

)

效果：

再读取段落⾥的内容，代码如下：

1'''

2 #利⽤python读取word⽂档

python处理xml文件

3'''

4#导⼊所需库

5from docx import Document

7#打开word⽂档

8 document = Document("D:/路径/长恨歌.docx")

10#获取所有段落

11 all_paragraphs = document.paragraphs

12#打印看看all_paragraphs是什么东西

13print(type(all_paragraphs)) #<class 'list'>，打印后发现是列表

14#是列表就开始循环读取

15for paragraph in all_paragraphs:

16#打印每⼀个段落的⽂字

17#)

18#循环读取每个段落⾥的run内容

19for run in paragraph.runs:

) #打印run内容

效果如下：

其实都准确的获取了⽂字内容，但是paragraph是保留了word⽂档⾥的换⾏符，⽽run是没有保留的。

2，利⽤python读取纯表格⽂档，那要读取的⽂字都是存储在单元格⾥，需要读取单元格⾥的内容： 1'''

2 #利⽤python读取word⽂档，表格⽂档

3'''

4#导⼊所需库

5from docx import Document

7#打开⽂件

8 document = Document("D:/路径/长恨歌-表格.docx")

9#获取⽂档所有表格

10 all_tables = document.tables

12#打印all_tables类型

13print(type(all_tables)) #得到<class 'list'>，即列表

14#开始循环读取表格列表

15for table in all_tables:

16#循环读取表格的每⼀⾏

17for row ws:

18#print(row)

19#循环读取表格的每⼀个单元格

20for cell lls:

21#打印单元格⾥的内容

) #打印

3，利⽤python读取word⽂档，⽂档是表格加⽂字组合⽽成的。这个就设计word⽂档格式问题了。将要处理的word⽂档后缀名改为zip，发现也可以打开，⾥⾯有⼏个⽂件如图：

点开word⽬录，发现有个l，这就是我们要处理的⽂件。

代码开始：

1'''

2 #利⽤python读取word⽂档，表格⽂档

3'''

4#导⼊所需库

5import zipfile #解压⽂件库

6#先将要处理的word⽂档⽤zipfile进⾏压缩

7 word = zipfile.ZipFile('D:/路径/长恨歌-⽂字+表格.docx')

9#到要处理的xml⽂件并以utf-8的格式读取

10 xml = ad('l').decode('utf-8')

11#打印看看

12#print(type(xml)) #字符串

13#print(xml) #打印整个字符串

14#接下来分割字符串并存储到列表中

15 xml_list = xml.split('<w:t>') #以字符串<w:t>进⾏分割字符串

16#打印看是否符合预期

17#print(type(xml_list)) #是列表

18#print(xml_list) #列表内容

20#开始切⽚，标签</w:t>

21 text_list = [] #新建空list⽤以存储切出来的数据

22#开始循环读取列表xml_list

23for i in xml_list:

24#条件查

25if i.find('</w:t>') + 1: #切⽚查是如果没到是会返回-1，我们+1让他返回0，再运⾏else分⽀

26 text_list.append(i[:i.find('</w:t>')]) #如果不是返回0就把到的依次追加到text_list末尾

27else:

28pass

29#print(text_list)

30#再将得到的列表拆分为字符串

31 text = ''.join(text_list) #以空字符串为间隔，将列表拆分为字符串

32print(text)

第三个表格加⽂字的取出⽂字有点绕，多处理⼏遍就⾏了。

688IT编程网

Python读取word文档内容

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python读取word文档内容

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式