python提取docx文档的信息(文本+表格)--688IT编程网

python提取docx⽂档的信息（⽂本+表格）⽂章⽬录

⼀、说明：

本⽂的需求是提取docx⽂档⾥⾯的数据信息，包括⽂本和Excel表格信息。

经过⼀上午的搜索，⽬前到了⼀些⽂字，整理成⾃⼰需要的的代码。

⼆、提取数据

安装模块：

我这⾥直接命令安装即可。

pip install python-docx

1、提取⽂本内容：

这⾥只有按原的每⾏保存为⼀个⼤的字符串。

具体不废话了，直接上代码：

import docx

def extract_docx_text(docFile):

# 获取⽂档对象

document = docx.Document(docFile)

# 完整的text：

docx_text =""

for para in document.paragraphs:

docx_text += +'\n'

return docx_text

if __name__ =='__main__':

docFile ='W020200731560335069483.docx'

docx_text = extract_docx_text(docFile)

print("docx_text", docx_text)

效果图：

是根据每⾏的内容保存，还是原样的⾏保存⼀个⼤的字符串样式，⽅便后续需求区分开每⾏内容。

2、提取Excel表格内容：

我这⾥根据读取所有表格，然后根据每个表格进⾏弄成json格式，以表格的列名称作为key，值为列表。1）、每列数据作为⼀个list

columns = lumns

tables_i_json ={}

# 列标题

python怎么读取json文件columns_name_json ={}# ⽤来下⾯表格的⾏做铺垫使⽤

for columns_i in range(len(columns)):

tables_i_json[ll(0, columns_i).text]=[]

columns_name_json[columns_i]= ll(0, columns_i).text

for row_i in range(1,len(ws)):# 从表格第⼆⾏开始循环读取表格数据

for columns_i in range(len(columns)):

tables_i_json[columns_name_json[columns_i]].append(ll(row_i, columns_i).text) return tables_i_json

def extract_docx_excel_data(docFile):

document = Document(docFile)# 读⼊⽂件

# print("document",dir(document))

tables = document.tables # 获取⽂件中的表格集

# print("dir", dir(document))

# print("tables", tables)

tables_json =[]

for tables_i in tables:

tables_i_json = extract_table_data(tables_i)

tables_json.append(tables_i_json)

print("tables_json",tables_json)

return tables_json

if __name__ =='__main__':

docFile ='W020200731560335069483.docx'

tables_json = extract_docx_excel_data(docFile)

2）、每⾏⼀个json：

columns = lumns

"""每列作为列表"""

# tables_i_json = {}

# # 列标题

# columns_name_json = {} # ⽤来下⾯表格的⾏做铺垫使⽤

# for columns_i in range(len(columns)):

# tables_i_json[ll(0, columns_i).text] = []

# columns_name_json[columns_i] = ll(0, columns_i).text

# for row_i in range(1, len(ws)): # 从表格第⼆⾏开始循环读取表格数据

# for columns_i in range(len(columns)):

# tables_i_json[columns_name_json[columns_i]].append(ll(row_i, columns_i).text) """每⾏⼀个json"""

table_data =[]

# # 列标题

head_name =[]

for columns_i in range(len(columns)):

head_name.append(ll(0, columns_i).text)

for row_i in range(1,len(ws)):# 从表格第⼆⾏开始循环读取表格数据

row_json ={}

for columns_i in range(len(columns)):

row_json[head_name[columns_i]]= ll(row_i, columns_i).text

table_data.append(row_json)

return table_data

def extract_docx_excel_data(docFile):

document = Document(docFile)# 读⼊⽂件

# print("document",dir(document))

tables = document.tables # 获取⽂件中的表格集

# print("dir", dir(document))

# print("tables", tables)

tables_json =[]

for tables_i in tables:

tables_i_json = extract_table_data(tables_i)

tables_json.append(tables_i_json)

print("tables_json",tables_json)

return tables_json

if __name__ =='__main__':

docFile ='W020200731560335069483.docx'

tables_json = extract_docx_excel_data(docFile)

直接上代码，⾃⼰更换⾃⼰的docFile ⽂件路径即可解决问题。

参考学习的⼀些⽂章：

688IT编程网

python提取docx文档的信息(文本+表格)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python提取docx文档的信息(文本+表格)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式