pdf转excel的python代码--688IT编程网

pdf转excel的python代码

PDF文件通常是一种包含大量信息的非结构化数据，因此将其转换为Excel文件需要进行一定的数据清洗和处理。我们可以使用Python中的PyPDF2库来读取PDF文件的内容，并使用pandas库将其转换为Excel文件。以下是示例代码：

```python

import PyPDF2

import pandas as pd

# 打开PDF文件

with open('example.pdf', 'rb') as f:

# 创建PDF阅读器对象

pdfReader = PyPDF2.PdfFileReader(f)

# 输出PDF文件中的总页数

print("总页数：", pdfReader.numPages)

# 创建Excel文件

writer = pd.ExcelWriter('example.xlsx', engine='xlsxwriter')

# 遍历PDF文件的所有页

for page in range(pdfReader.numPages):

# 读取一页PDF文件

pdfPage = Page(page)

# 提取PDF页面的文本内容

text = actText()

# 文本清洗和处理

text = place('\n', '')

# 将文本内容分割为列表

textList = text.split(' ')

# 将列表转换为DataFrame对象

df = pd.DataFrame(textList)

python代码转换

# 将DataFrame对象写入Excel文件

df.to_excel(writer, sheet_name='page{}'.format(page+1))

# 保存Excel文件

writer.save()

# 输出转换完成

print("转换完成！")

```

以上代码将PDF文件中每一页的文本内容提取出来，并存储到Excel文件中。这里我们使用pandas库将列表转换为DataFrame对象，并使用xlsxwriter引擎将DataFrame对象写入Excel文件中。在代码中，我们将文本按照空格分割为列表，并输出到Excel文件中。在实际使用时，我们可以根据PDF文件的具体数据结构进行代码的修改和优化。

发表评论

688IT编程网

pdf转excel的python代码

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

pdf转excel的python代码

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则