Python读取pdf表格写入excel的方法--688IT编程网

Python读取pdf表格写⼊excel的⽅法

背景

今天突然想到之前被要求做同性质银⾏的数据分析。妈耶！⼗⼏个银⾏，每个银⾏近5年的财务数据，⽽且财务报表⼀般都是 pdf 的，我们将 pdf 中表的数据⼀个个的拷贝到 excel 中，再借助 excel 去进

⾏求和求平均等聚合函数操作，完事了还得把求出来的结果再统⼀ CV 到另⼀张表中，进⾏可视化分析…

当然，那时风流倜傥的⽼Amy 还熟练的玩转着 excel ，也是个秀⼉~ 今天就思索着，如果当年我会 Python 是不是可以让我成为班级最靓的崽！⽤技术占领⾼地，HHH，所以今天我来了，希望可以帮助

⼤家解决同性质的问题。

开始学习叭

避免CV⼤法

步骤：

导⼊ pdfplumber 库

通过 pdfplumber.open() 函数获取 mt2018.pdf ⽂件对象

通过该对象.pages 获取 pdf 每页的对象，截取我们需要的页对象即可

通过页对象.extract_tables() 获取表格数据（若需要获取⽂本：页对象.extract_text()）

代码实现：

import pdfplumber

# 获取 pdf ⽂件对象

pdf_mt = pdfplumber.open("mt2018.pdf")

# 因为我需要获取的资产负债表在 51-53页但是索引从0开始所以切⽚取 50-52即可

for pdf_pg in pdf_mt.pages[50:53]:

# 只提取当前页表格数据

print(act_tables())

--------------------------------------------------------------------------

结果⽐较多，截取⼀部分：

[[['项⽬', '附注', '期末余额', '期初余额'], ['流动资产：', '', '', ''], ['货币资⾦', '1', '112,074,791,420.06', '87,868,869,913.34'], ['结算备付⾦', '', '', ''], ['拆出资⾦', '', '', ''], ['以公允价值计量且其变动计⼊当\n期损益的⾦融资产', '', '', ''], ['衍⽣⾦融资产', '', '', ''], ['应收票据及应收账将完整表保存到 csv ⽂件中

我们发现，返回的数据集是⼀个三维的列表。那么在我们平时处理的 excel 表格数据(⾏与列)都是⼆维的数据。那么，这多出的⼀维是什么呢？其实就是我们的夜[页]~ 再来⼀个循环取出⼆维数据进⾏保

存即可

for pdf_pg in pdf_mt.pages[50:53]:

for pdf_tb in act_tables():

print(pdf_tb)

-----------------------------------------------------------------------------

结果⽐较多，截取⼀部分：

[['项⽬', '附注', '期末余额', '期初余额'], ['流动资产：', '', '', ''], ['货币资⾦', '1', '112,074,791,420.06', '87,868,869,913.34'], ['结算备付⾦', '', '', ''], ['拆出资⾦', '', '', ''], ['以公允价值计量且其变动计⼊当\n期损益的⾦融资产', '', '', ''], ['衍⽣⾦融资产', '', '', ''], ['应收票据及应收账款但是，真的那么简单吗？这时，我们就需要细品我们的 pdf 了，如下图

我们发现，⼀张完整的资产负债表分布在多页上。也就是说，每⼀页的⾥⾯的表格数据都是⼀个三维的列表，所以我们保存数据的时候，需要让其有共同的表头(列索引)，并且进⾏拼接。

那必须就要强推我们的 pandas 了，pandas.DataFrame() ⾮常完美的创建表格式的⼆维数组，以及指定列索引(表头)。包括可以直接使⽤ df.append() 进⾏共同表头数据的堆叠拼接。

import pdfplumber

import pandas as pd

import numpy as np

# 创建仅有表头的 dataframe 数组

pdf_df = pd.DataFrame(columns=['项⽬', '附注', '期末余额', '期初余额'])

# 获取 pdf ⽂件对象

pdf_mt = pdfplumber.open("mt2018.pdf")

python怎么读入excel# 因为我需要获取的资产负债表在 51-53页但是索引从0开始所以切⽚取 50-52即可

for pdf_pg in pdf_mt.pages[50:53]:

# 获取⼆维列表

for pdf_tb in act_tables():

# 将其拼接

pdf_df = pdf_df.append(pd.DataFrame(np.array(pdf_tb),columns=['项⽬', '附注', '期末余额', '期初余额']))

# 显⽰后五条

pdf_df.tail()

dataframe数据输出如下：

pdf 53页如下：

实际上，⼤家也发现，我们获取的最后⼀页的数据还有⼀部分是另⼀个表的，所以我们需要将其去除，并且有序的设置⾏索引，再保存到 csv ⽂件中。

# 去除后三⾏

pdf_df = pdf_df.iloc[:-3,:]

# 重置索引

pdf_df = set_index(drop=True)

# 保存到 csv ⽂件中

_csv("mt_2018.csv")

当然，今天就到这⾥，其它的需求我们下次给⼤家完善。⼤家也可以⾃⼰将代码封装成函数，这样就可以实现传⼊ pdf⽂件名称、页数以及保存的⽂件名来复⽤代码。如果⼤家再掌握了 pandas 就可以根

据⾃⼰的需求，对各个表格数据进⾏处理。再结合 seaborn 绘图可视化，完爆 excel ~ 快学习起来叭，GOGOGO

以上就是Python读取pdf表格写⼊excel的⽅法的详细内容，更多关于Python读取pdf表格写⼊excel的资料请关注其它相关⽂章！

688IT编程网

Python读取pdf表格写入excel的方法

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

Python读取pdf表格写入excel的方法

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性