Python办公自动化教程【PDF篇】--688IT编程网

安装

2020年6月11日10:03

1、到所在的文件夹，复制路径

我的路径是：C:\Users\孙艺航\AppData\Local\Programs\Python\Python37\Scripts

2、按Win+R，输入CMD确定

3、进入后，先输入cd 路径回车

4、输入 pip3 install pypdf2 回车

5、输入 pip3 install pdfplumber 回车

6、输入pip3install pymupdf回车

分区PDF 的第1 页

Python 基础课程PPT 笔记184页with

语句

前景回顾：with 语句

2020年6月15日20:08

python入门教程app分区PDF 的第2 页

pdfminer3k：主要用于读取 pdf 中的文本，代码太复杂

1.pdfminer 是pdfminer3k在Python2x 时代的版本，对于表格的处理非常的不友好，能提取出文字，但是没有格式

2.tabula-py 是专门用来提取PDF表格数据的，同时支持PDF导出为CSV、Excel格式，但是这工具是用 java 写的，依赖 java7/8。tabula -py 就是对它做了一层 python 的封装，所以也依赖 java7/8。

3.pypdf2网上代码比较多，但是读出来有时是乱码

tablet computing是什么意思中文4.pdfplumber 是按页来处理 pdf 的，可以获得页面的所有文字，并且提供的单独的方法用于提取表格，对于合并单元格等提取也存在问题。相比前面4个稍好一点。

5.解析PDF 文本及表格的几种库：

2020年6月15日21:08

分区PDF 的第3 页

2020年6月15日20:18

一、对其中一页提取

import pdfplumber

路径 = r'c:/文字.pdf'

35kv动态无功补偿装置

with pdfplumber.open(路径)as pdf:

首页= pdf.pages[0] # 指定页码

批评与自我批评内容文本 = 页码.extract_text() # 提取文本

文件 = open('c:/1.txt', mode='a')# 新建文件，追加形式写入文件.write(文本)# 将文本写入到文件

二、对所有页面提取

import pdfplumber

路径 = r'c:/文字.pdf'

with pdfplumber.open(路径)as pdf:

for 页码 in pdf.pages:

文本 = 页码.extract_text()

文件 = open('c:/1.txt', mode='a')

文件.write(文本)

分区PDF 的第4 页

2020年6月15日20:55

一、保存成Csv文件

威斯布鲁克劲爆集锦

import pdfplumber

import pandas as pd

文件 = r'c:/表1.pdf'

with pdfplumber.open(文件) as pdf:

for 页码 in pdf.pages:

for 表格 in 页码.extract_tables():

数据 = pd.DataFrame(表格[1:],columns=表格[0])

数据.to_csv('c:/1.csv',mode='a',encoding='ANSI')

二、保存成Excel文件

import pdfplumber

import pandas as pd

举例说明format命令的功能

a = r'c:/表1.pdf'# 混合.pdf

count = 1

with pdfplumber.open(a) as pdf:

with pd.ExcelWriter('c:/1.xlsx') as writer:

for 页码 in pdf.pages:

for 表格 in 页码.extract_tables():

数据 = pd.DataFrame(表格[1:],columns=表格[0])

数据.to_excel(writer,sheet_name=f'sheet{count}') count += 1

分区PDF 的第5 页

688IT编程网

Python办公自动化教程【PDF篇】

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

Python办公自动化教程【PDF篇】

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性