安装
2020年6月11日10:03
1、到所在的文件夹,复制路径
我的路径是:C:\Users\孙艺航\AppData\Local\Programs\Python\Python37\Scripts
2、按Win+R,输入CMD确定
3、进入后,先输入cd 路径回车
4、输入 pip3 install pypdf2 回车
5、输入 pip3 install pdfplumber 回车
6、输入pip3install pymupdf回车
分区PDF 的第1 页
Python 基础课程PPT 笔记184页with
语句
前景回顾:with 语句
2020年6月15日20:08
python入门教程app分区PDF 的第2 页
pdfminer3k:主要用于读取 pdf 中的文本,代码太复杂
1.pdfminer 是pdfminer3k在Python2x 时代的版本,对于表格的处理非常的不友好,能提取出文字,但是没有格式
2.tabula-py 是专门用来提取PDF表格数据的,同时支持PDF导出为CSV、Excel格式,但是这工具是用 java 写的,依赖 java7/8。tabula -py 就是对它做了一层 python 的封装,所以也依赖 java7/8。
3.pypdf2网上代码比较多,但是读出来有时是乱码
tablet computing是什么意思中文4.pdfplumber 是按页来处理 pdf 的,可以获得页面的所有文字,并且提供的单独的方法用于提取表格,对于合并单元格等提取也存在问题。相比前面4个稍好一点。
5.解析PDF 文本及表格的几种库:
2020年6月15日21:08
分区PDF 的第3 页
2020年6月15日20:18
一、对其中一页提取
import pdfplumber
路径 = r'c:/文字.pdf'
35kv动态无功补偿装置with pdfplumber.open(路径)as pdf:
首页= pdf.pages[0] # 指定页码
批评与自我批评内容文本 = 页码.extract_text() # 提取文本
文件 = open('c:/1.txt', mode='a')# 新建文件,追加形式写入文件.write(文本)# 将文本写入到文件
二、对所有页面提取
import pdfplumber
路径 = r'c:/文字.pdf'
with pdfplumber.open(路径)as pdf:
for 页码 in pdf.pages:
文本 = 页码.extract_text()
文件 = open('c:/1.txt', mode='a')
文件.write(文本)
分区PDF 的第4 页
2020年6月15日20:55
一、保存成Csv文件
威斯布鲁克劲爆集锦import pdfplumber
import pandas as pd
文件 = r'c:/表1.pdf'
with pdfplumber.open(文件) as pdf:
for 页码 in pdf.pages:
for 表格 in 页码.extract_tables():
数据 = pd.DataFrame(表格[1:],columns=表格[0])
数据.to_csv('c:/1.csv',mode='a',encoding='ANSI')
二、保存成Excel文件
import pdfplumber
import pandas as pd
举例说明format命令的功能a = r'c:/表1.pdf'# 混合.pdf
count = 1
with pdfplumber.open(a) as pdf:
with pd.ExcelWriter('c:/1.xlsx') as writer:
for 页码 in pdf.pages:
for 表格 in 页码.extract_tables():
数据 = pd.DataFrame(表格[1:],columns=表格[0])
数据.to_excel(writer,sheet_name=f'sheet{count}') count += 1
分区PDF 的第5 页
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论