opencv源码解析pdf_PDF转Excel要收费?python⼏⾏代码帮
你免费搞定(附代码)
写在前⾯
经常在学习或⼯作中需要从PDF获取⼀些表格数据,直接⽤PDF阅读器复制的话,很难复制出来,使⽤PDF转Excel的软件,⼜需要收费。这时候,可以使⽤我们强⼤的python,⼏⾏代码就能把pdf的表格内容抽取到Excel,顺便学习⼀下。
本⽂介绍⼀个解析PDF的包使⽤过程,以及为何挑选这个解析包。
如何挑选python包
我们经常在⽹上看到⼀些python包,虽然功能⼀样,但是包名却不同。例如解析PDF的包,有好⼏种,那么我们应该怎么挑选呢?这⾥告诉⼤家⼀个⽅法,利⽤python官⽅⽂档来决定,⽤哪个⽐较好。
pdfplumber
⾸先,我们通过百度搜索 “包名+ pypi”。
这⾥我们搜索 pdfplumber pypi
python官方文档中文版
点击进去,英⽂看不懂不要紧,点击“releasese history”, 看到最新版本是2020年,就是今年发布。说明这个包有⼈在维护着,所以这
个包可以放⼼使⽤。就算这个包出了BUG,它下⼀版本也会修复的,所以不⽤担⼼。
camelot
来对⽐⼀下,另外⼀个PDF解析包,camelot,据说曾经是⼀个⾮常实⽤的pdf解析包,我们来看看它
的官⽅⽂档,七年之前就停更了、这
个包⽤起来似乎就没那么好了,当然可以⽤,就是可能会出现与你的python环境会冲突,⽽且有BUG也不会有⼈去修复。
所以说,在挑选同类型包时,尽量挑选有⼈维护的python包,这样即使出了问题,你也可以寻求到帮助。
代码讲解
这次代码很简单,就是pdfplumber的使⽤。
import pdfplumberimport xlwt
pdflumber: PDF ⽂件解析包。
xlwt: ⽤于Excel⽂件的读写。
workbook = xlwt.Workbook() # 定义workbooksheet = workbook.add_sheet('Sheet1') # 添加sheetpdf = pdfplumber.open("EAST⽂本检测论⽂.pdf")for page in pdf.
pdfplumber 是按页去解析PDF的,pdf.pages拿到所有页⾯,extract_tables() 把页⾯中的表格取出来,最后按照表格的格式赋值给
Excel的每个单元格。
运⾏结果
PDF截图
输出结果
后台私信我,回复:python解析pdf。 我把源码发你。最后,感谢⼤家的阅读,祝⼤家⼯作⽣活愉快!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论