Python操作PDF-⽂本和图⽚提取(使⽤PyPDF2和PyMuPDF)PDF⽂件格式
如今,可移植⽂档格式(PDF)属于最常⽤的数据格式。在1990年,PDF⽂档的结构由Adobe定义。PDF格式的思想是,对于通信过程中涉及的双⽅(创建者,作者或发送者以及接收者)⽽⾔,传输的数据/⽂档看起来完全相同。
⼯具和库
适⽤于Python的PDF⼯具,模块和库的可⽤解决⽅案范围有些混乱,需要花⼀点时间弄清楚什么是什么,以及哪些项⽬需要连续维护。根据我们的研究,以下是最新的候选⼈:
PyPDF2:⼀个Python库,⽤于提取⽂档信息和内容,逐页拆分⽂档,合并⽂档,裁剪页⾯并添加⽔印。PyPDF2⽀持未加密和加密的⽂档。
PDFMiner:完全⽤Python编写,适⽤于Python 2.4。对于Python 3,请使⽤克隆的包PDFMiner.six。这两个软件包都允许您解析,分析和转换PDF⽂档。这包括对PDF 1.7以及CJK语⾔(中⽂,⽇⽂和韩⽂)的⽀持,以及各种字体类型(Type1,TrueType,Type3和CID)。
pdflib for Python:Poppler库的扩展,为它提供了Python绑定。它使您可以解析,分析和转换PDF⽂档。不要将其与具有相同名称的商业吊坠相混淆。
PyFPDF:⼀个在Python下⽣成PDF⽂档的库。从FPDF PHP库移植⽽来,这是著名的PDFlib扩展替换,其中包含许多⽰例,脚本和派⽣类。
PDFTables:⼀项商业服务,提供从PDF⽂档附带的表格中提取的内容。提供⼀个API,以便PDFTables可以⽤作SAAS。
PyX -Python图形包:PyX是⽤于创建PostScript,PDF和SVG⽂件的Python包。它结合了PostScript绘图模型的抽象和TeX / LaTeX接⼝。这些基元可以构建复杂的任务,例如以可发布的质量创建2D和3D绘图。
ReportLab:⼀个雄⼼勃勃的,具有⾏业实⼒的图书馆,主要致⼒于精确创建PDF⽂档。免费提供开放源代码版本和名为ReportLab PLUS的商业增强版本。
PyMuPDF(⼜称“ fitz”):MuPDF的Python绑定,这是⼀种轻量级的PDF和XPS查看器。该库可以访问
PDF,XPS,OpenXPS,epub,漫画和⼩说书格式的⽂件,并且以其最佳性能和⾼渲染质量⽽闻名。
pdfrw:⼀个基于Python的纯PDF解析器,⽤于读写PDF。它忠实地再现⽮量格式⽽⽆需光栅化。与ReportLab结合使⽤时,它有助于在使⽤ReportLab创建的新PDF中重⽤现有PDF的⼀部分。
图书馆⽤于
PyPDF2读
PyMuPDF读
pdflib读
python官方文档中文版PDF表格读
PDFMiner.six读
PDF查询读
pdfrw读,写/创作
PyFPDF写/创作
我们将重点介绍PyPDF2和PyMuPDF,并说明如何以最简单的⽅式提取⽂本和图像。为了了解PyPDF2的⽤法,官⽅⽂档和许多其他资源提供的
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论