python读取pdf的标题_使⽤Python提取PDF⽂件⾥的内容PDF⽂件,是我们⼯作和学习中经常见到的⽂件。阅读体验⾮常好。
常⽤的Python操作PDF⽂件的第三⽅库,包含pyPdf、pyPdf2、pyPdf3、pyPdf4、pdfrw。
这次主要⽤pyPdf2来提取PDF⽂件属性信息,如:⽂件名、标题、作者、PDF创建者、页数。
⼀、安装
下⾯是如何⽤pip安装PyPDF2:$ pip install pypdf2
安装⾮常快,因为PyPDF2没有任何依赖关系。现在让我们继续学习如何从PDF中提取⼀些信息。
⼆、提取内容
你可以使⽤PyPDF2从PDF中提取元数据和⼀些⽂本。当你对现有PDF⽂件执⾏某些类型的⾃动化时,这将⾮常有⽤。
让我们⽤PDF编写⼀些代码,学习如何访问这些属性:from PyPDF2 import PdfFileReader
def extract_info(pdf_path):
with open(pdf_path,'rb') as f:
pdf = PdfFileReader(f)
information = DocumentInfo()
number_of_pages = NumPages()
txt = f"""
Information about {pdf_path}:
Author: {information.author}
python怎么读取py文件
Creator: {ator}
Producer: {information.producer}
Subject: {information.subject}
Title: {information.title}
Number of pages: {number_of_pages}
"""
print(txt)
return information
如果觉得内容还不错,分享给更多朋友,⼀起提升编程技能。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。