python读取pdf中的文本--688IT编程网

python读取pdf中的文本

python处理pdf也是常用的技术了，对于python3来说，pdfminer3k是一个非常好的工具。

pip install pdfminer3k

首先，为了满足大部分人的需求，我先给一个通用一点的脚本来读取pdf中的文本：

2.from io import StringIO

3.from io import open

4.verter import TextConverter

5.from pdfminer.layout import LAParams

6.from pdfminer.pdfinterp import PDFResourceManager, process_pdf

9.def read_pdf(pdf):

10.# resource manager

11.rsrcmgr = PDFResourceManager()writelines在python中的用法

12.retstr = StringIO()

13.laparams = LAParams()

14.# device

15.device = TextConverter(rsrcmgr, retstr, laparams=laparams)

16.process_pdf(rsrcmgr, device, pdf)

17.device.close()

18.content = value()

19.retstr.close()

20.# 获取所有行

21.lines = str(content).split('\n')

22.return lines

23.

24.

25.

26.if __name__ == '__main__':

27.with open('t1.pdf', 'rb') as my_pdf:

28.print(read_pdf(my_pdf))

我主要是想在pdf中抽出自己想要的一些关键信息，所以需要到这些信息的共同点。幸运的是，这些关键信息的行都含有'//'，所以我只需到含有'//'的行就行了，于是写了以下脚本。

这样就可以直接使用了，我们先看脚本：

2.from io import StringIO

3.from io import open

4.verter import TextConverter

5.from pdfminer.layout import LAParams

6.from pdfminer.pdfinterp import PDFResourceManager, process_pdf

9.def read_pdf(pdf):

10.# resource manager

11.rsrcmgr = PDFResourceManager()

12.retstr = StringIO()

13.laparams = LAParams()

14.# device

15.device = TextConverter(rsrcmgr, retstr, laparams=laparams)

16.process_pdf(rsrcmgr, device, pdf)

17.device.close()

18.content = value()

19.retstr.close()

20.# 获取所有行

21.lines = str(content).split('\n')

22.

23.units = [1, 2, 3, 5, 7, 8, 9, 11, 12, 13]

24.header = ' 0cUNIT '

25.# print(lines[0:100])

26.count = 0

27.flag = False

28.text = open('', 'w+')

29.for line in lines:

30.if line.startswith(header):

31.flag = False

32.count += 1

33.if count in units:

34.flag = True

35.print(line)

36.text.writelines(line + '\n')

37.if '//' in line and flag:

38.text_line = line.split('//')[0].split('. ')[-1]

39.print(text_line)

40.text.writelines(text_line+'\n')

41.text.close()

42.

43.

44.def _main():

45.my_pdf = open('t1.pdf', 'rb')

46.read_pdf(my_pdf)

47.my_pdf.close()

48.

49.

50.if __name__ == '__main__':

51._main()

其实看到lines = str(content).split('\n')那一行就够了，我们可以把lines都print出来，就可以看到pdf里面的内容。

这样我们就可以把pdf文件处理看作简单的字符串数据处理了。接下来的脚本操作也不用过多解释了。

688IT编程网

python读取pdf中的文本

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python读取pdf中的文本

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式