基于Python实现对PDF文件的OCR识别--688IT编程网

基于Python实现对PDF⽂件的OCR识别

⼤家可能听说过使⽤Python进⾏OCR识别操作。在Python中，最出名的库便是Google所资助的tesseract。利⽤tesseract可以很轻松地对图像进⾏识别。现在问题来了，如果想对⼀个PDF⽂档进⾏OCR识别，该怎么做呢？下⾯⼀起来看看。

最近在做⼀个项⽬的时候，需要将PDF⽂件作为输⼊，从中输出⽂本，然后将⽂本存⼊数据库中。为此，我寻了很久的解决⽅案，最终才确定使⽤tesseract。所以不要浪费时间了，我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract⾮常容易。为了简便，我们以Ubuntu为例。

在Ubuntu中你仅仅需要运⾏以下命令:

这将会安装⽀持3种不同语⾔的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接⼝。幸运的是，有许多出⾊的Python接⼝。

我们采⽤最新的⼀个：

3.安装Wand和PIL

在我们开始之前，还需要另外安装两个依赖包。⼀个是Wand。它是Imagemagick的Python接⼝。

ubuntu怎么安装python我们需要使⽤它来将PDF⽂件转换成图像：

我们也需要PIL因为PyOCR需要使⽤它。你可以查看官⽅⽂档以确定如何将PIL安装到你的操作系统中。

4.热⾝

让我们开始我们的脚本吧。⾸先，我们需要导⼊⼀些重要的库：

注意：我将从PIL导⼊的Image模块改名为PI了，因为如果不这样做的话，它将和wand.image模块发⽣重名冲突。

5.开始

现在我们需要获得OCR库（在本例中，即tesseract）的句柄以及我们在PyOCR中将使⽤的语⾔：

我们使⽤_available_languages⾥的第⼆种语⾔，因为之前我曾尝试过，第⼆种语⾔就是英语。

接着，我们需要建⽴两个列表，⽤于存储我们的图像和最终的⽂本。

下⼀步，我们需要采⽤wand将⼀个PDF⽂件转成jpeg⽂件。让我们试⼀试吧！

注意：将PDF_FILE_NAME替换成当前路径下的⼀个可⽤的PDF⽂件名。

wand已经将PDF中所有的独⽴页⾯都转成了独⽴的⼆进制图像对象。我们可以遍历这个⼤对象，并把它们加⼊到req_image序列中去。现在，我们仅仅需要在图像对象上运⾏OCR即可，⾮常简单：

现在，所有识别出的⽂本已经加到了final_text序列中了。你可以任意地使⽤它。以上就是利⽤Python对PDF⽂件做OCR识别的全部内容，希望这个教程能够帮助到你们！

688IT编程网

基于Python实现对PDF文件的OCR识别

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

基于Python实现对PDF文件的OCR识别

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式