Python图⽚⽂字识别的实现之PaddleOCR
⽬录
项⽬使⽤
项⽬结构
环境部署
1、安装Anaconda,构造虚拟环境
2、依赖包下载
测试代码
参数补充
总结
前⾔
什么是OCR?
光学字符识别(Optical Character Recognition, OCR),是指对⽂本资料的图像⽂件进⾏分析识别处理,获取⽂字及版⾯信息的过程。简⽽⾔之,检测图像中的⽂本资料,并且识别出⽂本的内容。
那么有哪些应⽤场景呢?
其实我们⽇常⽣活中处处都有ocr的影⼦,⽐如在疫情期间⾝份证识别录⼊信息、车辆车牌号识别、⾃动驾驶等。我们的⽣活中,机器学习已经越来越多的扮演着重要⾓⾊,也不再是神秘的东西。
OCR的技术路线是什么呢?
ocr的运⾏⽅式如下图,输⼊->图像预处理->⽂字检测->⽂本识别->输出。
本⽂主要是介绍⼀个博主使⽤的⽐较好的OCR开源项⽬,在这⾥分享给⼤家——PaddleOCR。
项⽬Github地址:
我会按照刚接触的状态,梳理⼀下验证使⽤该项⽬的过程。
项⽬使⽤
先把项⽬从github上clone下来,慢慢分析。
项⽬结构
⾸先我们看⼀下项⽬的构造。
发现项⽬有中⽂的介绍说明,这就很⽅便了,点开按照官⽅的说明开始操作。
环境部署
点开README.md,,可以从⽂档教程中看到第⼀步就是教你如何安装环境。
由于内容过多,我就做个概括,⽅便⼤家直接上⼿。
1、安装Anaconda,构造虚拟环境
这⾥可以参考我的另⼀篇⽂章,⾥⾯很详细:
python官方文档中文版官⽅给的是python3.8的虚拟环境,我们也构造⼀个,打开Anaconda Prompt。
输⼊命令:
conda create -n paddle_env python=3.8
激活环境:
conda activate paddle_env
2、依赖包下载
paddlepaddle安装
pip install paddlepaddle -i mirror.baidu/pypi/simple
layoutparser安装
pip3 install -U paddleocr.bj.bcebos/whl/layoutparser-0.0.0-py3-none-any.whl
Shapely安装,这个需要下载,下载地址:
我选的是这个
安装命令:
pip install Shapely-1.8.0-cp38-cp38-win_amd64.whl
paddleocr安装
pip install paddleocr -i mirror.baidu/pypi/simple
好的,环境有点多,都安装好了就开始上⼿使⽤吧。
测试代码
官⽅给出了两种模式,⼀是命令⾏执⾏,⼀是代码执⾏。为了直观的看到配置,我这⾥使⽤的是代码模式。准备⼀张带⽂字的图⽚
测试代码如下
#!/user/bin/env python
# coding=utf-8
"""
@project : ocr_paddle
@author : huyi
@file : test.py
@ide : PyCharm
@time : 2021-11-15 14:56:20
"""
from paddleocr import PaddleOCR, draw_ocr
# Paddleocr⽬前⽀持的多语⾔语种可以通过修改lang参数进⾏切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, use_gpu=False,
lang="ch") # need to run only once to download and load model into memory
img_path = './data/2.jpg'
result = (img_path, cls=True)
for line in result:
# print(line[-1][0], line[-1][1])
print(line)
# 显⽰结果
from PIL import Image
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='./f')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')
代码说明
1、因为我的电脑没有显卡,所以设置了use_gpu=False。
2、显⽰结果部分会将识别的⽂字⽤框标出来,并且展⽰识别的结果。
验证⼀下
我们看到,打印的内容有识别出来的每句话所在的图⽚位置,以及识别结果和可信度。⽽上⾯的结果图中,将每句话对应的⽂字都框了出来。效果很不错!参数补充
官⽅还给出了⼀些参数,可以调整输出的内容。可以参看quickstart.md⽂件。参数补充:
- 单独使⽤检测:设置`--rec`为`false`
- 单独使⽤识别:设置`--det`为`false`
官⽅还提供⼀个标准的json结构输出数据
PP-Structure的返回结果为⼀个dict组成的list,⽰例如下
```shell
[{ 'type': 'Text',
'bbox': [34, 432, 345, 462],
'res': ([[36.0, 437.0, 341.0, 437.0, 341.0, 446.0, 36.0, 447.0], [41.0, 454.0, 125.0, 453.0, 125.0, 459.0, 41.0, 460.0]],
[('Tigure-6. The performance of CNN and IPT models using difforen', 0.90060663), ('Tent ', 0.465441)])
}
]
```
总结
总的来说,这个项⽬还是很有意思的,训练的部分我就不多赘述了,毕竟准备数据挺⿇烦的。回头我再想想这个项⽬可不可以魔改成好⽤的⼯具。
分享:
我们根本不需要最后的落脚点,只要不断前进就好了,只要不停下,道路就会不断延伸。——《进击的巨⼈》
如果本⽂对你有帮助的话,请不要吝啬你的赞,谢谢!
到此这篇关于Python 图⽚⽂字识别的实现之PaddleOCR的⽂章就介绍到这了,更多相关Python ⽂字
识别内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论