pythonocr⾼精度识别_OCR识别-python版(⼀)
需求:识别图⽚中的⽂字信息
环境:windows系统
开发语⾔:python
使⽤⼯具类:1.pyocr
2.PIL
步骤:
1.pyocr
⽹络通直接使⽤命令:
pip install pyocr
linux显示隐藏文件夹
2.安装pil
⽹络通直接使⽤命令:
pip install PIL
3.安装tesseract-ocrgms安装器
exe⽂件,下载后直接安装,建议默认安装过程中的选项,安装⽬录默认C:\Program Files (x86)\Tesseract-OCR,(尝试安装D盘后,在cmd中调⽤可以,但是在python中会出现不到tesseract的配置⽬录的问题,后续再研究)
代码:
# coding=utf-8
__author__ = 'syq'
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import os
try:
from pyocr import pyocr
from PIL import Image
except ImportError:
print '模块导⼊错误,请使⽤pip安装,pytesseract依赖以下库:'
print 'www.lfd.uci.edu/~gohlke/pythonlibs/#pil'
print 'le/p/tesseract-ocr/'
raise SystemExit
tools = _available_tools()[:]
if len(tools) == 0:
print("No OCR tool found")
print("Using '%s'" % (tools[0].get_name()))
print tools[0].image_to_string(Image.open('D:\\123.png'),lang='eng')
print tools[0].image_to_string(Image.open('D:\\3434.png'),lang='chi_sim')
#print tools[0].image_to_string(Image.open('D:\\3535.png'),lang='chi_sim')
⽂件内容:
123.png
3434.png
输出:
Using 'Tesseract (sh)'
7364
求彰只另UoCR第 1代
可以看到,在使⽤英⽂字库(eng)情况下,对数字识别挺准确的,但是在使⽤中⽂简体字库(chi_sim)情况下,对中⽂⽂字识别结果有点不尽⼈意。
在整个过程中可能会遇到的问题
1.如果控制台直接输出:“No OCR tool found”,说明未成功安装tesseract-ocr,debug查看get_available_tools,在该⽅法中回去查看本机已经安装有的ocr识别库,有三种,
24小时人工libtesseract,
tesseract,
cuneiform,
本⽂使⽤的是第⼆种tesseract,
鼠标点击特效tesseract具体安装请转⾄。
2.在识别带中⽂的图⽚,会遇到报“allow_blob_division”的错误,
基于百度云的OCR识别(Python)
基于Python实现对PDF⽂件的OCR识别
Python&;selenium&;tesseract⾃动化测试随机码、验证码(Captcha)的OCR识别解决⽅案参考
在⾃动化测试或者安全渗透测试中,Captcha验证码的问题经常困扰我们,还好现在OCR和AI逐渐发展起来,在这块解决上越来越⽀撑到位. 我推荐的⼏种⽅式,⼀种是对于简单的验证码,⽤开源的⼀些OCR图⽚ ...
OCR识别-python3.5版
critical review范文刚接触,啥⼦都不会,按着教程⾛ 需求:识别图⽚中的⽂字信息环境:windows系统 开发语⾔:python3.5 使⽤⼯具类:1.pyocr 2.PIL
【转】Python OCR识别图⽚验证码
转载⾃:博客 对于某些⽹站登录的时候,往往需要输⼊验证码才能实现登录.如果要爬⾍这类⽹站,往往总会⽐这个验证码导致⽆法爬取数据.以下介绍⼀种⽐较折中的⽅法,也是⽐较可⾏的⽅法: 实现思想: 1.通过截 ...
使⽤Python基于VGG/CTPN/CRNN的⾃然场景⽂字⽅向检测/区域检测/不定长OCR识别
AI时代的OCR识别技术浅析
⼈⼯智能这个词可谓是⽿熟能详,近⼏年⼈⼯智能热潮再次席卷⽽来,引起轰动的要数google的AlphaGo,相继打败了围棋界的韩国选⼿李世⽯以及世界冠军柯洁,见证了⼈⼯智能发展的⾥程碑式的变⾰,⼈⼯智能 ...
基于Tesseract的OCR识别⼩程序
⼀.背景 先说下开发背景,今年有次搬家房⼦(2020了应该叫去年了),发现每天都要对着各种租房⼴告打很多电话.(当然⽹上也了实地也),每次基本都是对着墙⾯看电话号码然后拨打,次数⼀多就感觉⾮常⿇ ...
数据结构:顺序表(python版)
顺序表python版的实现(部分功能未实现) #!/usr/bin/env python # -*- coding:utf-8 -*- class SeqList(object): def __ini ...
随机推荐
运维⾃动化轻量级⼯具pssh
1pssh介绍 pssh是python写的可以并发在多台机器上批量执⾏命令的⼯具,它的⽤法可以媲美ansible的⼀些简单⽤法,执⾏起来速度⽐ansible快它⽀持⽂件并⾏复制,远程命令执⾏,杀掉远程 ...
codeforces 742E (⼆分图着⾊)
E. Arpa's overnight party and Mehrdad's silent entering Note that girls in Arpa's land are really at ...
python基础教程电子书百度云poj 1950 Dessert(dfs枚举,模拟运算过程)
/* 这个代码运⾏的时间长主要是因为每次枚举之后都要重新计算⼀下和的值! 如果要快的话,应该在dfs,也就是枚举的过程中计算出前边的数值(这种⽅法见第⼆个代码),直到最后,这样不必每⼀次枚举都要从头再 ...
UIButton之Block回调
本⽂主要介绍了两种改写UIButton的点击事件⽅法——继承UIButton跟给UIButton添加⼀个分类.附代码 ⽅法⼀:继承UIButton UIButtonBlock.h⽂件 如下 #impo ...
C#获取ftp⽂件最后修改时间
public static DateTime GetFileModifyDateTime(string ftpServerIP,string ftpFolder,string ftpUserID,st ...
MongoDB C++ 2.4.5 driver 编译安装问题
【原创】讲讲亿级PV的负载均衡架构
引⾔ 本来没想写这个题材的,为了某某童鞋能够更好的茁壮成长,临时写⼀篇负载均衡的.负载均衡,⼤家可能听过什么3层负载均衡.4层负载均衡.7层负载均衡什么的?那这是怎么分的呢,ok,是根据osi七层⽹络 ...
浏览器页⾯请求js、css⼤⽂件处理
当页⾯引⽤⼀个⽐较⼤的js和css⽂件时,会出现较⼤下载延迟,占⽤带宽的问题,如果⼀个应⽤⾥有很多这样的js或CSS⽂件,那么就需要优化了. ⽐如ext-all.js有1.4M,页⾯引⽤这个⽂件,正常 ...
Python 名称空间和作⽤域
a = 10 # lst = [1,2,3,4] # # # 内置函数 print("你好啊,我叫赛利亚") # def chi(): a = 10
b = 20 # # # # ...
数据库视图View的使⽤
⼀.视图的概念: 概念: 视图是指计算机数据库中的视图,是⼀个虚拟表,其内容由查询定义.同真实的表⼀样,视图包含⼀系列带有名称的列和⾏数据.但是,视图并不在数据库中以存储的数据值集形式存在.⾏和列数据 ...
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论