python图像识别依赖包安装和环境配置
写这篇⽂章,⽬的是最近在做量化交易,有⼀个需求是访问⽐特币链上交易数据,监控⼤额资⾦转账,但账户只有⼀串地址码,⽆法识别是哪个交易所的,最后在⾦⾊财经到了⼀些资料图⽚,想要将图⽚转为字符串码,于是有了下⽂。
⼀、安装pytesseract和PIL
PIL全称:Python Imaging Library,python图像处理库,这个库⽀持多种⽂件格式,并提供了强⼤的图像处理和图形处理能⼒。
由于PIL仅⽀持到Python 2.7,所以在PIL的基础上创建了Pillow库,⽀持最新Python 3.x。
1、pip命令安装
pip install pytesseract
pip install Pillow
2、使⽤pycharm编辑器安装,如下操作步骤。
安装pytesseract时,同时安装pillow,所以我们只需安装pytesseract即可。
3.尝试运⾏,
源码如下:
按 Ctrl+C 复制代码
按 Ctrl+C 复制代码
出现报错,如下图,
原因:没有安装识别引擎tesseract-ocr
⼆、安装识别引擎tesseract-ocr
1.Tesseract是开源的OCR引擎。Tesseract最初设计⽤于英⽂识别,经过改进引擎和训练系统,它能够处理其它语⾔和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符,但并⾮在所有语⾔上都⼯作得很好。Tesseract在庞⼤字符集语⾔(⽐如中⽂)上较慢,但是⼯作良好。
下载链接: pan.baidu/s/1J0HNoVhX8WexS_5r0k2jDw 密码: ywc3
因为tesseract-ocr默认不⽀持中⽂识别。
将下载到的⽂件:aineddata 放到Tesseract-OCR安装⽬录 D:\Program Files (x86)\Tesseract-OCR\tessdata 下,如图:
2,安装完成tesseract-ocr后,需要做⼀下配置 。
在Python安装⽬录(如:D:\Python35\Lib\site-packages\pytesseract) 中修改 pytesseract.py⽂件。
也可以通过pycharm,Ctrl+B 快速打开pytesseract源码⽂件:
3.尝试运⾏,出现如下报错:
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-
OCR\\aineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')
4.解决⽅法:将tessdata⽬录的上级⽬录所在路径:(默认为tesseract-ocr安装⽬录)添加⾄TESSDATA_PREFIX环境变量中,如下图:
注意:配置完环境变量需要重新打开pycharm编辑器(IDE)。RUN----Edit Configgurations------
>python默认安装路径
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论