python-使用JtessBoxEditor训练tesseract字库--688IT编程网

python-使⽤JtessBoxEditor训练tesseract字库

使⽤JtessBoxEditor训练tesseract字库，加上调⽤总共分12步

⼀、将图⽚格式转换为tif格式

tif⽂件命名的格式为[语⾔].[字体].exp[数字].tif

其中语⾔和字体、数字均为⾃⼰设置，可随意，但格式必须是以上格式。后⾯调⽤会需要⽤到字体名称

假设语⾔为liang，字体为mx

1、打开JtessBoxEditor

2、点击Tools

3、点击Merge TIFF，然后在⽂件类型选择bmp（可⼀次性选择多个bmp，最终会合并成⼀个tif）

4、点击打开图⽚后，然后保存为p0.tif

⼆、在cmd命令⾏输⼊命令，⽣成box⽂件

1、先cd进⼊到tesseract的⽬录下，输⼊：

< p0.p0 -l chi_hop makebox

其中第1个p0.tif为合并的tif⽂件（这⾥也可以直接使⽤bmp⽂件，但只能识别⼀个），第2个p0为⽣成box⽂件的⽂件名，第三个-l（L）指language，使⽤指定的语⾔库打开，chi_sim就是中⽂库，其他的是命令

当前⽂件下显⽰ p0.box（新增），p0.tif

三、校正图⽚

1、打开JtessBoxEditor

2、点击Box Editor

3、点击open接口与抽象类的用法区别

4、打开合并的tif图（⼯具会⾃动加载对应的box⽂件，所以tif和box⽂件必须在同⼀⽂件夹下）

5、在左边修改识别⽂字（尽可能⼀个框⼀个字），在右上⾓的地⽅可以修改框的⼤⼩和位置

Insert：新增框。Delete：删除框。Merge：合并框。Split：拆分框。

asp格式说明6、如果是多个bmp合并的tif，在下⽅有翻页，翻页处理其他错别字

properties文件用什么打开

7、校正完⼀定要点击save保存

jboss drools

四、⽣成字体特征⽂件font_properties

1、打开记事本在⾥⾯输⼊以下内容：

mx 0 0 0 0 0

2、保存后，重命名把名称⾥的后缀删掉，即把“.txt”删掉，⽂件名称必须是font_properties。其中mx指⾃⼰命名的字体名。0的属性是指字体的属性，⽐如字体为斜体、粗体等，0代表没有额外属性

当前⽂件夹下显⽰：font_properties(新增)，p0.box，p0.tif

五、在cmd命令⾏输⼊命令，⽣成训练⽂件

1、先cd进⼊到tesseract的⽬录下，输⼊：

p0.p0 ain

其中第⼀个p0.tif为上述保存的tif⽂件，第⼆个p0为⽣成tr⽂件的⽂件名（⽂件名尽可能保持⼀致）

其他的是命令

当前⽂件夹下显⽰：（新增），font_properties，p0.box，p0.tif

六、在cmd命令⾏输⼊命令，⽣成字符集⽂件

1、先cd进⼊到tesseract的⽬录下，输⼊：

unicharset_p0.box

执⾏完会⽣成unicharset

注意：unicharset必须和box⽂件同步更新，即后⾯⽣成新⽂件时，unicharset也必须重新⽣成

当前⽂件夹下显⽰：unicharset（新增），，font_properties，p0.box，p0.tif

七、在cmd命令⾏输⼊命令，⽣成shape⽂件

1、先cd进⼊到tesseract的⽬录下，输⼊：

shapeclustering -F font_properties -U unicharset -O unicharset

第1个-F font_properties指上述的font_properties⽂件，第2个-U unicharset 指上述的unicharset⽂件，第3个-O unicharset指新⽣成的unicharset名称（注意，-O会新⽣成unicharset⽂件，-O后⾯接新⽣成⽂件的⽂件名，此处输⼊的是unicharset和原来⽂件名⼀致，故会覆盖原来的unicharset⽂件），第4个p0.tr为第五步⽣成的tr⽂件

当前⽂件夹下显⽰：shapetable（新增），unicharset（新增且覆盖原来的），

，font_properties，p0.box，p0.tif

⼋、在cmd命令⾏输⼊命令，⽣成聚集字符特征⽂件

1、先cd进⼊到tesseract的⽬录下，输⼊：

mftraining -F font_properties -U unicharset -O unicharset

执⾏完命令会⽣成unicharset（命名⼀样覆盖之前的unicharset⽂件）、inttemp、pffmtable、shapetable（覆盖之前的shapetable）第1个-F font_properties指上述的font_properties⽂件，第2个-U unicharset 指上述的unicharset⽂件，第3个-O unicharset指新⽣成的unicharset，第4个p0.tr为第五步⽣成的tr⽂件

当前⽂件夹下：inttemp（新增），pffmtable（新增），shapetable（新增且覆盖原来的），unicharset（新增且覆盖原来

的），，font_properties，p0.box，p0.tif

三菱plc指令图文详解九、在cmd命令⾏输⼊命令，⽣成字符正常化特征⽂件

1、先cd进⼊到tesseract的⽬录下，输⼊：

cntrainingeclipse程序怎么运行

执⾏完⽣成normproto⽂件

当前⽂件夹下显⽰：normproto（新增），

inttemp，pffmtable，shapetable，unicharset，，font_properties，p0.box，p0.tif

⼗、将⽂件改名，在cmd命令⾏输⼊命令，合并训练⽂件

1、将normproto、inttemp、pffmtable、shapetable、unicharset加字体名

我个⼈设置的是mx故将上述五个⽂件改名为mx.normproto、mx.inttemp、mx.pffmtable、mx.shapetable、mx.unicharset

2、先cd进⼊到tesseract的⽬录下，输⼊：

combine_tessdata mx.

注意命令⾏带【.】

执⾏完⽣成⽂件mx.traineddata

⼗⼀、将mx.traineddata放在tesseract安装⽬录的tessdata⽬录下

⼗⼆、python使⽤pytesseract调⽤tesseract识别功能

#打开图⽚（使⽤PIL库的Image）

image1=Image.open(r"D:\aaa.bmp")

#使⽤pytesseract.image_to_string识别图⽚，参数⾥的“mx”为上述训练⽂件mx.traineddata的前缀

word=pytesseract.image_to_string(im,lang=“mx”)

print(word)

688IT编程网

python-使用JtessBoxEditor训练tesseract字库

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python-使用JtessBoxEditor训练tesseract字库

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式