python-使⽤JtessBoxEditor训练tesseract字库
使⽤JtessBoxEditor训练tesseract字库,加上调⽤总共分12步
⼀、将图⽚格式转换为tif格式
tif⽂件命名的格式为[语⾔].[字体].exp[数字].tif
其中语⾔和字体、数字均为⾃⼰设置,可随意,但格式必须是以上格式。后⾯调⽤会需要⽤到字体名称
假设语⾔为liang,字体为mx
1、打开JtessBoxEditor
2、点击Tools
3、点击Merge TIFF,然后在⽂件类型选择bmp(可⼀次性选择多个bmp,最终会合并成⼀个tif)
4、点击打开图⽚后,然后保存为p0.tif
⼆、在cmd命令⾏输⼊命令,⽣成box⽂件
1、先cd进⼊到tesseract的⽬录下,输⼊:
< p0.p0 -l chi_hop makebox
其中第1个p0.tif为合并的tif⽂件(这⾥也可以直接使⽤bmp⽂件,但只能识别⼀个),第2个p0为⽣成box⽂件的⽂件名,第三个-l(L)指language,使⽤指定的语⾔库打开,chi_sim就是中⽂库,其他的是命令
当前⽂件下显⽰ p0.box(新增),p0.tif
三、校正图⽚
1、打开JtessBoxEditor
2、点击Box Editor
3、点击open接口与抽象类的用法区别
4、打开合并的tif图(⼯具会⾃动加载对应的box⽂件,所以tif和box⽂件必须在同⼀⽂件夹下)
5、在左边修改识别⽂字(尽可能⼀个框⼀个字),在右上⾓的地⽅可以修改框的⼤⼩和位置
Insert:新增框。Delete:删除框。Merge:合并框。Split:拆分框。
asp格式说明6、如果是多个bmp合并的tif,在下⽅有翻页,翻页处理其他错别字
properties文件用什么打开7、校正完⼀定要点击save保存
jboss drools四、⽣成字体特征⽂件font_properties
1、打开记事本在⾥⾯输⼊以下内容:
mx 0 0 0 0 0
2、保存后,重命名把名称⾥的后缀删掉,即把“.txt”删掉,⽂件名称必须是font_properties。其中mx指⾃⼰命名的字体名。0的属性是指字体的属性,⽐如字体为斜体、粗体等,0代表没有额外属性
当前⽂件夹下显⽰:font_properties(新增),p0.box,p0.tif
五、在cmd命令⾏输⼊命令,⽣成训练⽂件
1、先cd进⼊到tesseract的⽬录下,输⼊:
p0.p0 ain
其中第⼀个p0.tif为上述保存的tif⽂件,第⼆个p0为⽣成tr⽂件的⽂件名(⽂件名尽可能保持⼀致)
其他的是命令
当前⽂件夹下显⽰:(新增),font_properties,p0.box,p0.tif
六、在cmd命令⾏输⼊命令,⽣成字符集⽂件
1、先cd进⼊到tesseract的⽬录下,输⼊:
unicharset_p0.box
执⾏完会⽣成unicharset
注意:unicharset必须和box⽂件同步更新,即后⾯⽣成新⽂件时,unicharset也必须重新⽣成
当前⽂件夹下显⽰:unicharset(新增),,font_properties,p0.box,p0.tif
七、在cmd命令⾏输⼊命令,⽣成shape⽂件
1、先cd进⼊到tesseract的⽬录下,输⼊:
shapeclustering -F font_properties -U unicharset -O unicharset
第1个-F font_properties指上述的font_properties⽂件,第2个-U unicharset 指上述的unicharset⽂件,第3个-O unicharset指新⽣成的unicharset名称(注意,-O会新⽣成unicharset⽂件,-O后⾯接新⽣成⽂件的⽂件名,此处输⼊的是unicharset和原来⽂件名⼀致,故会覆盖原来的unicharset⽂件),第4个p0.tr为第五步⽣成的tr⽂件
当前⽂件夹下显⽰:shapetable(新增),unicharset(新增且覆盖原来的),
,font_properties,p0.box,p0.tif
⼋、在cmd命令⾏输⼊命令,⽣成聚集字符特征⽂件
1、先cd进⼊到tesseract的⽬录下,输⼊:
mftraining -F font_properties -U unicharset -O unicharset
执⾏完命令会⽣成unicharset(命名⼀样覆盖之前的unicharset⽂件)、inttemp、pffmtable、shapetable(覆盖之前的shapetable)第1个-F font_properties指上述的font_properties⽂件,第2个-U unicharset 指上述的unicharset⽂件,第3个-O unicharset指新⽣成的unicharset,第4个p0.tr为第五步⽣成的tr⽂件
当前⽂件夹下:inttemp(新增),pffmtable(新增),shapetable(新增且覆盖原来的),unicharset(新增且覆盖原来
的),,font_properties,p0.box,p0.tif
三菱plc指令图文详解九、在cmd命令⾏输⼊命令,⽣成字符正常化特征⽂件
1、先cd进⼊到tesseract的⽬录下,输⼊:
cntrainingeclipse程序怎么运行
执⾏完⽣成normproto⽂件
当前⽂件夹下显⽰:normproto(新增),
inttemp,pffmtable,shapetable,unicharset,,font_properties,p0.box,p0.tif
⼗、将⽂件改名,在cmd命令⾏输⼊命令,合并训练⽂件
1、将normproto、inttemp、pffmtable、shapetable、unicharset加字体名
我个⼈设置的是mx故将上述五个⽂件改名为mx.normproto、mx.inttemp、mx.pffmtable、mx.shapetable、mx.unicharset
2、先cd进⼊到tesseract的⽬录下,输⼊:
combine_tessdata mx.
注意命令⾏带【.】
执⾏完⽣成⽂件mx.traineddata
⼗⼀、将mx.traineddata放在tesseract安装⽬录的tessdata⽬录下
⼗⼆、python使⽤pytesseract调⽤tesseract识别功能
#打开图⽚(使⽤PIL库的Image)
image1=Image.open(r"D:\aaa.bmp")
#使⽤pytesseract.image_to_string识别图⽚,参数⾥的“mx”为上述训练⽂件mx.traineddata的前缀
word=pytesseract.image_to_string(im,lang=“mx”)
print(word)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论