使用jTessBoxEditorFX训练Tesseract-OCR教程
步骤一:使用画图软件生成要训练的.tif文件,本例做了34个.tif文件,如下:
步骤二:使用jTessBoxEditorFX将所有.tif文件合并成一个.tif文件,如图:
并在该目录下可以看见合并后你所命名的tif文件。如图:
步骤三:打开cmd窗口,将目录切换到安装的tesseract目录下,输入以下命令,生成box文件,如图:
tesseract p0.tif p0 -psm 7 -l chi_hop makebox
动画效果和动画类型的区别>淘宝客网站源码带后台注:l是L的小写。properties文件用什么打开
并在该目录下会生成p0.box文件,如图:
步骤四:使用jTessBoxEditorFX工具选择Box Editor-Open,打开tif文件(此时同名的tif、box文件必须同处一个目录下,我都给他放在tesseract安装目录下了),如下图:
查看所有文件并校正错误的文件,如图:
双击红箭头处,将其修改为台,并单击character 后的后,单击save。校正完毕后,在该目录下新建一个TXT文件将其文件名改为font_properties,并将其文件扩展名.txt删去。如图所示:
打开font_properties文件,并在其中输入[fontname] 0 0 0 0 0,如下图所示。restful api架构
英语翻译器在线翻译注:[fontname]:即是p0中的SFJC
步骤五:使用修正后的box文件来训练,在cmd中运行一下语句:
tesseract p0.tif p0 -psm 7 ain
后会在该目录下生成一个p0.tr文件。如图:
think python步骤六:提取字符,运行如下命令:
unicharset_extractor p0.box
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论