使⽤jTessBoxEditorFX制作⾃⼰的字库
⼀、制作⾃⼰的字库c语言gets和getchar
1、下载
注意jTessBoxEditor有两个版本,带FX的版本才⽀持中⽂字符编辑,我们下载带FX版本的。在这个⽹址上列出了所有的jTessBoxEditorFX版本。
选择了jTessBoxEditorFX-2.2.0安装
我们将图⽚放到jTessBoxEditorFX⽬录下新建的train_image⽂件夹下。
点击jTessBoxEditorFX.jar⽂件
2、⽣成tif⽂件
选择 Tools -> Merge TIFF,打开对话框,选择训练样本所在⽂件夹,并选中所有要参与训练的样本图⽚,注意对话框中“⽂件类型”的选取,选择所有的图⽚⽂件
选择好了后,点击打开按钮,出现⽂件保存对话框,输⼊⽂件名:first_pic.tif
3、使⽤tesseract⽣成.box⽂件
打开命令提⽰符,进⼊步骤2⽣成的first_pic.tif⽂件所在⽬录z型檩条开口朝向
tesseract first_pic.tif first_pic -l chi_hop makebox
-l chi_sim参数是使⽤已经有的中⽂训练字库
这个字库是在tessdata⽬录⾥,可以⾃⼰拷贝进去tableclothes怎么读
执⾏完成后,会在当前⽬录下⽣成.box⽂件。
4、使⽤jTessBoxEditor调整.box训练⽂件
.box⽂件中记录了每个字符在图⽚上的位置以及识别出的内容,训练之前需要使⽤jTessBoxEditor调整字符的位置和内容。打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开⽣成的 .tif⽂件 ,会⾃动关联到.box ⽂件:
程序员名片模板5、⽣成tr⽂件
tesseract 1.tif 1 ain
⽣成⼀个unicharset⽂件
unicharset_extractor 1.box
问题1:
解决:
问题⼆:
$ brew install --with-training-tools tesseract
Error: invalid option:--with-training-tools
发现已经没有了–with-training-tools
查阅⽹上资料,发现需要编译安装…
解决:
properties文件用什么打开6、新建⼀个font_properties⽂件
⾥⾯内容写⼊ normal 0 0 0 0 0 表⽰默认普通字体
依次执⾏:
shapeclustering -F -U mftraining -F -U unicharset -O
高级架构师证书
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论