第25卷 第1期2008年3月河 北 省 科 学 院 学 报
Journa l o f the H ebe i A cade m y o f Sc i ences
V o.l25N o.1
M a r.2008
文章编号:1001-9383(2008)01-0032-03
基于轮廓线搜索策略的搭接英文字符切分方法
安艳辉1,董五洲2,张广慧3
(1.河北省信息产业厅,河北石家庄050071;2.河北省教育考试院,河北石家庄050091
3.廊坊职业技术学院,河北廊坊065000)
摘要:字符切分是影响OCR系统识别的关键因素之一。对于英文搭接字符图像,笔者提出了一种基于轮廓线搜索策略的搭接英文字符切分方法。该方法结构简单,容易实现,实验结果表明该方法切分效果好。
关键词:OCR;字符切分;搭接字符;字符识别
中图分类号:T P391.43文献标识码:A
A m ethod on the congluti nati on character seg m entation of
the contour li ne search
AN Yan hui1,DONG W u zhou2,ZHANG Guang hui3
(1.H ebei Infor m a ti on Indu st ry Bu reau,S hiji azhuang H e bei050071,C hina;
2.H e bei Educaion Exam ina tion Acad e my,Sh iji azhuang H ebei050091,Ch ina;
3.Langfang P ol ytec hn ic Instit u te,Langfang H ebe i065000,Ch i na)
Abst ract:The characters seg m entation is one o f the key factors w hich affect character recogn iti o n i n OCR sys te m.A m ethod on t h e cong l u ti n ation character seg m entati o n of the contour line search is presented.The results of the experi m ents show that the m ethod s str ucture is very si m p le and easy to realization,and the seg m entation effect is satisfy i n g.
K eywords:OC R;Character seg m entation;Character recognition;Cong l u tinati o n character
目前,大多数字符识别是基于对单个字符的逐个识别,字符识别率的高低与字符切分的正确与否密切相关,它直接影响到识别的正确率。
当前字符切分技术主要有以下几种方法[1-10]:
(1)基于图像分析的切分。通过图像分析寻字符之间较为合理的切分点,主要采用静态的投影分析方法。
(2)基于识别的切分。在实际的切分前借助于识别能力对各种存在的切分进行合理的选择。
(3)综合了前面两种技术的切分。通过图像分析产生较少的垂直切分的假设,并通过识别对假设进行筛选。
(4)整体识别。以整个词为待识客体,根据词的整体特征来识别,从而避免切分对字符的损伤。
由于搭接英文字符切分有一定难度,以上传统的切分方法很难到正确的切分点,不能完成此类字符的切分。为了保证正确的字符切分结果,针对搭接英文字符的存在,笔者提出了采用基于轮廓线搜索策略的字符切分方法解决该类字符的正确切分。
*收稿日期:2007-12-07
基金项目:河北省自然科学基金资助项目(2004000132)
作者简介:安艳辉(1972-),河北乐亭县人,硕士,工程师,主要从事数据挖掘、中文信息处理等方向研究.
第1期安艳辉等:基于轮廓线搜索策略的搭接英文字符切分方法
1 判断搭接字符类型
由于二值化过程后带来的噪声和误差以及样本质量问题,在印刷体文档图像中很容易造成搭接字符的存在。
1.1 搭接字符切分算法
本文采用基于轮廓线搜索策略的搭接英文字
符切分方法切分搭接字符,主要包括两个步骤:第一步搜索可能切分的位置,也就是判断出在字符行(列)中哪个部分是搭接字符,把粘连搭接字符从字符行中提取出来;第二步切分和辨认,利用轮廓线搜索方法出可靠度最大的切分点,从而正确切分英文搭接字符。算法流程如图1。
图1算法流程图
1.2 判断英文搭接字符
文本块初步切分后,对每一段字符图像的宽度和识别结果进行如下的判断:
(1)设每一段字符图像的宽度为w idt h ,字符行一个独立字符的平均宽度为V w i d th ,当w idth 比V w idt h 大许多时,通过实验测试,合理的选取一定的阈值,则可以判定该字符段为搭接字符段。
(2)在字符初步切分后,字符识别结果不正确,又存在可能切分的位置,可以判定那些识别结果不正确的字符段认为是英文搭接字符段。
2 粘连搭接英文数字的切分策略
对于搭接英文字符串,使用轮廓线搜索算法
[11]
,切分那些中间有缝隙但用投影的方法切分
不开的字符搭接情况,调用识别模块,根据识别结
果确定最佳的切分位置。
轮廓线搜索算法过程如下:
步骤1:记录粘连搭接字符串的左上角坐标逗号分割字符串转数组
值(L i ,T i )和右下角坐标值(R i ,B i ),根据实验选取一合适阈值T,以行扫描方式出一个具有灰度值1的点P 作为轮廓线的初始点。
步骤2:从已到的点出发,继续执行这一寻过程。若该点灰度值1,则往左拐弯继续寻;若该点灰度值0,则往右拐弯继续寻;每到一个灰度值1的点即为轮廓点。
步骤3:重复步骤2,直至最后出的轮廓线点与初始点重合。
步骤4:根据轮廓线确定搜索字符的右边界R boundary1,若与粘连搭接字符串的右边界一致,则没有搭接字符出现;若与粘连搭接字符串的右边界不一致,则有搭接字符出现。
对于判断出的搭接字符情况,根据实验选取一合适阈值T1,向左或向右移动T1值的大小,作为切分位置,保存切分结果。  搭接英文的图像如图2
图2粘连搭接英文数字的图像
搭接英文的切分结果如图3
图3粘连搭接英文数字的切分结果
33
河北省科学院学报2008年第25卷
3 实验结果及分析
笔者以求是!等杂志,人民日报!光明日报!等报纸及小说类的书籍作为样张,各扫描100页,利用传统的字符切分方法,其字符初步切分统计结果见表1;采用本文所提出的切分方法,其搭接字符正确切分后的统计结果见表2。
表1搭接字符初步切分结果
书刊类别杂志书籍报纸英文正确切分率(%)92.892.692.2
搭接英文比例(%)7.07.17.6
整体识别率(%)93.493.292.4
表2搭接字符正确切分后的统计结果
书刊类别杂志书籍报纸英文正确切分率(%)99.399.598.9总体识别率(%)98.998.898.7
由以上实验结果可以看出,笔者所提出的基于轮廓线搜索策略的搭接英文字符切分方法,更进一步提高了搭接英文字符的正确切分率。实验结果表明该方法切分效果好。
4 总结
对于搭接英文字符图像,本文提出了一种基于轮廓线搜索策略的搭接英文字符切分方法。在该方法中,最佳阈值的选取需要大量的实践来获得,因此其可靠性以及鲁棒性仍需在更多的具体实践中得到验证和提高。结合识别后处理过程和利用字符的上下文关系,进行描述与分析,也是今后进一步研究的工作。
参考文献:
[1] R ichard G.C ase,E ri c Lecoli n et.A Survey of M ethods and
S trategi es i n Character Seg m en tati on[J].I EEE Transactions
on Patt ern Ana l ysis and M ach i ne Intelligen ce,1996,18(7):
690-706.
[2] YI LU.M ach i ne P ri nted Characters Segm entation-An Over
vi e w[J].I EEE Transactions Patt ern Recogn iti on,1995,28
(1):67-80.
[3] Y I L U,M.Sh ri dhar.C haracters Seg m entation i n H andw ritten
W ords-An Overvi e w[J].I EEE Transaction Patt ern R ecogn i
ti on,1996,29(1):77-96.
[4] 马少平,夏莹,朱小燕,等.汉字系统的误识模型[J].清华
大学学报,1999(38):108-111.
[5] 吕岳,施鹏飞,张克华.基于组件合并的手写体汉字分割
[J].软件学报,2000,11(11):1554-1506.
[6] 陈臻刚,丁晓青,刘长松,等.文档识别中误切分字符拒识问
题的研究[J].计算机工程与应用,2002(17):69-72.
[7] 徐蔚然,于武贵,郭军.基于统计方法的混排文字切分与分
类[C].见:第七届全国汉字识别会议论文集,绍兴,2002:
123-128.
[8] O D T ri er,A K Jai n,T Taxt.Feature Extracti on M ethord s for
Ch aract er Recogn i ti on-A Su rvey[J].I EEE T ransacti on s Pat
tern Recogn iti on,1996,29(4):641-662.
[9] 李佐,王姝华,蔡士杰.一种基于前端预测识别的粘连字符分割
方法[J].计算机研究与发展,2001,38(11):1338-1345. [10] Y.Lu.On the Seg m en tati on ofTouch i ng Characters[C].In
1n t∀s Con f on Docu m en t Anal ys i s and Recogn i ti on,I EEE
Press,T s ukuba,J ap an,1993:440-443.
[11] 沈清,汤霖.模式识别导论[M].长沙:国防科技大学出版
社,1991.
34

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。