脱机手写体汉字识别综述
摘 要: 脱机手写体汉字识别是模式识别领域最具挑战性的课题之一.本文分析了近年来脱机手写体汉字识别的最新进展,讨论了脱机手写体汉字分割、特征提取和分类器设计等关键技术的各种主流方法,介绍了3种典型的汉字识别数据库,并提出了脱机手写体汉字识别的难点问题和今后发展的趋势,为该领域的研究者指明研究方向,共同促进脱机手写体汉字识别技术的发展.
关键词: 脱机手写体汉字识别;字符分割;特征提取;分类器设计;
1 引言
汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题之一,它涉及模式识别、图像处理、统计理论等学科,呈现出综合性的特点,在办公和教学自动化、银行票据自动识别、邮政自动分拣、少数民族语言文字信息处理等技术领域,都有着重要的理论意义和实用价值[1].汉字识别技术可分为印刷体和手写体汉字识别两大类.手写体汉字识别又可分为联机(on2line)和脱机(off2line)手写体汉字识别.脱机手写体汉字识别可分为受限和非受限两种情况,如图1所示.
清华大学、中科院自动化所等著名高校和科研院所都致力于汉字识别的研究,以汉王科技股份有限公司为首的科技企业也推出了一系列成熟的商业产品[2].目前,很多论文提出的脱机手写体汉字识别的方法在不同的字符数据库试验中,取得了95%~99%的识别率,但是对真正的手写文档的识别效果却难以达到实际应用的要求.目前脱机手写体汉字识别仍处于实验室研究阶段,成功的商业产品仍未发布[2~4].本文着重讨论脱机手写体汉字识别的现状和存在的问题,明确今后的发展趋势,为脱机手写体汉字识别领域的广大研究人员提供参考和借鉴.
2 手写汉字字体特点
从识别的角度分析,汉字具有如下4个特点.
2.1 汉字类别多
汉字的个数很多,国家标准GB1803022000《信息交换用汉字编码字符集基本集的扩充》收录27484个汉字[5].汉字个数在模式识别问题中体现为汉字的类别,因此汉字识别问题属于超大规模数据集的模式识别问题.
2.2 字体结构复杂
汉字基本笔画(stroke)分为:横、竖、撇、点、折[6].笔画的组合方式分为相离、相接和相交三种.特征结构笔画和相应笔画的组合方式在以笔画为特征的汉字识别中起到关键作用.
汉字的组合方式包括独体字和合体字.合体字又包括上下结构、左右结构、品字结构等多种结构.以部件(radical)为基础的手写体汉字识别中,需根据汉字的组合方式对已提取的部件进行重新组合.
2.3 字形变化多
手写体汉字字形总的来说可以分为:手写印刷体(hand2printfashionscripts)、行书(fluentscripts)和草书(cursivescripts).对于相同的字形又因不同人书写风格的差异造成手写汉字的变形.脱机手写汉字在日常生活中以行书为主.对于行书和草书等笔迹相连的情况,字
符分割是识别的关键环节,如果出现分割错误,将影响后续识别结果的精度.
2.4 相似字多
汉字集合中相似字较多,由于手写体汉字变形的存在,使得手写体中相似字的区分比印刷体要困难得多[1].比如,在手写体中的一点,可能会因为不当的预处理而消失,从而造成字符的误识.因此要求预处理方法能够针对手写汉字的特点,做到尽量不丢失笔画信息.在识别过程中,对于相似的字体,可以采用更精确的细分类过程进行鉴别.在识别后处理阶段,通常采用相似字符集作为候选字符集的主体.
3 识别过程
对于脱机手写体汉字识别而言,其识别过程通常如图2所示.
原始的手写文稿通过扫描仪等OCR(OpticalCharac2terRecognition)设备,转换成灰度图像或者二值图像,并进行预处理.字符特征分为统计和结构特征两种模式.识别阶段,根据提取的特征,选择相应的分类器及其组合形式进行模式分类.识别后处理根据前后文字的上下文关系选择最合乎逻辑的字词,能进一步提高识别准确率,最后输出分类结果.
4 图像预处理
手写字体 很多图像处理技术可以应用于脱机手写体汉字图像,包括:(对灰度图像)二值化、
(对二值图像)伪灰度化、去噪、骨架化、边缘提取、倾斜矫正等.本节主要介绍字符图像分割的关键技术和方法.
基于切分的汉字识别方法是目前汉字识别的主流方法.汉字的分割通常首先对整篇文档做行切分,再在行分割的基础上进行单个字符的分割.图3显示了手写体汉字分割处理的一般流程
只有当每一单个字符的图像都能正确地从整个文本页面图像中分割出来,才有可能进行正确的文字识别[5].然而,手写体汉字的书写随意性很大,相邻汉字之间的位置关系也复杂多样.手写体汉字的书写可能产生如下4种基本位置排列情况[7,8],如图4所示.
(1)正常:汉字各自分开独立为整体;单个汉字中各个部件间的距离远小于字间距离.
(2)粘连:汉字的某一笔在一点或几点与相邻汉字接触;
(3)重叠:汉字间无接触,但无法用垂直分割线分割;
(4)过分:汉字左右部分间距过大或汉字内部出现笔画断裂.
真实手写文档上述情况往往同时出现,这是造成无法正确分割汉字的主要因素,对这种手写体汉字的切分是今后研究的重点和难点问题[8].
目前手写体汉字分割广泛采用的方法如下:
4.1 投影法
投影法(ProjectProfileHistogram,PPH)通过统计图像中每一列(行)黑像素的个数得到投影直方图.在直方图中字符区域对应于波峰,字符间隔对应于波谷.投影法简单,速度快,对印刷体汉字和手写印刷体汉字的分割有相当好的效果,但是会将粘连或重叠的字符识别为一个字符,出现弱分割现象;或将过分字符识别为若干字符,产生过分割现象.
4.2 连通域分析法
连通域分析法[8](ConnectedComponentAnalysis,CCA)是在整个字符图像中寻相连的像素作为连通元,分析这些连通元本身的图像属性,判断它们是否属于同一个字符图像,然后利
用先验知识对它们进行拆分和合并.连通域分析法对于重叠字符和倾斜字符能够取得理想的分割效果.但使用该方法时连通元容易过碎,使严重断裂的字符图像无法重新合并,真正粘连的字符也不能通过连通元切分开,需在后续的识别模块中加入粘连字符模板或者通过其它方法进行再切分.
4.3 Viterbi算法
字符分割路径可视为一个自上而下的m层单向图,建立一个隐马尔可夫模型(HiddenMarkovModel,HMM)来表示该有向图[8,9].图中的每个节点对应隐含状态,有向边表示状态的转移方向,用节点轨迹组成观测序列,其概率分布为分割路径穿过结点的几率大小,m是观测序列的长度.采用Viterbi算法[10~12]
寻求分割路径,相当于在图中沿着有向边方向出所有路径中的最大概率者,组成顺向首尾相接的一串有向边的集合,即得到非线性的分割路径.Viterbi算法对于交错、单处笔划粘连等字符能够得到较好的分割效果,但并未从根本上解决多种粘连方式的分割问题.
4.4 基于识别的方法
将字符分割与识别截然分开,分割将是手写体汉字识别误差的主要来源,基于识别的统计分割方法是汉字分割的新出路[5].基于识别的方法首先将字符分成若干组成部分,并采用合并策略在多条候选的合并路径中通过识别结果选择一条最佳路径[13,14].基于识别的字符分割方法通过识别模块来指导切分,识别结果对分割起着决定性的作用,分割是识别的副产品[9],分割结果依赖于识别分类器的性能[13].
图像预处理会给字符图像带来干扰或形变,引入新的误差.改进的二值化、细线化、字符归一化、字符分割等图像预处理算法[15~17],能够减少预处理带来的字体变形等不利影响,但不能从根本上解决预处理带来的干扰.由于目前尚不能完全实现字符的正确分割,所以,对于基于分割的脱机手写体汉字识别,字符分割的精度直接决定后续汉字识别的精度,是手写体识别系统精度的瓶颈.文献[18]提出了一种无分割的手写体汉字识别方法,并通过实验证明了该方法的可行性.这种方法实质上是对文本进行行分割,再在行分割的基础上提取字符特征,而非精确到单个字符的分割.行分割相对字符分割简单,计算量小,引入误差更小.无分割脱机手写体汉字识别更符合人类识别字符的习惯,将是未来汉字手写体识别的新趋势.
5 特征提取
手写体汉字识别特征提取方法可分为基于结构特征、统计特征和将结构特征和统计特征相融合的方法.
5.1 结构特征
结构特征是汉字识别研究初期的主流方法,需要先抽取结构基本单元,再由这些基本单元构成来描述汉字特征.结构特征比较直观,符合人们书写汉字的过程,能较好地反映汉字的结构特性;缺点是对结构基本单元提取困难,各结构元素之间的拓扑关系复杂,抗干扰性较差.同时,由于汉字的结构特征通常都要利用细化算法提取,不仅计算量大而且会出现形变问题,给汉字识别带来新的噪声影响.
5.1.1 基于特征点
特征点是反映汉字形体特征整体分布状况的关键点.通常对大多数结构稳定的汉字,一旦获得了正确的特征点集,就可能顺利地按一定的策略和步骤(连接笔划、结构匹配等)将汉字形体划归为正确的字类.根据不同的研究思路,研究人员对特征点的定义也不尽相同。
5.1.2 基于笔画
一个汉字区分于其它汉字的主要特征就是笔画及其所在的位置,“横”、“竖”、“撇”、“捺”四种笔画的数量及其相对位置唯一地确定了一个汉字[22].基于笔画的特征提取方法将字符分解成笔画,并根据笔画的数量、顺序和位置进行识别[23~26].“横”、“竖”、“撇”、“捺”是构成汉字的四种基本笔画,所占比重大,并且提取容易,因而在识别系统中常采用它们作为识别特征.
5.1.3 基于部件
部件是一个居于笔画和单字之间的中间层次,相当于西文的字母.把若干个部件按照一定规则加以组合就可构成方块汉字.我国语言文字工作委员会对GB130001字符集中的20902个汉字逐个进行拆分、归纳与统计后,制定《汉字基础部件表》,共有560个可供独立使用的部件.这560种部件并不都适用于汉字识别,
通常从中选用若干部件作为识别特征[27].文献[28]提出的基于部件的汉字分解示意图,如图5所示.图中的4个汉字具有相同的3个部件,可根据最后一级分解部件来进行识别
5.2 统计特征
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论