2011年第25卷第1期测试技术学报V ol.25 N o.1 2011 (总第85期)JOURNAL OF TEST AND MEASUREMENT TECHNOLOGY(Sum N o.85)
文章编号:1671 7449(2011)01 0087 06
基于字符连通域特征的车牌
汉字字符识别技术
孟庆远,白艳萍,胡红萍
(中北大学理学院,山西太原030051)
摘 要: 本文通过对待识别字符和标准车牌汉字字符库中的各个标准字符的重合部分的连通域数目及相
似度进行分析,定义了待识别字符相对于标准汉字字符的连通域特征和相似度特征,由此提出了一种 基于字
符连通域特征的车牌汉字字符识别方法.该方法通过分析待识别汉字字符相对于标准字符模板的连通域特
征对待识别字符进行初步识别,然后再通过分析字符的相似度特征对待识别字符进行精确识别.实验结果表
明,该算法在车牌汉字字符的识别上能取得较高的识别率,而且该算法在对 缺损汉字的识别上也能取得较
好的效果.
关键词: 连通域;相似度;字符;汉字字符识别;模板
中图分类号: T P301.6 文献标识码:A doi:10.3969/j.issn.1671 7449.2011.01.016
Vehicle Te mplate Character Recognition Technology
Based on Connected Domain Characteristic
M ENG Qingy uan,BAI Ya nping,H U Ho ng ping
(Co lle ge o f Science,N or th U niver sit y o f China,T a iy uan030051,China)
Ab stract: I n this paper,w e analy ze and define the co nne cted do ma in char acter istic and sim ilarity cha racter istic fo r the coincident parts betw een the unkno w n char acter tem plate a nd the sta ndard char a cter tem plate.A Ch inese character recog nitio n algo rithm is advanced based o n the characte
字符串常量的定界符是什么r connect ed dom ain chara cteristic.The algo rithm m akes a rough r eco gnition for an unkno wn char acter tem plate by analy zing the connected do main cha racter istic relative to the standard template and then ob tains a n accurate result by ana lyzing the similar ity characte ristic.The ex pe riment results sho w that, the algo rithm can achieve hig h recognitio n rate,and has a g oo d per form ance w he n it is applied to the recognitio n o f fr agme ntary characters.
Ke y words:connected do main;similarity;character;Chinese chara cter recognitio n;template
收稿日期:2010 08 12
基金项目:2009年国家自然科学研究基金资助项目(60876077);2009年山西省自然科学研究基金资助项目(2009011018 3) 作者简介:孟庆远(1983 ),男,硕士生,主要从事计算机科学中的数学问题研究.
0 引 言
随着经济社会的发展,世界各国的汽车数量迅速增加,致使公路交通的负担越来越重,交通事故和环境污染问题也日益严重[1],这一系列的问题导致智能交通系统(Intellig ent Transportation System,ITS)受到了前所未有的重视.智能交通系统是将信息技术、数据通讯传输技术、电子控制技术及计算机处理技术等综合运用于整个交通运输管理体系,通过对交通信息的实时采集、传输和处理,借助各种科技手段和设备,对各种交通情况进行协调和处理,建立起的一种实时、准确、高效的综合运输管理体系[2]
.而车牌识别系统(LPR)是智能交通系统的一个重要研究课题[3].车牌识别系统主要包括图像预处理、车牌定位、倾斜校正、字符分割和字符识别等几个部分[4].传统的字符识别方法有基于模板匹配法[5]、聚类分析法[6]
以及神经网络识别法.
基于此,笔者对小型车车牌识别中的汉字字符识别技术进行了研究,提出了一种 基于字符连通域特征 的车牌汉字字符识别技术.
1 基于字符连通域特征的车牌汉字字符识别
1.1 车牌汉字字符
根据!中华人民共和国机动车号牌∀GA36#2007,车牌汉字字符包括各省(市)、自治区的简称和港、澳、使、领、学、警总共37个汉字字符[7]
.根据不同的车型,字符规格不一,但就小型车车牌来说,其高宽比大约为2∃1.据此,我们将上述汉字制作成了32%16的黑底白字的二值化标准字符模板(即模板中的背景像素值为0,前景像素值为1).1.2 连通域
对于一个区域D,若D 中的任意两点都可以用属于D 的一条折线连接起来,则区域D 就称为连通区域.连通域又可分为单连通区域和多连通区域.在连通区域D 中,若D 中的任意一条封闭曲线,都可以不经过D 外的点而连续收缩于D 中的某一点,则称D 为单连通区域,如图1所示;否则,则称D 为多连通区域[8],如图2所示.多连通域也称为复连通区域
.
图1 串连通域
Fig.1 Simp ly conn ected
region
图2 多连通域
Fig .2 &M ultiply con nected r
egion
图3 8邻域Fig .3 8 neighb orhood
对于数字图像处理来说,需要处理的数据都是离散的数字点阵,这和数学上处理的连续的数域又不相同.因此,数字图像处理中的连通域的概念也和数学中有所区别.在数字图像处理中,连通域可分为4连通域
和8连通域.如图3,设P 是图像中的任意像素点,则与P 相邻的8个像素称为P 的8邻域[9].其中,P 0,P 2,P 4,P 6称为P 的4 邻点,P 0~P 7称为P 的8 邻点.对于一个图像区域,若从其中的任意一点出发,通过上、下、左、右4个方向能到达图像的任意一点,则称该图像区域为4连通域;若从图像的任意一点出发,通过上、下、左、右、左上、右上、左下、右下8个方向能到达图像的任意一点,则称该连通域为8连通域.
88
测试技术学报 2011年第1期
1.3 汉字字符的连通域
对于一个汉字图像,可以将其二值化为一个数字点阵I .这个矩阵就包含了该汉字字符的各种特征.由于字符矩阵只有黑、白两种像素值,黑像素值为0,白像素值为1.通过一定的编程操作,可以很容易得到该矩阵中的8连通域的个数.这也就得到了该汉字字符的8连通域的个数.本文是通过种子填充算法[10]的改进算法得到矩阵中的字符连通域的个数的.
求字符矩阵I 的连通域数目的算法如下:
1)定义零矩阵A,B ,空矩阵r es ,N =0,其中A 的大小和I 相同;
2)对I 进行行扫描,直到遇到第一个不为零的元素I (i,j )停止,并将A (i ,j )置为
1;图4 汉字的连通域Fig.4 The C hin ese character s ∋
connected domain
3)令B 等于A;到A 中元素值为1的点A (i ,j ),令A (i ,j )的8邻域的元素值等于I (i ,j )的8邻域的元素值;
4)比较A,B 是否相等:若相等,转入5);否则,转到3);5)res (N +1,:,:)=A ;6)N 增加1;
7)若A 中的元素A (i ,j )的值为1,则将I 中相应的I (i ,j )置为0;
8)将A 中的元素全部置为0;
9)判断I 中的元素是否全部为0:
若全部为0,则结束;否则,转到2).
由上述算法可知,N 即为字符矩阵I 中的连通域的数
目,res 包含了I 中的各个连通域.例如:字符 吉 、 宁 ,它们都有两个连通域,各连通域如图4所示.1.4 基于字符连通域特征的车牌字符识别算法
设有r %q 的待识别字符矩阵X 和标准字符模板A,X 和A 的背景像素值均为0,前景像素值均为1.
对X 和A 作数量乘法(X 和A 的对应元素相乘),得到数字点阵I ,即
I =X.*
A.图5 字符的重叠部分
Fig.5 Th e overlaps of th e ch aracters
这样做实质上是得到了两个汉字字符重叠的部分.统计I 中白像素点的个数n 1和8连通域的个数d 1;再统计A 中白像素点的个数n 2和8连通域的个数d 2,计算I 和A 的连通域数目的绝对值d 以及I 和A 的白像素点的比值 (相似度)
d =|d 1-d 2|,(1) =
n 1
n 2
,(2)
式中:d 为X 相对于的A 的连通域特征值; 为X 相对于的A 的相似度特征值.
如:对于128%64的汉字模板 宁 和 云 、 辽 , 宁 字和后两者的重叠部分如图5.
以 宁 字为待识别字符为例:
云 字的连通域数目为2, 辽 字的连通域数目为3, 宁 、 云 的重叠部分的连通域是3个, 宁 、 辽 的重叠部分的连通域是8个, 云 字的白像素点共有2760个, 辽 字的白像素点共有3
89
(总第85期) 基于字符连通域特征的车牌汉字字符识别技术(孟庆远等)
382个, 宁、 云的重叠部分共有白像素点404个, 宁、 辽的重叠部分共有白像素点861个.由此可得 宁相对于 云的连通域特征:
d云=|3-2|=1,
相似度特征:
云=404
2760
=0.1464.
同理可得 宁相对于 辽的连通域特征d辽=5,相似度特征 辽=0.2546.
分析一下在何种情况下能使得d取得最小值且 取得最大值.很容易知道的一种情况是:若X中包含的汉字字符恰好是A中的汉字字符的话,则d和 必定能同时取得最小值和最大值,且有d=0, =1.由此,可以作出如下两个假设:
(在标准汉字字符模板列表L中,若L中的某个元素A为待识别字符X的正确识别,则d取得最小值;
)在标准汉字字符模板列表L中,若L中的某个元素A为待识别字符X的正确识别,则 取得最大值;
可以用标准汉字字符模板求得汉字的连通域特征矩阵D以及相似度矩阵U:作列表
C={C(i)|i=1,2,3,∗,37},
式中:C(i)表示第i个标准汉字字符模板的数字点阵;
取C中的任意一个元素C(j)(j=1,2,3∗,37),令I=C(i).*C(j),则D和U中个元素的计算公式为
D(i,j)=|d1-d C(j)|,(3)
U(i,j)=
n I
n C(j)
,(4)
式中:D(i,j)表示C(i)相对于C(j)的连通域特征;U(i,j)表示C(i)相对于C(j)的相似度特征.
这样,就得到了汉字的连通域特征矩阵D和相似度矩阵U.通过分析D和U各元素的数值能够在一定程度上验证上述两个假设的正确性.
在矩阵D中,D的主对角线上的元素全部为0,且非主对角线的元素中,只有少数几个元素如D(湘,浙),D(浙,湘),D(吉,青),D(青,吉),D(鲁,警),D(宁,京),D(宁,渝),D(吉,鲁)的连通域特征值为0.我们称这些字符为相似字符.除上述元素外,其它元素都能和主对角线上的元素较好地区分,即矩阵D和假设(能够比较好的符合.对于矩阵U,除对角线元素全部为1外,非对角线元素最大值为0.8219,最小值为0.1356,这说明I能和非正确识别字符有很好的区分.也就是说,矩阵U完全符合假设).对于湘、!浙、吉、青、宁、京、警、鲁、渝几个字符,可以结合假设(和假设)来分析.这几个字符的连通域特征值和相似度特征值如表1所示.
表1 几个特殊的连通域特征值和相似度特征值
Tab.1 S ome sp ecial eigenvalue of th e con nected d omain and similarity
吉,青青,吉湘,浙浙,湘
吉,青吉,吉青,吉青,青湘,浙湘,湘浙,湘浙,浙
D0*******
U0.5150 1.00000.5911 1.00000.8219 1.00000.7173 1.0000
吉,鲁鲁,警宁,京宁,渝
吉,鲁吉,吉鲁,警鲁,鲁宁,京宁,宁宁,渝宁,宁
D0*******
U0.5576 1.00000.6431 1.00000.4286 1.00000.3333 1.0000
在表1中,每一大项的第一小项是非对角线上的连通域特征值和相似度特征值,第二小项是相应的90测试技术学报 2011年第1期
主对角线上的值.由表1中可以看出,非对角线上的相似度特征值以U (湘,浙)最大,值为0.8219.但这也和相应的主对角线上的值D (湘,湘)有较大的差别.
综上所述,若将假设(和假设)结合起来,将待识别字符矩阵X 和标准汉字字符列表L 中的各个标准汉字字符矩阵进行比较,则有很大几率能到X 代表的汉字所对应的标准汉字字符矩阵L (i ).这实际上也就完成了对X 的识别.应用上述原理识别汉字字符X 算法如下:
1)作标准汉字字符模板列表L ;计算X 相对于L (1)的连通域特征值D 0和相似度特征值U 0,即
D 0=D(X ,L (1)),U 0=U(X ,L (1)),i =1,
字符识别结果char 为L (1)所代表的汉字;
2)i 增加1;
3)计算X 相对于L (i )的连通域特征值和相似度特征值:
D 1=D(X ,L (i)),U 1=U(X ,L (i));
4)若D 1<D 0,则令U 0=U 1,D 0=D 1,并取cha r 为L (i)所代表的汉字;
5)若D 1=D 0并且U 1>U 0,则令U 0=U 1,并取cha r 为L (i)所代表的汉字;6)判断L (i)是否为列表L 的最后一个元素,若是,则结束识别过程;否则,转到2).
2 实验结果
本文用M ATLAB 对上述算法编写了求字符连通域特征和汉字字符识别的程序.并从车牌照片中提取了272个32%16的汉字字符.这些提取的汉字中,一部分是比较正常的汉字,还有一部分有一定的倾斜、变形.通过对这些字符的识别,检验算法的合理性.识别结果如表2.
表2 识别结果Tab.2 Recognition result
待识别字符/个
正确识别/个
错误识别/个
正确率/%错误率/%272
256
16
94.12
5.88
图6 缺损 汉字的识别
Fig.6 Fr agm en tary character recognition
在实验中还对一些 缺损 汉字,做了专门的识别工作.在对缺损汉字利用本文算法进行识别时,也同样能取得很好的识别效果.
如图6中的8个汉字,通过对比车牌汉字可以很容易分析出这几个汉字分别是澳、藏、川、鄂、赣、桂、黑、冀.在图6中,每个汉字图像下方标题中的汉字即是计算机识别的结果.可以发现识别结果和我们的分析结果是符合的.尤其是第4个字符 鄂 字,其图像大部分缺损,但仍然能通过其存留的一部分区域将字符识别出来.这说明本文中的汉字字符的识别算法对 缺损 汉字同样有能力进行识别,并能取得较好的识别效果.
91
(总第85期) 基于字符连通域特征的车牌汉字字符识别技术(孟庆远等)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论