自适应字符切分及提取算法研究--688IT编程网

西安理工大学学报Journal of X i’an University of Technology(2016) Vol. 32 No. 4399 DOI：10. 19322/j. cnki. issn. 1006-4710. 2016. 04. 004

自适应字符切分及提取算法研究

金海燕，夏好，王彬

(西安理工大学计算机科学与工程学院，陕西西安710048)

摘要：在字符识别技术日趋成熟的现状下，单个字符的正确切分及提取已经成为制约字符识别精

确度的关键因素。本文针对二手车发票上印刷体的日期数字（阿拉伯数字），对图像二值化处理后，采用垂直方向投影和轮廓特征两种策略进行自适应字符切分及提取。实验结果表明，该方法提高了从图像中定位出来的字符串的切分率，并保证了字符切分和提取的正确率平均达到9 9 %。

关键词：字符切分及提取；字符识别；图像二值化

中图分类号：T P391 文献标志码：A文章编号：1006-4710(2016)04-0399-04

Study of adaptive character segmentation and extraction algorithm

JIN Haiyan,XIA T in g,WANG Bin

(School of Computer Science and Engineering, Xi?an University of Technology, Xi?an 710048, China) Abstract：In the current the situation of character recognition technology is becoming more and more mature,and the correct segmentation and extraction of single character has become a key factor to control the accuracy of character recognition.This paper focuses on second-hand car invoice printing of digital date(Arabic numerals),with both vertical projection and contour feature combination strategies for adaptive character segmentation and extraction being conducted after image binarization processing.Experimental results show that using the proposed method can improve the segmentation rate of the string from the image,ensuring that the average accuracy rate of the extracted image can reach 99%.

Key words：character segmentation and extraction；character recognition；image binarization

单一字符识别技术发展迅速，目前，多数字符识别系统对于印刷字符数字的识别已经达到较高识别率，此时字符的正确切分就成为进一步提高识别率的关键因素。

目前，一些学者已经提出了一些字符切分方法。投影法[1]主要是对字符图像二值化后向水平方向投影，投影曲线两个相邻波谷的位置就是切割线的位置，该方法简单、快速，但是对噪声等干扰因素敏感。上

下轮廓（Upper/Lower Contour)特征法[2]通过逐列搜索扫描来确定字符的上下轮廓曲线，并根据其轮廓曲线来近似确定单个字符。该方法对字符宽度、间隔不固定的图像切分效果不好。滴水算法(Drap-Falling)[3]根据水滴运动所经过的路径轨迹来确定字符的分割路径，该方法对粘连字符有很好的切割效果，但对于有倾斜或本身是凹形结构的字符会造成字符断裂，对某些左中右结构的汉字会造成过度切分。连通域法[4]是基于字符本身的像素连续性，每一个字符或者字符的一部分构成一个连通域，该方法抗噪性较好，但是对一些由互不相连的几部分组成的汉字，会将其分割成几部分，从而导致切分不正确。

综上所述，字符切分中的最小单元是单个字符，描述字符单元最精确的知识就是字符形状[5]。字符切分过程就是对单个字符的外轮廓边界准确定位的过程，根据字符的外轮廓确定字符的外边界，进而确定切割的位置。而单个字符数字内部的间断、字符间的粘连以及图像背景噪声不同程度的污染等，都是造成不能精确切分的主要因素及难点[6]。本文就二手车发票日期字符的识别提出自适应字符切分及提取算法。该算法采用两种策略多次自适应切分及提取，首先采用上下轮廓追踪法切分，如果切分结果不理想，再进行垂直投影法切分。切分过程中可以根据字

收稿日期：2016-03-04

基金项目：国家自然科学基金资助项目（61472204, 61272283)

作者简介：金海燕，女，教授，博士，研究方向为图像处理，模式识别，智能信息处理。E-mail:jinhaiyan@xaut. edu. cn

400西安理工大学学报（2016)第32卷第4期

符的宽高来判断切分结果是否正确，最后根据日期的有效位数去除年、月、日后，提取8位数字图片。

1自适应字符切分及提取算法

1.1字符的切分及提取算法

本文算法主要采用直线检测法定位出日期位置，因此对日期位置没有明确要求。假设日期位置位于发票的左上方，首先定位日期位置，切取发票的曰期数字部分，再对该部分进行初步的预处理[7_9]。本文提出的字符切分及提取方法分为两步。

1.1.1上下轮廓追踪

首先，用简单统计法[1°]将灰度位图二值化，并对二值位图进行边缘噪声清理和消除孤立点，然后，追踪搜索上下轮廓特征，分析空白间隔，切除不需要的部分，对保留下来的部分搜索极值点，进而于特征点处切分。

预处理原始图像，裁剪出左上角位图，从而大大减少后续操作数据量，并按固定比例进行缩放，记录此时高度/i。、宽度w。。

用最大类间方差（0了31；)[11]算法二值化该灰度图，利用霍夫变换检测表格线和倾斜角度，定位出表格左上角及角度的矫正。以位图左上角为坐标原点，将二值图像像素值为〇的直角坐标系下的坐标点（：r，；y)转换为极角坐标下的坐标点（r，0)，并将累加个数存储于hoMg/l矩阵数组中，如公式（1)所示。

r = X cos0 + ；y X sin0 (1)式中，r e (〇，（w+w)1/2)，0e (〇°，i8〇°)，（r，0) e ]。

从r=/i。一a处开始降序搜索/lO M g/l矩阵中同

一（r，0)的数量值，当首次出现大于预设的门限值6 时设：

up_dis — r ^

an g le — 6

式中，为表格最上边直线距原点的距离，awg/e为表格倾斜角度，a、6为常量。

同理，从r=a处升序搜索/lO M g/l矩阵中同一(r，0)的数量值，当首次出现大于预设的门限值c 时设：

le ft_d is — r^

式中，为表格最左边直线距原点的距离，c 为常量。

若0乒〇，判断表格倾斜角度awg/e及表格左上角坐标(^。，:^八编写如下程序：

x0 — Left_dis；

i{{angle'^>^0〇)

angle—180° —a n gle;

字符串截取公式3；。=/i〇X cos(ang/eX3. 14 +180) —up_dis；

else

3；。=/i〇X cos(ang"Z^X3. 14 +180)——up_d is~\~

z v q X sin(a ngle X3. 14-^180)；

angle——angle；

采用邻近插值算法™以角度对位图进

行倾斜矫正。

以（心，>)为矩形左下角，按固定比例从原灰度图中裁剪出目标所在区域部分，此时位图矩阵记为 image〇0

采用简单统计法二值化image。，搜索8邻域连通域消除孤立噪声点，并进行边缘清理，记录此时二值位图为及。

在及中定位字符的上下轮廓特征，可采用先自上而下再自下而上沿纵轴方向扫描像素点的方法，用一维数组1/(1，71_1)、0(1，71_；1)分别记录上下轮廓的纵坐标点，得到上下轮廓之间距离的离散值#aw(l，U，如公式（2)所7K。

span(l,i)= 1/(1, i)一D(1，i)(2)

式中，为L的宽，*初始化为〇，上限为J b—l，移动步长为1。

分析#aw(l，i)空白间隔处，并自适应选取缩小目标区域的切割点（A，：yi)，基于image。图裁剪出日期矩阵image!。

依据先递减后递增的规律从左向右逐一查功ara(l，z)中的极值点，设小于^注W为常量经验值）的极值点对应的坐标点为切分点，基于image!灰度位图裁剪，最终切分成字符碎片，用最大类间方差算法生成二值化效果图。

对字符碎片做轮廓临界点裁剪，二次切分自适应提取有效字符片位图。首先，统计字符碎片高度、宽度，排序查出现次数最多的高度、宽度分别记为办、™；其次，鉴于此时二值化位图细节清晰，只需取上轮廓特征极值点，参考/i、™及非有效字符的提取情况，自适应的进行二次切分，直至取到所有有效字符片存于数组矩阵中。

1.1.2垂直投影

对经过1. 1. 1中切分处理后仍然切分错误的字符图像，采用垂直投影[13]进一步分析。对1. 1. 1中定位裁剪出的日期灰度图image。，采用最大类间方差算法二值化记为7。，再以8领域连通域搜索消除孤立噪声点，并进行边缘清理。

将7。进行垂直投影，投影累加值记录在一维矩阵5(1，7。_」中，如公式（3)所示。

金海燕，等：A适应字符切分及提取算法研究401

S(l,i)=(1—I。（z’y))(3)

j =D

式中，1。_：为I。的宽，为h的高，为坐标 (z'，7)点的像素值(注：〇为黑像素点，1为白像素点），S(l，z')为在横坐标为z'下所有像素为0的点的个数。

基于空白间隔处进行字符切分，得到字符碎片

[谓?7](注：谓?7为碎片总数）。对字符碎片做轮廓临界点裁剪t二次切分自适应提取有效字符片位图，

1.2算法流程图

首先，将读人的图像进行倾斜矫正；然后，从中定位出表格左上角的坐标，从而定位出日期；最后，结合两种策略对日期进行单个字符的切分及提取。算法流程图如图1所示。

图1算法流程图

Fig. 1 Algorithm flowchart

2实验分析

以奥迪4S店实际的二手车售车发票为实验样本进行分析，图2为发票源图的灰度图。

图2发票源图的灰度图

Fig. 2 The original invoice grayscale

步骤1：选取经过加权平均法灰度化的灰度图图2作为源图。初步裁剪出左上角位图，并按固定比例进行缩放，记录此时高度心=290(像素）、宽度 t%=600(像素），左上角位图如图3所示。

图3发票左上角图

Fig. 3The image of invoice upper left corner

步骤2：采用最大类间方差算法对图3进行二值化，利用霍夫变换检测表格线和倾斜角度，定位出表格左上角及角度的矫正。以左上角为坐标原点，检测到表格左上角坐标为（99，93)、角度为0%步骤3：位图无倾斜，不需要矫正。

步骤4：以（99,93)为矩形左下角，按固定比例从原灰度图中裁剪出目标所在区域部分，记为 image。，如图4所示。

对话

|开J-UA:: 2 ；lZniii：j U7hl

图4定位开票日期头位图

Fig. 4 The billing date bitmap head positioning

步骤5：采用简单统计法二值化/mage。，搜索8 邻域连通域消除孤J：噪声点，并进行边缘清理，记录此时二值位图为h,

步骤6：在^中用扫描像素的方法定位字符的上下轮廓特征，得到上下轮廓之间距离的离散值(1，U，L7 (1，U、D(1，U分别记录上下轮廓的纵坐标点^自左向右分析空白间

隔处，缩小目标所在区域范围，切除“幵票日期：”部分后的左下角坐标为(80,0)，基于灰度位图/mage。再次切割，记为，如图5所示。

图5定位日期位图

Fig. 5Location date bitmap

步骤7：依据先递减后递增的规律从左向右逐一查，/)中的极值点(注：z'从80开始），设小于dW=7)的极值点对应的坐标点为切分点，其横坐标为：29、39、47、57、64、74、83、94、110。基于灰度位图裁剪，最终切分成字符碎片，

并采用

O T S U算法二值化。

步骤8：对字符碎片做轮廓临界点裁剪如图6所示，放大字符碎片效果如图7所示s二次切分自适应提取有效字符片位图。首先，统计字符碎片高度、宽度，排序查出现次数最多的高度、宽度分别记为/z=13、w=8，其次，鉴于此时二值化位图细节清晰，只需取上轮廓特征极值点，参考均值以

及非有效字符的情况，自适应的进行二次切分，从中提取8个数字片矩阵，分别考虑年、月、日、数的情况。依据均宽奶、均高/z，分别对日期数、“日、月、年”的宽度、高度做一个大概定位，不在这个范围内的，自适应的进行二次切分或者向前选取新的矩阵进行提取，最终只提取到8个数值矩阵存储于…矩阵数组中6提取出的8个数字片如图8所示，

图6字符碎片位图

Fig. 6Character fragment bitmap

0 X 21f 0z H z? B

图7字符碎片放大位图

Fig. 7 Character fragmentation bitmap

图8单个数字片位图

Fig. 8 Single digital bitmap

以上实验中提取的有效字符数量及切分结果说明字符切分正确，无需再进行垂直投影处理，而对有些发票，当采用上下轮廓追踪处理后有效字符数不为8或出现无法识别的字符时，需要采用垂直投影重新切分处理，以达到切分的最佳效果。运用本文算法对100张不同时间日期的二手车发票进行了日期字符的切分及提取，实现了对日期字符的精确定位、切分和提取，并且字符的边界划分较为清晰准确，取得了比较满意的结果，提取出的待识别数字正确率平均达到99M&

3结语

自适应宇符切分及提取方法，是将读人的图像进行倾斜矫正1从中定位出发票表格左上角的坐标Or。，^。），并以此设置矩形框裁剪出图像，最后进行单个字符的切分及提取。本文结合多种二值化图像的效果，采用垂直方向投影和轮廓特征两种策略进行自适应字符切分及提取，提高了从图像中定位出来的字符串的切分率，并保证了提取出的待识别数字的正确切分率。

参考文献：

[1] 迟小君，孟庆春.基于投影特征值的车牌字符分割算法

[J].计算机应用研究，2006,32(7) :256-257.

CHI Xiaojun,MENG Qingchun. Character segmentation of license plate based on projection and eigenvalueQ].

Application Research of Computers, 2006，3:2( 7)：256-257.

[2] STRATHY N W, SUEN C Y, KRZYZAK A. Segmen

tation of handwritten digits using contour features[G]// Document Analysis and Recognition，1993, Proceedings of the Second International Conference on, Tsukuba, 1993:577-580.

[3] KHAN S A. Character segmentation heuristics for

check amount ?erification[D], Cambridge ： Massachusetts Institute of Technology，1998.

[4] 陈艳，孙羽菲，张玉志.基于连通域的汉字切分技术研究

[J].计算机应用研究，2005,22(6) :246-248.

CHEN Yan, SUN Yufei, ZHANG Yuzhi. Research on Chinese character segmentation based on connected d〇- mainQj]. Computer Application Restarch, 2005,22 (6)：246-248.

[5 ]刘刚，丁晓青，彭良瑞，等，多知识综合判决的字符切分

算法[J]，计算机工程与应用，2002,38(17):59-62.

LIU Gang, DING Xiaoqing, PING Liangrui, et al. A character iegmentation algorithm based on synthetic decision [J].Computer Engineering and Applications, 2002,38(17) ：59-62.

[6]王叶.车牌识别系统中字符切分和识别技术的研究[D l

北京：北京邮电大学，2009.

WANG Ye. Study of character recognition in ¥ehicle license plate system [D]. Beijing：Beijing University of Posts and Telecommunications，2009.

[7]童立靖，张艳，舒巍，等*几种文本图像二值化方法的对

比分析[J涵北方大学学报，2011，23(1) :25-33.

TONG Lijing, ZHANG Yan, SHU Wei, et al. Comparison and analysis of several document image binariza- tion algorithm [I J o u r n a l of Kforth College，2011，23 (l)：25-33.

(下转第415页

）

表5再生混凝土试件侵蚀前后质量 Tab. 5Quality of recycled concrete specimens before

and after erosion

粉煤灰掺量/%侵蚀前/kg侵蚀后/kg质量损

吴率/%

0 2. 403 2. 335 2. 80

10 2. 328 2. 3170. 47

15 2. 455 2. 4390. 65

20 2. 387 2. 3760. 46

表6再生混凝土试件侵蚀试验强度 Tab. 6The strength of recycled concrete erosion test

specimens

粉煤灰掺量/%28 d标

准/MPa

侵蚀后

强度/MPa

对比组

强度/MPa

耐蚀

系数

028. 527. 534. 030. 898

1040. 647. 7852. 030. 918

1542. 449. 2749. 50. 995

2029. 532. 9535. 130. 938

注：对比组强度为28 d龄期后浸在清水中试件的强度…

在表6可知，15次干湿循环过后，四组掺量的耐蚀系数表现出先增后减的变化趋势。

通过以上分析可知，再生混凝土的质量损失率和耐蚀系数随粉煤灰掺量的增加不呈现同比变化。其中耐蚀系数随粉煤灰掺量的增加而呈现出先增后减的趋势，粉煤灰掺量在15%左右时，其耐蚀系数最高，抗侵蚀性能最好。

3.5粉煤灰对再生混凝土抗压及耐久性能影响程

度分析

粉煤灰具有微集料效应，并且包含有大量非晶态（或称玻璃态）的Si02、A l203，掺人粉煤灰后，活性二氧化硅（Si02)可以和水泥水化反应中产生的游离氢氧化钙（Ca(OH)2)发生二次反应，生成稳定和强度高的水化硅酸钙，明显改善再生骨料混凝土内部的孔隙结构，增强混凝土密实性。

其次，粉煤灰颗粒经过高温燃烧形成，大部分是玻璃微珠，它的外表比较光滑，由硅铝玻璃体组成，球形颗粒的显著特点就是表面光滑，进人混凝土内部起到很好的润滑作用。混凝土内部破坏往往不在粉煤灰颗粒界面发生，而在水泥凝胶部分发生。恰好粉煤灰颗粒在水泥浆体中有良好的分散状态，从而有助于混凝土的均匀性改善，还能充填和细化混凝土中的孔隙和毛细孔，从而提高再生混凝土的强度和

耐久性。

最后，由于粉煤灰混凝土前期强度发展缓慢，后期强度发展速度有所提高。当粉煤灰过量时，其内部大部分活性二氧化硅在早期来不及与混凝土内部氧化铝等一些物质反应，不能有效降低混凝土孔隙率，反而会降低再生混凝土的抗压强度和耐久性。

4结论

1)再生骨料混凝土内部加人粉煤灰后，能有减小其内部孔隙和毛细孔数量，改善混凝土均匀性，进而增强再生混凝土的密实性，从而提高其强度和耐久性。

2)在一定范围内，再生骨料混凝土抗压强度粉煤灰掺量的增加呈现出先增后减的趋势，并且掺量为10%〜15%时其强度最高。

3)掺人一定程度的粉煤灰后再生混凝土的渗性能有了明显的提高，并且抗渗性能随其掺量的

增加有很大提高，在粉煤灰掺量为10%〜20%时，其抗渗性能最好，达到P12。

4)再生混凝土的抗冻性能较弱，添加一定量粉煤灰对再生混凝土的抗冻性能有一定的影响。试验结果表明，当粉煤灰掺量10%左右时，对再生混凝土抗冻性能有明显提高，随着粉煤灰掺量的提高，对再生混凝土的抗冻性能的影响不显著。

5)在5%Na2S04溶液环境下，随着粉煤灰量的变化，侵蚀外观无太大变化，但从再生混凝土劈裂破坏的断裂界面和侵蚀面来看，未侵蚀混凝土破坏均匀性较好，侵蚀混凝土内粘结性恶化，破坏面不平整。且在粉煤灰掺量为15%左右时其抗硫酸盐

侵蚀效果最好。

参考文献：

[1]邹超英，范玉辉，胡琼.冻融循环后再生混凝土基本力

学性能试验[J].建筑结构学报，2010，40 (S1):

434-438.

ZHOU Chaoying, FAN Yuhui, HU Qiong. Experimen

tal study on the basic mechanical property of recycled

concrete after freeze-thaw[J]. Building Structure, 2010,

40(S1): 434-438.

[2]崔正龙，路沙沙，汪振双.再生骨料特性对再生混凝土

强度和碳化性能的影响[J].建筑材料学报，2012, 15

(2) : 264-267.

CUI Zhenglong, LU Shasha, WANG Zhenshuang. In

fluence of recycled aggregate on strength and anti-car-

bonation properties of recycled aggregate concrete[J].

Journal of Building Materials, 2012, 15(2) ；264-267. [3]胡琼，宋灿，邹超英.再生混凝土力学性能试验[J].哈

尔滨工业大学学报，2009, 41(4): 33-36.

HU Qiong, SONG Can, ZHOU Chaoying. Experimen

tal research on the mechanical properties of recycled con

crete [J ].Journal of Harbin Institute of Technology,

2009, 41(4)；33-36.

688IT编程网

自适应字符切分及提取算法研究

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

自适应字符切分及提取算法研究

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行