验证码字符图像分割技术研究
作者:兰伟
来源:《软件导刊》2014年第10期
作者:兰伟
来源:《软件导刊》2014年第10期
摘 要:验证码字符图像分割质量很大程度上决定机器能否正确识别出验证码。针对验证码字符图像分割策略不同,通过研究投影分割法、连通域分割法、最短路径分割法3种验证码字符图像分割技术,分别探讨其特点和应用范围,给出了Web验证码3种分割技术的综合应用方法。
关键词:验证码;字符图像;图像分割
DOIDOI:10.11907/rjdk.143334
中图分类号:TP317.4
文献标识码:A 文章编号文章编号:16727800(2014)010013002
基金项目基金项目:重庆市职业教育学会立项科研课题(2013-ZJXH-8721)
作者简介作者简介:兰伟(1974-),男,重庆荣昌人,重庆科创职业学院信息学院副教授,研究方向为Java应用开发、人工智能。
0 引言
验证码技术是一种网络安全技术,是为了防止攻击者编写恶意代码对网站进行自动注册、自动重复登录、暴力破解密码、发广告等攻击。验证码识别研究能及时发现验证码的安全漏洞。验证码识别的一般步骤包括:先获取验证码原图,对彩图像进行灰度化,然后进行二值化,再通过去噪之后,将图像中的单个字符分割出来,进行逐个识别后输出结果[1]。字符图像分割是将图像划分成若干个互不相交的小区域的过程,每一个小区域是单个的字符图像。图像字符分割质量直接影响单个字符信息的完整性,影响字符最终能否被正确识别[2]。对目前常见的3种验证码字符图像分割技术进行研究,探讨各种技术的特点和应用范围,最终给出3种分割技术的综合应用方法。
1 投影分割法
投影分割法是利用各行字符之间存在行空白和行内字符之间存在列空白的特征来分割字
符[3]。因此,投影分割法分为垂直投影和水平投影两部分。在开始投影分割前必须先将字符图像进行灰度化、二值化和去噪处理,图像中灰度值为0的黑像素点是与字符有关的点,而灰度值为255的白像素点是与字符无关的背景点。
1.1 垂直分割
对图像进行从左向右逐列扫描,累加该列灰度值为0的黑像素点。由于字符之间的黑像素点很少,因此可以设定一个阈值,将各列黑像素点统计值小于阈值的作为字符垂直分割的界限,从而完成字符垂直分割。字符垂直分割可以确定字符的左右边界。
1.2 水平分割
对图像从上向下逐行扫描,累加该行灰度值为0的黑像素点。由于字符之上和之下的黑像素点很少,同样可以设定一个阈值,将各行黑像素点统计值小于阈值的作为字符水平分割的界限,从而完成字符水平分割。通过水平投影可以确定字符的上下边界。
1.3 技术特点
投影分割法实现起来简单,但适应性较差,只适用于字符简单(一般只包含数字和字母)且较为清晰的图像。当字符不清晰、图上噪声过多时,无论进行垂直分割还是水平分割,各列和各行的黑像素点统计值差别不明显,很难通过阈值区分,就无法准确确定字符的左右边界和上下边界。另外,当处理字符斜度过大的图像或字符之间有粘连时,投影法无法通过垂直分割和水平分割分离字符,投影法则完全失效。
2 连通域分割法
连通域分割法是利用字符(只限字母和数字字符)图像区域内的任意一个像素点都可以连通到另外任意一个像素点的特征进行字符分割,即同一个字符的像素都是连在一起的[4]。投影分割法图像分割的目标是到图像区域内的边界,而连通域分割法分割图像的目标是直接构造图像字符区域。根据连通方向的不同,可以分为4连通和8连通。4连通指通过某一个像素点的上、下、左、右4个方向判断是否与其连通;8连通指通过某一个像素点的上、下、左、右、左上、右上、左下、右下8个方向判断是否与其连通。根据构造区域方式不同,又可以分为区域增长法和区域分裂法。
2.1 区域增长法
区域增长法指从确定区域内的已知点开始,将与已知点相似的邻近点加入到区域中,从而在各个方向上增长区域,直到没有可接受的邻近点为止。区域增长是区域由小到大的过程,其中相似性的测度由所确定的阈值判定。
2.2 区域分裂法
区域分裂法与区域增长法相反,首先它把整个图像当作一个区域,然后将与已知点不相似的邻近点分裂开,直到各个区域内的点满足相似性的测度。区域分裂是区域由大到小的过程。
2.3 技术特点
连通域分割法不受字符图像倾斜的影响,分割效果好。但当字符与字符之间出现粘连时,会出现不同字符之间也连通的情况,此时用连通域法分割法就很难正确地将字符分割开。
3 最短路径分割法
通过投影分割法和连通域分割法通常能正确分割字符图像,但当字符之间有粘连时,必须采用某种分割方法分割字符之间粘连的部分[5,6]。最短路径分割法是经典的分割粘连的方法。
3.1 最短路径分割法原理
这里假设两个字符之间粘连的部分是点,而不是整条边。那么字符轮廓之间是白像素,字符粘连的部分是黑像素。在字符之间的一定范围内设置一个源点,让源点从下边界走到上边界。设定走过黑点的权值高,走过白点的权值低,这样通过计算,就到该点从一边到另外一边的最短路径。最短路径包括了尽可能少的黑素,从而确定两个字符之间的最佳划分。
3.2 技术特点
最短路径分割法算法设计复杂,同样也存在一些缺陷。例如当字符某些笔画过细,与粘连处的笔画粗细差不多时,就可能出现误分割。另外当字符整条边粘连在一起时,该方法也不能分割。因此又出现了许多更复杂的改进后的最短路径分割法。最短路径分割法只用于图像中出现字符粘连处的分割,通常不单独用于图像分割,只作为其它分割法的补充。
4 三种分割方法的综合应用
综上所述,在识别验证码图像字符时,主要的识别难点是字符粘连和字符倾斜。其中字符粘连又分为字符点与点粘连还是整条边粘连。不同的粘连方式图像分割难度也不相同。经过对大量Web验证码图像进行统计,发现约60%的验证码图片中的字符没有粘连,约30%的图片中字符的粘连只是点与点粘连,只有不到10%的验证码图片中字符出现整条边粘连。因此在实际验证码图像识别过程中,一般采取先易后难的顺序,先用投影分割法和连通域分割法分割没有字符粘连的图像,然后对部分有粘连的图像采用最短路径分割法再次分割。
具体做法如下:
(1)当遇到图像中字符之间间距较大时,在垂直方向不会有重合部分,因此采用投影分割法可以轻松分割出单个字符图像。
(2)当图像中字符有倾斜,导致垂直方向出现重合现象,但字符间没有粘连时,可以采用连通域分割法正确分割出单个字符图像。
(3)当图像字符之间出现点与点的粘连且字符有倾斜时,可以先采用连通域分割法和
垂直投影分割法分割出带粘连的图像,再采用最短路径分割法去除图像中的粘连部分,最后得到单个字符图像。
验证码图像经过上述3种方法分割处理后,绝大多数字符图像能被正确分割开。
参考文献
[1] 王斌君,王靖亚,杜凯选,等.验证码技术的攻防对策研究[J].计算机应用研究,2013(9):27762779.
[2] 王虎,冯林,孙宇哲.数字验证码识别算法的研究和设计[J].计算机工程与应用,2007(32):8688.
[3] 杨晓娟,宋凯. 基于投影法的文档图像分割算法[J].成都大学学报:自然科学版,2009(2):139141.
字符串截取后四位方法 [4] 李熙莹,卢林,余文进. 一种基于连通域和跳变的车牌定位方法[J].计算机与现代化,2014(3):104108.
[5] 陈兵,吴微.基于SOFM和最短路径法的黏连字符分割[J].仪器仪表学报,2006(6):2090.
[6] 尹龙,尹东,张荣,等.一种扭曲粘连字符验证码识别方法[J].计算机应用研究,2014(3):235241.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论