基于MSER和NMS的变形文档字符检测
邢延超;程雷雷;李瑞;张化迪
【摘 要】本文提出一种基于MSER和NMS的对发生透视形变文档的字符检测算法.首先通过MSER算法对变形文档进行字符检测,调整参数以达到尽可能多的检测到字符.然后通过NMS算法去除对同一个字符多余重复的检测结果.实验结果表明,提出的算法可以很好地对变形文档的字符进行准确检测.字符串长度判断
【期刊名称】《黑龙江科技信息》
【年(卷),期】2018(000)032
【总页数】2页(P101-102)
【关键词】变形文档字符检测;MSER;NMS
【作 者】邢延超;程雷雷;李瑞;张化迪
【作者单位】青岛理工大学 信息与控制工程学院,山东 青岛266000;青岛理工大学 信息与控制工程学院,山东 青岛266000;青岛理工大学 信息与控制工程学院,山东 青岛266000;青岛理工大学 信息与控制工程学院,山东 青岛266000
【正文语种】中 文
【中图分类】TP391.41
1 概述
现如今,通过手机拍摄文档获得文档图像已变成常见的信息提取方式。在这个过程中,由于拍摄者的随意性,容易使文档图像发生透视形变,从而造成文档图像的变形,这对于文档图像后续的字符识别造成了严重的影响。因此有必要对变形文档进行矫正,在这个过程中,获取文档图像中的字符信息就变得格外重要。
字符定位算法的研究越来越多,许多学者提出了相应的文本定位方法,主要分为两大类,基于滑窗的方法[1]和基于连通域的方法[2]。
基于滑窗的方法通常使用多尺度窗口滑动扫描输入图像,提取滑动窗口内图像区域的特征,如梯度方向直方图(Histogram of Oriented Gradient,HOG)和多尺度纹理融合特征[3]等。
基于连通域的方法主要通过分析图像像素点的特征,提取特征相似的像素点构造连通域。常用的文字连通域提取方法包括:笔画宽度变换(Stroke Width Transform,SWT)方法[2]和最大稳定极值区域(Maximally Stable Extremal Regions,MSER)方法[4]。
本文通过对这些算法的学习研究,提出一种全新的检测定位策略。首先通过调整后的最大稳定极值区域算法检测所有到字符,然后对其重复检测框进行非极大值抑制去除重复框,最终获取精简准确的检测结果。
2 MSER算法介绍
最大稳定极值区域(Maximally Stable Extremal Region,MSER)是由Matas[4]等提出的连通域提取方法,使用地形学中的分水岭的概念来求解稳定局部区域,在文本定位领域被广泛应用。下面将对算法进行详细的介绍。
2.1 对于一张图片I,可以将其看做是一种映射关系
2.2 最大稳定极值区域(MSER),对于一组互相嵌套的极值区域即,如果满足条件在i*处有局部最小值,则将称之为最大稳定极值区域(|⋅|看作集合的基数)。公式中的参数 Δ ∈S。
3 NMS算法介绍
NMS即是非极大值抑制算法,对于相交的框,选择得分最高的,去掉重叠度较高的框。
非极大值抑制算法流程如下:
假设检测到了6个矩形框,根据分类器类别分类概率做排序,从小到大分别属于字符的概率分别为A、B、C、D、E、F。
3.1 从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;
3.2 假设B、D与F的重叠度超过阈值,那么就扔掉B、D;并标记第一个矩形框F,是我们保留下来的。
3.3 从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框。就这样一直重复,
到所有被保留下来的矩形框。
4 算法流程
4.1 输入原始图像。
4.2 对原始图像进行最稳定极值区域检测。
4.3 调整参数,获取最佳的检测结果,以检测到所有字符为最佳。
4.4 对检测结果进行非极大值抑制,去除重复的检测框。
4.5 获得检测结果。
5 实验结果
本文的实验数据来源于智能手机拍摄,选取随意角度对现实中文本进行拍摄,得到发生透视形变的文档图像。该图像具有真实性,可以非常有效的测试算法的性能和抗干扰能力。所使用的智能相机摄像头像素为1600万。
发生透视形变的原图如图1所示,使用默认参数进行最稳定极值区域检测得到的检测结果如图2所示:
图1 实验原始图像
图2 默认参数下检测字符结果图
由上图可知,默认参数下获得的检测结果会遗漏掉大部分发生变形的字符,因此对其进行参数调整,其结果如图3所示:
图3 优化参数下检测字符结果图
图4 进行非极大值抑制后检测字符结果图
通过对参数进行调整之后,可以完美的检测到所有的字符,但是由于最稳定极值区域算法得到的连通区域众多,造成了重叠区域较多,一个字符被检测到多次。使用非极大值抑制算法对该结果进行优化,如上图4所示。
6 结论
本文主要对发生透视形变的文档进行字符检测,通过对字符定位算法的研究,最终提出了将最稳定极值区域算法和非极大值抑制算法结合的方法进行变形文档的字符检测。实验结果表面,该算法可以很好地对变形文档字符进行检测,最终为变形文档字符矫正提供支持。
参考文献
【相关文献】
[1]Tian S,Pan Y,Huang C,et al.Text Flow∶A Unified Text Detection System in Natural Scene Images[J].2016∶4651-4659.
[2]Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[J].2010,119(5)∶2963-2970.
[3]Jing S,Hong Z,Nan X,etal.Multi-scale time-frequency texture feature fusion algorithm for scene classification[J].Chinese Journal of Scientific Instrument,2016.
[4]Matas J,Chum O,Urban M,et al.Robust wide-baseline stereo from maximally stable extremalregions [J].Image & Vision Computing,2004,22(10)∶761-767.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。