(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 101515325 A (43)申请公布日 2009.08.26 | ||
(21)申请号 CN200910081927.1
(22)申请日 2009.04.08
(71)申请人 北京邮电大学
地址 100876 北京市海淀区西土城路10号
(72)发明人 黄晓冬 马华东 张赫
(74)专利代理机构 北京德琦知识产权代理有限公司
代理人 夏宪富
(51)Int.CI
G06K9/00
G06K9/34
权利要求说明书 说明书 幅图 |
(54)发明名称
基于字符切分和颜聚类的数字视频中的字符提取方法 | |
(57)摘要
一种基于字符切分和颜聚类的数字视频中的字符提取方法,其步骤是:(1)字符切分:利用字符区域与字符间隔区域的特征差异,进行垂直投影来切分字符区域图像,将每行含多个字符的区域图像,切分成只含单个字符的多个子区域图像,降低后续操作处理难度,提高OCR的识别准确率;(2)字符提取:先用图像中的字符颜特征进行颜聚类,到含最多字符信息的图层作为目标图层,删除背景区域;再用字符的连通特征分析目标图层的连通区域,去除非字符区域后,分别得到单个字符图像、字符区域的整体图像和由单个字符图像拼接的整体图像的三种结果,都输入给OCR系统进行识别;后两者是用OCR的语义处理功能,能根据上下文准确确定形近字而提高识别效果。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1、一种基于字符切分和颜聚类的数字视频中的字符提取方法,其特征在于,包括下列操作步骤:
(1)字符切分:采用基于垂直投影特征的分析切分方法,即利用字符区域与字符间隔区域的特征差异,进行垂直投影来切分字符区域图像,将每一行包含多个字符的区域图像,切分成只包含单个字符的若干个子区域图像,以降低后续步骤的处理复杂度,提高准确率,保证OCR的较高的识别率;
(2)字符提取:先用图像中的字符颜特征进行颜聚类,到包含最多字符信息的图层作为目标图像,从而快速删除大部分背景区域信息;再用字符的连通特征分析目标图像的连通区
域,继续去除剩余的非字符区域后,分别得到三种类型的字符图像:单个字符提取图像、字符区域的整体提取图像和由单个字符提取图像拼接成的整体拼接图像,一起输入给OCR系统进行识别;其中后两种图像是用OCR的语义处理功能,根据上下文更准确地确定形近字而提高识别效果。
2、根据权利要求1所述的方法,其特征在于:所述特征差异是指:字符区域的特点是它的空间频率变化强烈,而字符间隔区域的空间频率变化相对较小;对应到梯度上,则是字符区域的梯度较大,而字符间隔的梯度较小。
3、根据权利要求1所述的方法,其特征在于:所述基于垂直投影特征的分析切分方法的特点是简单、速度快、有利于工程实现,故采用对于字符切分操作最有用的纵向梯度信息进行切分,且对字符区域图像采用的梯度计算模板是Sobel算子中计算垂直方向的微分的计算模板:<maths><math><mrow><mfenced><mtable><mtr><mtd><mo>-</mo><mn>1</mn></mtd><mtd><mo>-</mo><mn>2</mn></mtd><mtd><mo>-</mo><mn>1</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mn>0</mn></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mn>2</mn></mtd><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math></maths>
所述基于垂直投影特征的分析切分方法的依据是视频中字符通常呈水平排列,故对于根据上述计算模板对字符区域图像中的像素进行计算得到的梯度值的绝对值,进行垂直方向上的投影,以便考察感兴趣的区域并进行字符切分;因字符区域对应的梯度值大于字符间隔区域的梯度值,故在字符切分中,用纵向梯度投影作为切分的依据,再通过各种启发式规则来最终确定切分线。
4、根据权利要求3所述的方法,其特征在于:所述构造各种启发式规则来进行字符区域切分,或将误切分的字符区域合并,都是为了解决误切分问题;
误切分包括字符内的误切分和字符间的误切分,前者是由于字符为左右结构或偏旁呈对称或类对称结构的原因,在字符的30%、50%或70%宽度处可能造成字符内的误切分,此时,综合运用梯度值、区域宽度和字符宽度的信息,去除错误的切分线,将误切分区域合并来解决之;后者是误将两个字符相互靠近的部分切分成一个字符,此时,通过分析相邻区域的宽度是否满足设定条件,去除错误的切分线,将误切分的区域进行合并来解决之。
5、根据权利要求1所述的方法,其特征在于:所述步骤(1)进一步包括下列操作内容:
(11)将字符区域的彩图像转换为灰度图像,以使后续操作能够适用于各种彩空间,并将三通道减少为单通道,大大减少计算量;
(12)按照所述的Sobel算子中计算垂直方向的微分的计算模板,分别计算所述单通道灰度图像中的每个像素的梯度值,并对该梯度值取绝对值后,进行纵向相加,得到该灰度图像的纵向梯度值之和的数组,作为反映图像特性的梯度值数组,用作切分的依据;
(13)用近邻平均方法平滑该梯度值数组,以减弱其中微小波动的干扰,突出波动趋势:所述近邻平均方法是选取某个位置左右两边的梯度值与该位置的梯度值的平均值,用作该位置的新的梯度值;
(14)为兼顾波峰和波谷的位置信息和梯度信息,根据梯度值数组和下述公式,计算用于全面表征垂直投影特征的峰谷差比V(i)∶V(i)=(C(i-1)+C(i+1)-2×T(i))/T(i),式中,C(i)为波峰的梯度值,T(i)为波谷的梯度值,自然数i是波峰或波谷的序号;该计算公式的物理涵义是:峰谷差比是相邻两个波峰与所夹的波谷的梯度垂直投影的差值,与波谷的梯度垂直投影值的比值;
(15)根据峰谷差比先初选删除大部分备选切分线后,初步估算字符宽度:因图像的切分线通
常位于梯度值较小的波谷,且该波谷左右两边通常有梯度值较大的波峰,造成峰谷差比较大,故先排除峰谷差比小于平均峰谷差比的大部分备选切分线;在进行平均值的判断后,对剩余的备选切分线数目仍大于估算的切分线数目的1.5倍,即1.5×字符宽度/字符高度时,则保留峰谷差比最大的前1.5×字符宽度/字符高度个切分线后;初步估算字符宽度,用于从备选的切分线中得到较可靠的字符宽度,使后续处理的字符宽度比较精确;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论