(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
字符串截取方式 | (10)申请公布号 CN 101984426 A (43)申请公布日 2011.03.09 | |
(21)申请号 CN201010521691.1
(22)申请日 2010.10.21
(71)申请人 优视科技有限公司
地址 100080 北京市海淀区苏州街29号院18号楼维亚大厦16层1610-1620
(72)发明人 梁捷 周志明
(74)专利代理机构 北京鸿元知识产权代理有限公司
代理人 林锦辉
(51)Int.CI
G06F17/30
权利要求说明书 说明书 幅图 |
(54)发明名称
用于对网页图片进行字符切分的方法及装置 | |
(57)摘要
本发明提供一种对网页图片进行字符切分的方法,包括:对网页图片进行逐行扫描,以行为单位划分为多个相互间隔的第一空白区域和第一内容区域;从所获取的网页图片中切分出所划分出的第一内容区域;针对每个所切分出的第一内容区域进行逐列扫描,以列为单位将该第一内容区域划分为多个相互间隔的第二空白区域和第二内容区域;以及根据各个第二空白区域的像素坐标,将各个第二内容区域与各个第二空白区域切分开,作为被判断为是小说图片的各个第一内容区域中的各个单个字符。利用上述方法,可以将网页图片切分为单个字符,然后根据移动终端的屏幕尺寸对切分出的单个字符进行重新排版,以适于在移动终端上显示。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1.一种对网页图片进行字符切分的方法,包括:
对所获取的网页图片中的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域;
从所获取的网页图片中切分出所划分出的第一内容区域;
针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域;以及
根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的
各个第二内容区域作为各个第一内容区域中的各个单个字符。
2.如权利要求1所述的方法,其中,从所获取的网页图片中切分出所划分出的第一内容区域的步骤还包括:
根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征,判断该第一内容区域是否是小说图片;以及
在该第一内容区域是小说图片时,以与该第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。
3.如权利要求2所述的方法,其中,判断第一内容区域是否是小说图片的步骤还包括:
计算该第一内容区域的高度平均值;以及
在所计算出的第一内容区域的高度平均值落在第一阈值范围时,判断该第一内容区域是小说图片。
4.如权利要求3所述的方法,其中,判断第一内容区域是否是小说图片的步骤还包括:
计算该第一内容区域的高度标准差,
只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时,才判断该第一内容区域是小说图片。
5.如权利要求1所述的方法,其中,根据各个第二空白区域的像素坐标,将所述第二内容区域与所述第二空白区域分割开的步骤还包括:
根据所划分出的各个第二空白区域的像素坐标,确定第二内容区域的最大宽度;
利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标,确定第二内容区域的字符切分点;以及
利用所确定出的第二内容区域的各个字符切分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。
6.如权利要求1所述的方法,其中,在对所获取的网页图片中的像素进行逐行扫描或逐列扫描时,所述方法还包括:
根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。
<Claim>7.如权利要求1-6中任何一个所述的方法,其中,所述方法是利用移动终端的浏览器来实现的。
8.一种对网页图片进行字符切分的装置,包括:
第一划分单元,用于对所获取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域;
第一切分单元,用于从所获取的网页图片中切分出所划分出的第一内容区域;
第二划分单元,用于针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域;以及
第二切分单元,用于根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符。
9.如权利要求8所述的装置,其中,所述第一切分单元还包括:
第一判断单元,用于根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征,判断该第一内容区域是否是小说图片;以及
第一分割单元,用于在该第一内容区域是小说图片时,以与该第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。
10.如权利要求9所述的装置,其中,所述第一切分单元还包括:
计算单元,用于计算该第一内容区域的高度平均值,
在所计算出的第一内容区域的高度平均值落在第一阈值范围内时,所述第一判断单元判断该第一内容区域是小说图片。
11.如权利要求10所述的装置,其中,所述计算单元还计算该第一内容区域的高度标准差,
只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时,所述第一判断单元才判断该第一内容区域是小说图片。
12.如权利要求8所述的装置,其中,所述第二切分单元还包括:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论