(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 102982012 A (43)申请公布日 2013.03.20 | ||
(21)申请号 CN201110264447.6
(22)申请日 2011.09.07
(71)申请人 百度在线网络技术(北京)有限公司
地址 100085 北京市海淀区上地十街10号百度大厦
(72)发明人 李彦宏 舒迅 方勇 王波 徐文涛
(74)专利代理机构 北京汉昊知识产权代理事务所(普通合伙)
代理人 罗朋
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种用于获取失序文本中的目标字符串的方法与设备 | |
(57)摘要
本发明的目的是提供一种用于获取失序文本中的目标字符串的与设备。其中,失序文本处理设备获取待处理的失序文本;对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。与现有技术相比,本发明通过对失序文本中的字符进行排列组合,并将其结果在目标模式库中进行匹配查询,以获得所述失序文本中包含禁止信息的目标字符串,从而有效识别失序文本中的禁止信息,由此增强系统应用过滤禁止信息的能力。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1.一种计算机实现的用于获取失序文本中的目标字符串的方法,其 中,该方法包括以下步骤:
a获取待处理的失序文本;
b对所述失序文本中的字符进行排列组合,获取与所述失序文本相 对应的一个或多个字符序列;
c根据所述一个或多个字符序列,在目标模式库进行匹配查询,以 获得所述失序文本中的目标字符串。
2.根据权利要求1所述的方法,其中,所述步骤b还包括:
b1根据所述失序文本,生成与所述失序文本相对应的字符矩阵,其 中,所述失序文本中的每一个字符对应于所述字符矩阵中对应位置的字 符元素;
b2对所述字符矩阵通过矩阵运算进行所述字符元素的排列组合,以 获得所述一个或多个字符序列。
3.根据权利要求2所述的方法,其中,所述步骤b2还包括:
-根据预设的失序文本类型,对所述字符矩阵通过与所述失序文本 类型相对应的矩阵运算进行所述字符元素的排列组合,以获得所述一个 或多个字符序列。
4.根据权利要求3所述的方法,其中,所述失序文本类型包括以下 至少任一项:
-竖行文本;
-斜行文本;
-S行文本。
5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括:
-根据预置的筛选规则,从所述一个或多个字符序列中选择一个或 多个优选字符序列;
其中,所述步骤c还包括:
-根据所述一个或多个优选字符序列,在所述目标模式库进行匹配 查询,以获得所述目标字符串。
字符串函数的头文件6.根据权利要求1至5中任一项所述的方法,其中,该方法还包括:
-按照预设的预处理规则对所述失序文本进行预处理,获得预处理 文本;
其中,所述步骤b还包括:
-对所述预处理文本中的字符进行排列组合,获取与所述预处理文 本相对应的一个或多个字符序列。
7.根据权利要求6所述的方法,其中,所述预处理规则基于以下至 少任一项对所述失序文本进行预处理:
-滤除所述失序文本中的特定字符;
-将所述失序文本中的异型文字转化为正常文字;
-将所述失序文本中的半角文字转换为全角文字。
8.根据权利要求1至7中任一项所述的方法,其中,所述步骤c还 包括:
-根据所述一个或多个字符序列,基于以下至少任一项方式,在目 标模式库进行匹配查询,以获得所述目标字符串:
-字符串匹配;
-正则表达式匹配。
9.根据权利要求1至8中任一项所述的方法,其中,所述目标字符 串包括以下至少任一项:
-电话号码;
-互联网地址;
-地址;
-即时通信账号。
10.根据权利要求1至9中任一项所述的方法,其中,所述步骤a 还包括:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论