(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
正则匹配关键词(10)申请公布号 CN 104850609 A (43)申请公布日 2015.08.19 | ||
(21)申请号 CN201510231694.4
(22)申请日 2015.05.08
(71)申请人 湖北光谷天下传媒股份有限公司
地址 430077 湖北省武汉市东湖新技术开发区楚天文化创意产业大厦三楼
(72)发明人 蒋大可 何俊 莫燕峰
(74)专利代理机构 武汉天力专利事务所
代理人 冯卫平
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种针对跳字类关键词的过滤方法 | |
(57)摘要
一种文字处理方法,特别是一种针对跳字类关键词的过滤方法,采用本方法对信息进行检测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1.一种针对跳字类关键词的过滤方法,其特征在于:包括以下步骤:
1.1.对文本进行预处理,去除HTML标签、换行符、表情标签;
1.2.从被处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字段;
1.3.在词典中查该匹配字段,如果到该匹配字段,则切分出一条词,设长度为n,并后移n个字作为下一次分词的起点;
1.4.返回步骤1.2;
1.5.若未到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到步骤1.3;
1.6.得出第一匹配结果;
1.7.将步骤1.2.中的被处理文本从其尾部取出不超过词典最大长度的汉字串作为匹配字段;
1.8.在词典中查该匹配字段,如果到该匹配字段,则切分出一条词,设长度为n,并前移n个字作为下一次分词的起点;
1.9.返回步骤1.7;
1.10.若未到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到步骤1.8;
1.11.得出第二匹配结果,取第一匹配结果与第二匹配结果的并集;
1.12.计算并集中各个词项 t的权重值,公式如下:
其中,词频TF是指词项在一篇文档中出现的次数,定义为
,表示词项t在文档d中出现的次数;逆文档率IDF是指词项出现在所有文档中的次数的倒数,定义为
,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档的数目;
1.13.所有词项的权重计算出来之后我们按照权重的大小倒叙排序,选出50~100个高频词项用来表示文档;
1.14.从以往处理过的文本中提取跳字类型的关键词,形成特征词典;
1.15.将特征词典中的跳字类型的关键词通过正则表达式表达;
1.16.用正则表达式与步骤1.13选出的50~100个高频词项进行匹配;
1.17.若匹配成功则将其存储;
1.18.对存储词项选择相应的处理方式,如提示、删除或锁定。
2.根据权利要求1所述的一种针对跳字类关键词的过滤方法,其特征在于:步骤1.15中所述的正则表达式如下:
A{B}C,X{Y}Z对应的正则表达式为((A.{0,B}C)|(X.{0,Y}Z))。
说 明 书
<p>技术领域
本发明涉及一种文字处理方法,特别是一种针对跳字类关键词的过滤方法。
背景技术
目前网络作为传播信息的主要工具,不仅提供了人们所需要的资源,还充斥着大量的垃圾信息,特别是一些论坛上,充斥着大量的垃圾信息,为了防止这些垃圾信息通过用户发帖的方式进行传播,实现网络信息安全,最有效的解决方法就是对这些内容信息进行关键词过滤,但用户如果在写关键词的时候中间穿插一些别的词汇而达到规避过滤的目的,现有技术就很难将其识别。
发明目的
本发明的目的在于提供一种针对跳字类关键词的过滤方法,采用本方法对信息进行检测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论