一种针对跳字类关键词的过滤方法--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		正则匹配关键词(10)申请公布号 CN 104850609 A (43)申请公布日 2015.08.19

(21)申请号 CN201510231694.4

(22)申请日 2015.05.08

(71)申请人湖北光谷天下传媒股份有限公司

地址 430077 湖北省武汉市东湖新技术开发区楚天文化创意产业大厦三楼

(72)发明人蒋大可何俊莫燕峰

(74)专利代理机构武汉天力专利事务所

代理人冯卫平

(51)Int.CI

权利要求说明书说明书幅图

(54)发明名称

一种针对跳字类关键词的过滤方法

(57)摘要

一种文字处理方法，特别是一种针对跳字类关键词的过滤方法，采用本方法对信息进行检测可以识别跳字类关键词，并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。

法律状态

法律状态公告日	法律状态信息	法律状态

权利要求说明书

1.一种针对跳字类关键词的过滤方法,其特征在于:包括以下步骤:

1.1.对文本进行预处理,去除HTML标签、换行符、表情标签;

1.2.从被处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字段;

1.3.在词典中查该匹配字段,如果到该匹配字段,则切分出一条词,设长度为n,并后移n个字作为下一次分词的起点;

1.4.返回步骤1.2;

1.5.若未到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到步骤1.3;

1.6.得出第一匹配结果;

1.7.将步骤1.2.中的被处理文本从其尾部取出不超过词典最大长度的汉字串作为匹配字段;

1.8.在词典中查该匹配字段,如果到该匹配字段,则切分出一条词,设长度为n,并前移n个字作为下一次分词的起点;

1.9.返回步骤1.7;

1.10.若未到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到步骤1.8;

1.11.得出第二匹配结果,取第一匹配结果与第二匹配结果的并集;

1.12.计算并集中各个词项 t的权重值,公式如下:

其中,词频TF是指词项在一篇文档中出现的次数,定义为

,表示词项t在文档d中出现的次数;逆文档率IDF是指词项出现在所有文档中的次数的倒数,定义为

,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档的数目;

1.13.所有词项的权重计算出来之后我们按照权重的大小倒叙排序,选出50~100个高频词项用来表示文档;

1.14.从以往处理过的文本中提取跳字类型的关键词,形成特征词典;

1.15.将特征词典中的跳字类型的关键词通过正则表达式表达;

1.16.用正则表达式与步骤1.13选出的50~100个高频词项进行匹配;

1.17.若匹配成功则将其存储;

1.18.对存储词项选择相应的处理方式,如提示、删除或锁定。

2.根据权利要求1所述的一种针对跳字类关键词的过滤方法,其特征在于:步骤1.15中所述的正则表达式如下:

A{B}C,X{Y}Z对应的正则表达式为((A.{0,B}C)|(X.{0,Y}Z))。

说明书

<p>技术领域

本发明涉及一种文字处理方法,特别是一种针对跳字类关键词的过滤方法。

背景技术

目前网络作为传播信息的主要工具,不仅提供了人们所需要的资源,还充斥着大量的垃圾信息,特别是一些论坛上,充斥着大量的垃圾信息,为了防止这些垃圾信息通过用户发帖的方式进行传播,实现网络信息安全,最有效的解决方法就是对这些内容信息进行关键词过滤,但用户如果在写关键词的时候中间穿插一些别的词汇而达到规避过滤的目的,现有技术就很难将其识别。

发明目的

本发明的目的在于提供一种针对跳字类关键词的过滤方法,采用本方法对信息进行检测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。

688IT编程网

一种针对跳字类关键词的过滤方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

一种针对跳字类关键词的过滤方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式