(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 109657243 A
(43)申请公布日 2019.04.19
(21)申请号 CN201811544301.5
(22)申请日 2018.12.17
(71)申请人 江苏满运软件科技有限公司
    地址 210012 江苏省南京市雨花台区软件大道170-1号4幢3-5层
(72)发明人 王东 沙韬伟 罗竞佳 邓金秋
(74)专利代理机构 上海隆天律师事务所
    代理人 臧云霄
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      敏感信息识别方法、系统、设备及存储介质
(57)摘要
      本发明提供了一种敏感信息识别方法、系统、设备及存储介质,该方法包括:将待识别的文本句子进行切词,得到各个组成词;在训练好的词向量库中查各个组成词的词向量;将各个组成词的词向量计算平均值,得到平均向量值;将平均向量值输入训练好的敏感信息识别模型,得到敏感信息概率值;根据敏感信息概率值判断文本句子是否包括敏感信息。通过采用本发明的方案,基于向量化文本进行敏感程度分类,可以快速高效地识别文本句子是否包括敏感信息,提高文本识别的准确率;本发明可以应用于各种类型的论坛中评论的识别,在文本句子中包含敏感信息时可以将对应的评论删除,本发明也可以应用于其他场景的敏感信息的识别。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种敏感信息识别方法,其特征在于,包括如下步骤:
将待识别的文本句子进行切词,得到各个组成词;
在训练好的词向量库中查各个所述组成词的词向量;
将各个所述组成词的词向量计算平均值,得到平均向量值;
将所述平均向量值输入训练好的敏感信息识别模型,得到敏感信息概率值,并根据所述敏感信息概率值判断所述文本句子是否包括敏感信息。
2.根据权利要求1所述的敏感信息识别方法,其特征在于,所述将待识别的文本句子进行切词,包括如下步骤:
采用Jieba分词方法对所述待识别的文本句子进行切词。
3.根据权利要求1所述的敏感信息识别方法,其特征在于,所述训练好的词向量库包括多个基于GloVe训练的词向量。
4.根据权利要求1所述的敏感信息识别方法,其特征在于,所述训练好的词向量库包括多个预设敏感词的词向量,所述在训练好的词向量库中查各个所述组成词的词向量时,对于在所述训练好的词向量库中未查到的组成词,采用默认词向量。
5.根据权利要求1所述的敏感信息识别方法,其特征在于,所述将各个所述组成词的词向量计算平均值,包括将各个所述组成词的词向量进行列平均。
6.根据权利要求1所述的敏感信息识别方法,其特征在于,还包括采集多个已知是否包括敏感信息的文本句子作为训练集,采用所述训练集训练敏感信息识别模型的步骤。
7.根据权利要求6所述的敏感信息识别方法,其特征在于,所述采用所述训练集训练敏感信息识别模型,包括如下步骤:
分别对各个已知是否包括敏感信息的文本句子进行切词,得到各个文本句子对应的各个组成词;
在训练好的词向量库中查各个所述组成词的词向量;
将各个文本句子的组成词的词向量计算平均值,得到各个文本句子的平均向量值;
根据各个文本句子是否包括敏感信息,为所述各个文本句子的平均向量值添加标签;
采用所述各个文本句子的平均向量值和标签训练所述敏感信息识别模型。
8.根据权利要求1所述的敏感信息识别方法,其特征在于,所述根据所述敏感信息概率值判断所述文本句子是否包括敏感信息,包括如下步骤:
判断所述敏感信息概率值是否大于预设阈值,如果是,则该文本句子包括敏感信息。
9.一种敏感信息识别系统,其特征在于,应用于权利要求1至8中任一项所述的敏感信息识别方法,所述系统包括:
文本分词模块,用于将待识别的文本句子进行切词,得到各个组成词;
词向量查询模块,用于在训练好的词向量库中查各个所述组成词的词向量;
平均向量值计算模块,用于将各个所述组成词的词向量计算平均值,得到平均向量值;
敏感信息识别模块,用于将所述平均向量值输入训练好的敏感信息识别模型,得到敏感信息概率值,并根据所述敏感信息概率值判断所述文本句子是否包括敏感信息。
10.一种敏感信息识别设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任一项所述的敏感信息识别方法的步骤。
11.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至8中任一项所述的敏感信息识别方法的步骤。
说  明  书
<p>技术领域
本发明涉及文本识别技术领域,尤其涉及一种敏感信息识别方法、系统、设备及存储介质。
背景技术
在网络论坛的管理中,需要对一些敏感信息进行识别和删除,保证论坛氛围积极。敏感信息例如可能是负面、反动、黄、暴力等不合法不合规的信息。发帖数据的主要属性有文本、表情、数字、字符等等,数据格式非常杂乱,语义丰富,如果直接将发帖数据输入到现有的敏感信息识别模型中会比较难以使用,且效果较差。
现有的敏感信息识别方案主要有两种,第一种为暴力的敏感词匹配,这种方法造成误伤比较大,很可能将不是敏感信息的文本也识别为敏感信息。另一种是常规分词分类,将一句话分为多个词,然后通过词频进行贝叶斯分类。这种方案对短句识别效果较为落后,对于一些只有三四个字词的短句,由于分词前后长度较短,贝叶斯分类器不能有很好的分类结果,而且没有很好地利用词的相关性,无法获得准确的敏感信息识别结果。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种敏感信息识别方法、系统、设备及存储介质,基于向量化文本进行敏感程度分类,可以快速高效地识别文本句子是否包括敏感信息。
本发明实施例提供一种敏感信息识别方法,所述方法包括如下步骤:
正则匹配两个大写字母加两个数字将待识别的文本句子进行切词,得到各个组成词;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。