(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 109558547 A (43)申请公布日 2019.04.02 | ||
(21)申请号 CN201811386470.0
(22)申请日 2018.11.20
(71)申请人 北京锐安科技有限公司;青海省公安厅
地址 100044 北京市海淀区西小口路66号中关村东升科技园北领地B-2号楼七层
(72)发明人 张志远 王生玉 王雪松 石志中 张俊杰
(74)专利代理机构 北京品源专利代理有限公司
代理人 孟金喆
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种数据的过滤方法、装置、电子设备及存储介质 | |
(57)摘要
本发明实施例公开了一种数据的过滤方法、装置、电子设备及存储介质,该方法包括:获取待过滤的数据;利用预先训练好的过滤模型对所述数据进行过滤。而由于过滤模型是机器学习得到,因此,处理数据速度较快,并且准确率高,从而提高整体引擎的准确率及召回率,以更高效、更精准、更稳定的方法实现数据的过滤。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2021-10-29 | 发明专利申请公布后的驳回 | 发明专利申请公布后的驳回 |
2019-04-26 | 实质审查的生效 | 实质审查的生效 |
2019-04-02 | 公开 | 公开 |
权 利 要 求 说 明 书
1.一种数据的过滤方法,其特征在于,所述方法包括:
获取待过滤的数据;
利用预先训练好的过滤模型对所述数据进行过滤。
2.根据权利要求1所述的方法,其特征在于,利用预先训练好的过滤模型对所述数据进行过滤,包括:
利用预先训练好的过滤模型确定所述待过滤数据是无效信息或有效信息;
如果是无效信息,则利用预设过滤规则确定所述待过滤数据是无效信息或有效消息;
当利用预设过滤规则确定所述待过滤数据是无效信息时,将所述待过滤数据存入无效信息数据库。
3.根据权利要求1所述的方法,其特征在于,所述数据是HTTP协议数据,所述过滤模型训练的样本数据包括预设数量的URL数据,其中,属于同一URL数据的数量是均匀的。
正则匹配快代理4.根据权利要求3所述的方法,其特征在于,所述过滤模型的训练过程,包括:
基于所述样本数据训练过滤模型;
计算所述过滤模型的效果评价参数,其中,所述效果评价参数包括:准确率、错检率和/或召回率;
直至所述效果评价参数满足预设阈值,则所述过滤模型训练完成。
5.根据权利要求4所述的方法,其特征在于,计算所述过滤模型的效果评价参数,包括:对所述过滤模型采用交叉验证的方式计算效果评价参数。
6.根据权利要求1所述的方法,其特征在于,利用预先训练好的过滤模型对所述数据进行过滤之后,所述方法还包括:
根据对所述数据的过滤结果对所述过滤模型进行优化。
7.一种数据的过滤装置,其特征在于,包括:
数据获取模块,用于获取待过滤的数据;
数据过滤模块,用于利用预先训练好的过滤模型对所述数据进行过滤。
8.根据权利要求7所述的装置,其特征在于,所述数据过滤模块,具体用于:
信息初始确定模块,用于利用预先训练好的过滤模型确定所述待过滤数据是无效信息或有效信息;
无效信息确认模块,用于如果是无效信息,则利用预设过滤规则确定所述待过滤数据是无效信息或有效消息;
无效数据存储模块,用于当利用预设过滤规则确定所述待过滤数据是无效信息时,将所述待过滤数据存入无效信息数据库。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的一种数据的过滤方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的一种数据的过滤方法。
说 明 书
<p>技术领域
本发明涉及互联网技术领域,尤其涉及一种数据的过滤方法、装置、电子设备及存储介质。
背景技术
随着互联网、社交网络、电子商务等的迅猛发展,每天新增的数据量迅猛激增,数据平台的存储压力及查询性能压力也越来越大,其中HTTP协议在数据总量中占据相当大的比重。
现有技术中,基本是依赖规则的词库检测机制,比如检测引擎内置的正则或者采用多模匹配算法等进行HTTP协议信息的匹配。虽然能够将大部分无价值HTTP数据过滤掉,但是依然存在一些问题,导致过滤效率较低。例如,词库维护困难,为保证词库的有效性,需要不断的对大量数据进行分析;词库中词的粒度大小容易导致过拟合或者欠拟合,比如规则写的太宽泛容易误杀,写的太细容易绕过;基于规则的词库检测机制严重影响性能,尤其是词库量大时,极大的影响了实时流式框架的处理速度,造成消息队列的积压。
发明内容
本发明提供一种数据的过滤方法、装置、电子设备及存储介质,实现对HTTP协议数据的高效率过滤,大大减少了资源的开销,提升了实时处理性能和过滤效率。
第一方面,本发明实施例提供了一种数据的过滤方法,包括:
获取待过滤的数据;
利用预先训练好的过滤模型对所述数据进行过滤。
第二方面,本发明实施例还提供了一种数据的过滤装置,包括:
数据获取模块,用于获取待过滤的数据;
数据过滤模块,用于利用预先训练好的过滤模型对所述数据进行过滤。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的一种数据的过滤方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机
处理器执行时用于执行如本发明任意实施例所述的一种数据的过滤方法。
本发明实施例的技术方案,通过获取待过滤的数据,并利用预先训练好的过滤模型对所述数据进行过滤,而由于过滤模型是机器学习得到,因此,处理数据速度较快,并且准确率高,从而提高整体引擎的准确率及召回率,以更高效、更精准、更稳定的方法实现数据的过滤。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论