(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 101534261 A (43)申请公布日 2009.09.16 | ||
(21)申请号 CN200910131229.8
(22)申请日 2009.04.10
(71)申请人 阿里巴巴集团控股有限公司正则匹配第二个符合的
地址 英属开曼岛大开曼岛资本大厦一座四层847号邮箱
(72)发明人 张利明 闻波
(74)专利代理机构 北京挺立专利事务所
代理人 叶树明
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种垃圾消息的识别方法、装置和系统 | |
(57)摘要
本申请公开了一种垃圾消息的识别方法、装置和系统,该方法包括:提取通讯消息中的发送方信息;根据所述提取的发送方信息,判断所述通讯消息的发送方是否为可预期发送方,如果所述通讯消息的发送方不是所述可预期发送方,则识别所述通讯消息为垃圾消息,或继续对所述通讯消息进行识别。本申请通过判断通讯消息的发送方是否为可预期用户,进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1、一种垃圾消息的识别方法,其特征在于,包括:
提取通讯消息中的发送方信息;
根据所述提取的发送方信息,判断所述通讯消息的发送方是否为可预期发送方,如果所述通讯消息的发送方不是所述可预期发送方,则识别所述通讯消息为垃圾消息,或继续对所述通讯消息进行识别。
2、如权利要求1所述的方法,其特征在于,所述判断通讯消息的发送方是否为可预期发送方之后,还包括:
如果所述通讯消息的发送方是所述可预期发送方,则识别所述通讯消息为正常消息。
3、如权利要求1或2所述的方法,其特征在于,
所述可预期发送方,包括以下用户中的至少一种:
系统用户、所述通讯消息的接收方的好友用户和所述通讯消息的接收方主动联系过的非好友用户。
4、如权利要求3所述的方法,其特征在于,所述判断通讯消息的发送方是否为可预期发送方,包括:
获取系统用户名单、所述通信消息的接收方的好友用户名单和所述通讯消息接收方主动联系过的非好友用户名单;
如果所述通讯消息的发送方信息记录在所述系统用户名单、所述通信消息的接收方的好友用户名单和所述通讯消息接收方主动联系过的非好友用户名单的任一项中,则判断所述通讯消息的发送方是可预期发送方。
5、如权利要求3所述的方法,其特征在于,
所述通讯消息的接收方主动联系过的非好友用户,包括所述通讯消息的接收方在设定时间内主动联系过的非好友用户。
6、如权利要求3所述的方法,其特征在于,还包括:
根据自身发送的通讯消息中的接收方信息,更新自身的可预期发送方信息。
7、如权利要求1所述的方法,其特征在于,所述判断通讯消息的发送方是否为可预期发送方,包括:
设置黑名单列表和/或白名单列表,所述黑名单列表中包括被识别出的垃圾消息的发送方信息,所述白名单列表中包括被识别出的正常消息的发送方信息;
如果所述通讯消息的发送方信息记录在所述黑名单列表中,则判断所述通讯消息的发送方不是可预期发送方;和/或
如果所述通讯消息的发送方信息记录在所述白名单列表中,则判断所述通讯消息的发送方是可预期发送方。
8、如权利要求1所述的方法,其特征在于,所述继续对通讯消息进行识别,包括:
判断所述通讯消息的消息内容是否与预设的关键词列表匹配;
如果所述通讯消息的消息内容与所述预设的关键词列表匹配,则识别所述通讯消息为垃圾消息。
9、如权利要求1所述的方法,其特征在于,所述提取通讯消息中的发送方信息之前,还包括:
判断所述通讯消息的消息内容是否与预设的关键词列表匹配;
如果所述通讯消息的消息内容与所述预设的关键词列表匹配,则暂时识别所述通讯消息为垃圾消息,或直接识别所述通讯消息为垃圾消息。
10、如权利要求8或9所述的方法,其特征在于,所述使用预设的关键词列表,对所述通讯消息的消息内容进行匹配之后,还包括:
如果所述通讯消息的消息内容与所述预设的关键词列表不匹配,则识别所述通讯消息为正常消息,或继续对所述通讯消息进行识别。
11、如权利要求1所述的方法,其特征在于,所述继续对通讯消息进行识别,包括:
判断所述通讯消息的消息内容是否符合预设的垃圾消息识别选项;
如果所述通讯消息的消息内容不符合预设的垃圾消息识别选项,则识别所述通讯消息为垃圾消息。
12、如权利要求1所述的方法,其特征在于,所述提取通讯消息中的发送方信息之前,还包括:
判断所述通讯消息的消息内容是否符合预设的垃圾消息识别选项;
如果所述通讯消息的消息内容不符合预设的垃圾消息识别选项,则暂时识别所述通讯消息为垃圾消息,或直接识别所述通讯消息为垃圾消息。
13、如权利要求11或12所述的方法,其特征在于,所述垃圾消息识别选项,包括以下内容中的至少一项:
不允许出现电话号码、不允许出现网络链接、不允许出现IM即时通讯号码和不允许出现图片。
14、如权利要求11或12所述的方法,其特征在于,所述判断通讯消息的消息内容是否符合预设的垃圾消息识别选项之后,还包括:
如果所述通讯消息的消息内容符合预设的垃圾消息识别选项,则识别所述通讯消息为正常消息,或继续对所述通讯消息进行识别。
15、如权利要求1所述的方法,其特征在于,所述继续对通讯消息进行识别,包括:
使用预设的关键词列表,对所述通讯消息的消息内容进行匹配,获取与所述消息内容匹配的关键词的分值;
使用预设的正则表达式,对所述通讯消息的消息内容进行匹配,获取与所述消息内容匹配的正则表达式的分值;
根据与所述消息内容匹配的关键词和正则表达式的分值,获取所述消息内容的匹配总分值;
判断所述消息内容的匹配总分值是否大于或等于预设的阈值;
如果所述消息内容的匹配总分值大于或等于所述预设的阈值,则识别所述通讯消息为垃圾消息。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论