(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 113268987 A (43)申请公布日 2021.08.17 | ||
(21)申请号 CN202110576584.7
(22)申请日 2021.05.26
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号百度大厦2层
(72)发明人 刘春晓 代星
(74)专利代理机构 11332 北京品源专利代理有限公司
代理人 孟金喆
(51)Int.CI
G06F40/295(20200101)
G06F16/14(20190101)
权利要求说明书 说明书 幅图 |
(54)发明名称
一种实体名称识别方法、装置、电子设备和存储介质 | |
(57)摘要
本公开提供了一种实体名称识别方法、装置、电子设备、存储介质和计算机程序产品,涉及互联网领域,尤其涉及搜索技术。具体实现方案为:确定待识别变种文件名包括的关键词;将关键词,与候选原生实体名称和候选变种实体名称之间的关联关系中的候选变种实体名称进行匹配,得到目标变种实体名称,以及与目标变种实体名称关联的目标原生实体名称;将目标原生实体名称作为待识别变种文件名的识别结果,并建立所述目标原生实体名称与所述待识别变种文件名之间的关联关系。本公开实施例通过识别结果确定待识别变种文件名与原生实体名称的关联关系,由此保证用户将原生实体名称作为检索词进行文件搜索时,可以召回利用变种名称命名的文件。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2021-08-17 | 公开 | 公开 正则匹配公司名称 |
2021-09-03 | 实质审查的生效 | 实质审查的生效 |
2023-08-11 | 授权 | 发明专利权授予 |
权 利 要 求 说 明 书
1.一种实体名称识别方法,包括:
确定待识别变种文件名包括的关键词;
将所述关键词,与候选原生实体名称和候选变种实体名称之间的关联关系中的候选变种实体名称进行匹配,得到目标变种实体名称,以及与所述目标变种实体名称关联的目标原生实体名称;
将所述目标原生实体名称作为所述待识别变种文件名的识别结果,并建立所述目标原生实体名称与所述待识别变种文件名之间的关联关系。
2.根据权利要求1所述的方法,其中,候选原生实体名称和候选变种实体名称之间的关联关系的构建过程包括:
确定候选原生实体名称所包括的单个字、以及单个字的拼音首字母和全拼音;
基于预设的变种规则,根据候选原生实体名称所包括的单个字、以及单个字的拼音首字母和全拼音,生成至少一个候选变种实体名称;
建立所述候选原生实体名称和所述候选变种实体名称之间的关联关系。
3.根据权利要求1所述的方法,其中,确定待识别变种文件名包括的关键词,包括:
根据文件名的命名规则,使用正则表达式清洗所述待识别变种文件名中的无意义词,得到所述关键词。
4.根据权利要求1所述的方法,其中,将所述关键词,与候选原生实体名称和候选变种实体名称之间的关联关系中的候选变种实体名称进行匹配,得到目标变种实体名称,包括:
将所述关键词,依次与候选原生实体名称和候选变种实体名称之间的关联关系中的候选变种实体名称进行相似度计算,并将与所述关键词相似度大于阈值的候选变种实体名称作为所述目标变种实体名称。
5.根据权利要求1所述的方法,在将所述目标原生实体名称作为所述待识别变种文件名的识别结果之后,所述方法还包括:
确定所述待识别变种文件名标识的文件的信息摘要值;
将所述待识别变种文件名记录到所述信息摘要值对应的文件描述数据中,并统计所述文件描述数据中相同文件名出现的次数;其中,内容相同但文件名不同的文件具有相同的信息摘要值。
6.根据权利要求5所述的方法,在确定待识别变种文件名包括的关键词之前,所述方法还包括:
获取待识别变种文件名标识的文件的信息摘要值;
判断所述信息摘要值对应的文件描述数据中,相同文件名出现的次数是否达到预设阈值;
若是,则将所述相同文件名关联的实体名称作为所述待识别变种文件名的识别结果。
7.根据权利要求1-6任一项所述的方法,其中所述待识别变种文件名为网盘中影视文件的变种文件名。
8.一种实体名称识别装置,包括:
关键词确定模块,用于确定待识别变种文件名包括的关键词;
匹配模块,用于将所述关键词,与候选原生实体名称和候选变种实体名称之间的关联关系中的候选变种实体名称进行匹配,得到目标变种实体名称,以及与所述目标变种实体名称关联的目标原生实体名称;
第一识别结果确定模块,用于将所述目标原生实体名称作为所述待识别变种文件名的识别结果,并建立所述目标原生实体名称与所述待识别变种文件名之间的关联关系。
9.根据权利要求8所述的装置,包括第一关联关系构建模块,用于:
确定候选原生实体名称所包括的单个字、以及单个字的拼音首字母和全拼音;
基于预设的变种规则,根据候选原生实体名称所包括的单个字、以及单个字的拼音首字母和全拼音,生成至少一个候选变种实体名称;
建立所述候选原生实体名称和所述候选变种实体名称之间的关联关系。
10.根据权利要求8所述的装置,其中,关键词确定模块具体用于:
根据文件名的命名规则,使用正则表达式清洗所述待识别变种文件名中的无意义词,得到所述关键词。
11.根据权利要求8所述的装置,其中,匹配模块具体用于:
将所述关键词,依次与候选原生实体名称和候选变种实体名称之间的关联关系中的候选变种实体名称进行相似度计算,并将与所述关键词相似度大于阈值的候选变种实体名称作为所述目标变种实体名称。
12.根据权利要求8所述的装置,所述装置还包括:
第一信息摘要值确定模块,用于确定所述待识别变种文件名标识的文件的信息摘要值;
记录模块,用于将所述待识别变种文件名记录到所述信息摘要值对应的文件描述数据中,并统计所述文件描述数据中相同文件名出现的次数;其中,内容相同但文件名不同的文件具有相同的信息摘要值。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论