(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 102184169 A (43)申请公布日 2011.09.14 | ||
(21)申请号 CN201110099437.1
(22)申请日 2011.04.20
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号百度大厦2层
(72)发明人 何径舟 字符串长度判断
(74)专利代理机构 北京汉昊知识产权代理事务所(普通合伙)
代理人 罗朋
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
用于确定字符串信息间相似度信息的方法、装置和设备 | |
(57)摘要
本发明提供一种用于基于多种类型来确定字符串信息间相似度信息的方法、装置和设备。根据本发明的方案通过获取待处理的两个字符串信息,并根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。与现有技术相比,本发明具有以下优点:能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/或字义等方面的相似度,所得的相似度判断结果更为准确。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1.一种计算机实现的用于基于多种类型来确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤:
a获取待处理的两个字符串信息;
b根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
2.根据权利要求1所述的方法,其中,该方法还包括以下步骤:
i获取所述至少两种类型中每种类型所对应的权重信息;
其中,所述步骤b还包括:
-根据所述基于所述两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息。
3.根据权利要求2所述的方法,其中,所述步骤i还包括以下步骤:
i1获取所述最终相似度信息的应用环境信息;
i2根据所述应用环境信息,确定所述每种类型所对应的权重信息。
4.根据权利要求3所述的方法,其中,所述步骤i2还包括以下步骤:
-根据所述应用环境信息,由所有类型中选择所述至少两种类型;
-根据所述应用环境信息,获取所选择的所述至少两种类型中每种类型所对应的权重信息。
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤b还包括以下步骤:
b1对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息
包含的多个子串信息;
b2根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
6.根据权利要求5所述的方法,其中,所述步骤b2还包括以下步骤:
-获取所述包含于一个字符串信息中的所有子串信息与包含于另一个字符串信息中的所有子串信息间所有的匹配组合方式;
-根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息;
-根据所述两个字符串信息间的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
7.根据权利要求5所述的方法,其中,所述步骤b2还包括以下步骤:
b21由所述两个字符串信息中获取当前子串组合对信息;
b22获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息;
b23根据所述待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信息;
b24将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,重复步骤b21至步骤b23以及前述将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一的步骤直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。
8.根据权利要求5至7中任一项所述的方法,其中,该方法还包括以下步骤:
-获取所述两个字符串信息间至少一种类型的整体相似度信息;
其中,所述步骤b2还包括以下步骤:
-根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一
个或多个子串信息间至少两种类型的相似度信息,并结合所述至少一种类型的整体相似度信息,确定所述两个字符串信息间的最终相似度信息。
9.根据权利要求1至8中任一项所述的方法,其中,所述至少两种类型包括以下各项中的任意至少两种:
-编辑距离类型;
-读音类型;
-同义词匹配类型;
-短文本扩展类型;
-字符串特征向量类型;
-主题分布类型。
10.根据权利要求9所述的方法,其中,所述至少两种类型包括编辑距离类型,其中,该方法还包括以下步骤:
-根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间编辑距离类型的相似度信息。
11.根据权利要求9或10所述的方法,其中,所述至少两种类型包括字符串特征向量类型,其中,该方法还包括以下步骤:
-根据分别基于所述两个字符串信息的检索结果来获得的两个字符串特征向量,确定所述两个字符串信息间的字符串特征向量类型的相似度信息。
12.根据权利要求9至11中任一项所述的方法,其中,所述至少两种类型包括主题分布类型,该方法还包括以下步骤:
-根据分别与所述两个字符串信息相关的多个资源信息的主题,确定所述两个字符串信息间的主题分布类型的相似度信息。
13.一种用于确定字符串信息间相似度信息的相似度确定装置,其中,该相似度确定装置包括:
第一获取装置、用于获取待处理的两个字符串信息;
第一确定装置、用于根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
14.根据权利要求13所述的相似度确定装置,其中,该相似度确定装置还包括:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论