(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 101477565 A
(43)申请公布日 2009.07.08
(21)申请号 CN200910076846.2
(22)申请日 2009.01.22
(71)申请人 北京搜狗科技发展有限公司
    地址 100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
(72)发明人 王勇
(74)专利代理机构 北京集佳知识产权代理有限公司
    代理人 逯长明
(51)Int.CI
      G06F17/30
字符串长度怎么判断
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      确定搜索引擎中输入字符串正确性的方法及装置
(57)摘要
      本发明公开了一种确定搜索引擎中输入字符串正确性的方法及装置,其中方法包括步骤:获取用户在搜索引擎中输入的输入字符串;利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含一一对应关系的查询词和该查询词的拼音串;判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。采用本发明,可解决现有方案判断不准确以及误判的问题。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1、一种确定搜索引擎中输入字符串正确性的方法,其特征在于,包括:
获取用户在搜索引擎中输入的输入字符串;
利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;
判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。
2、根据权利要求1所述方法,其特征在于,所述集合的预置过程为:
对查询日志中的查询词进行拼音标注;
计算所述查询词及其对应拼音串在查询日志中出现的次数;
计算所述查询词与其拼音串出现次数的比值;
保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系,构成所述集合。
3、根据权利要求1或2所述方法,其特征在于,如果确定所述输入字符串存在错误,还包括:
以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的判断结果是否正确。
4、根据权利要求3所述方法,其特征在于,所述利用对原始输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的结果是否正确的具体过程为:
对所述输入字符串进行分词,计算词的个数;
对利用所述集合中的查询词替换后的字符串进行分词,计算替换后的字符串中词的个数;
如果替换后的字符串中词的个数大于所述输入字符串中词的个数,则确定所述输入字符串的正确性判断结果是错误的,并将判断结果修改为所述输入串正确,否则,维持原来的判断结果。
5、一种确定搜索引擎中输入字符串正确性的装置,其特征在于,包括:
获取单元,用于获取用户在搜索引擎中输入的输入字符串;
查询单元,用于利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;
判断单元,用于判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。
6、根据权利要求5所述装置,其特征在于,还包括用于建立所述集合的集合建立单元,所述集合建立单元包括:
拼音标注子单元,用于对查询日志中的查询词进行拼音标注;
次数计算子单元,用于计算所述查询词及其对应拼音串在查询日志中出现的次数;
比值计算子单元,用于计算所述查询词与其拼音串出现次数的比值;
集合生成子单元,用于保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系,构成所述集合。
7、根据权利要求5或6所述装置,其特征在于,还包括:
验证单元,用于在确定所述输入字符串存在错误时,以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的字符串进行分词比较,以对判断结果进行验证。
8、根据权利要求7所述装置,其特征在于,所述验证单元包括:
个数计算子单元,用于对所述输入字符串进行分词,并计算输入字符串中词的个数;
替换词个数计算子单元,用于利用所述集合中查询词替换所述输入字符串对应位置的汉字,计算替换字符串中词的个数;
验证子单元,如果替换字符串中词的个数大于输入字符串中词的个数,则确定所述输入字符串正确性判断结果是错误的,将判断结果修改为所述输入字符串正确,否则,维持原来的判断结果。
说  明  书
技术领域
本发明涉及网络搜索引擎技术领域,尤其涉及一种确定搜索引擎中输入字符串正确性的方法及装置。
背景技术
据统计,用户在搜索引擎中输入的输入字符串有8%包含错误,比如将“图书馆”输入为“图书管”,此时,搜索引擎的查询纠错(Query Corrector,QC)模块会提示用户“您是不是要:图
书馆”。QC在运行时,首先是要判断输入字符串是否包含错误,如果输入是正确的,则不纠错,否则,才会进行纠错的步骤。
搜索引擎用户主要使用拼音输入法敲入输入字符串,因此错误的输入主要是同音错误,所以目前QC一般基于同音判断输入字符串的正确性。例如,用户输入的是“图书管”,现有QC会在查询日志库里检索所有发音是“tushuguan”的查询词及其查询次数,假设到“图书管”的查询次数为m,“图书馆”的查询次数为n,如果m/n数值很小,则认为输入字符串“图书管”是错误的,建议纠错为“图书馆”。
上述这种方案的局限在于需要计算整串输入字符串的查询次数。如果用户输入的是“北京市国家图书馆借书证办理方法”,很可能查询日志库里没有与之发音相同的查询词,就无法获知原始输入字符串是否正确。再者,如果仅凭其中的“图书管”就判断“北京市国家图书馆借书证办理方法”是错误的,那么用户输入的“图书管理系统”就会被误判为错误。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。