(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 1920827 A
(43)申请公布日 2007.02.28
(21)申请号 CN200610111562.9
(22)申请日 2006.08.23
(71)申请人 北京搜狗科技发展有限公司
    地址 100084 北京市海淀区中关村东路1号院威新国际大厦9层01房间
(72)发明人 郭奇 佟子健 杨磊
(74)专利代理机构 北京集佳知识产权代理有限公司
    代理人 逯长明
(51)Int.CI
      G06F17/30
      G06F3/023
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      获取新编码字符串的方法及输入法系统、词库生成装置
(57)摘要
字符串转数组编码方式
      本发明公开了一种获取输入法字词的新编码字符串的方法,包括:提取用户在输入过程中所选择的字词,以及用户输入的编码字符串;将用户所选字词、用户输入的编码字符串与现有词库进行比对,所述现有词库中存储有现有字词及其相应的编码字符串;根据预置规则,确定字词相应的新编码字符串。本发明从用户输入的角度提供解决方案,能够及时的、较为全面的获悉用户在输入过程中的使用的新编码字符串,包括反映用户的方言习惯的新编码字符串,以及未知的、无法想象到的,但是用户经常使用的新编码字符串,进而提高首选词的准确率。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1、一种获取输入法字词的新编码字符串的方法,其特征在于,包括:
提取用户在输入过程中所选择的字词,以及用户输入的编码字符串;
将用户所选字词、用户输入的编码字符串与现有词库进行比对,所述现有词库中存储有现有字词及其相应的编码字符串;
根据预置规则,确定字词相应的新编码字符串。
2、如权利要求1所述的方法,其特征在于,还包括:
将用户所选字词、用户输入的编码字符串记录至用户词库;
并在用户输入过程中,记录用户词频至用户词库,所述用户词频为用户输入该字词及其相应编码字符串的频率信息。
3、如权利要求2所述的方法,其特征在于,还包括:
根据用户输入的当前应用程序,分别加以相应的权重修正后统计词频信息,得到用户词频。
4、如权利要求2所述的方法,其特征在于,还包括:
收集各个用户的具有新编码字符串的字词记录,所述记录包括该字词、相应的新编码字符串以及相应的词频信息;
去除重复的字词记录。
5、如权利要求4所述的方法,其特征在于,还包括:
计算用户累积词频;
去除用户累积词频小于或者等于预置阈值的编码字符串。
6、如权利要求4或5所述的方法,其特征在于,还包括:
统计过滤后的字词记录中的字词在预置的互联网页面数据库中出现的次数,得到互联网词频。
7、如权利要求6所述的方法,其特征在于,还包括:
比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频,根据比较结果,分配其互联网词频至该字词的两个或者多个相应编码字符串。
8、如权利要求7所述的方法,其特征在于,还包括:
根据过滤后的字词记录生成新词库或者将过滤后的字词记录添加至原有词库,得到新词库或者新版的全词库。
9、如权利要求8所述的方法,其特征在于,
所述收集的信息还包括用户所在的区域信息,将用户划分为若干区域;
针对每个区域进行过滤步骤;
针对每个区域生成区域新词库或者新版的区域全词库。
10、如权利要求6所述的方法,其特征在于,通过以下步骤获得预置的互联网页面数据库:
对互联网页面进行权重赋值;
将权重值大于或者等于预置阈值的互联网页面存储至互联网页面数据库。
11、如权利要求4所述的方法,其特征在于,所述收集为:输入法计算设备实时或者定时的将用户的具有新编码字符串的字词记录发送至收集计算设备。
12、一种获取输入法字词的新编码字符串的方法,其特征在于,包括:
提取用户在输入过程中所选择的字词,以及用户输入的编码字符串,并存储至用户词库;
收集各个用户的用户词库;
对比所述收集的用户词库和输入法现有词库,所述系统词库中存储有字词及其相应的编码字符串;
根据预置规则,确定字词相应的新编码字符串。
13、如权利要求12所述的方法,其特征在于,还包括:
所述用户词库中还包括用户词频,所述用户词频为用户输入该字词及其相应编码字符串的频率信息;
计算用户累积词频;
去除用户累积词频小于或者等于预置阈值的编码字符串。
14、如权利要求13所述的方法,其特征在于,所述预置的规则为:
如果用户所选字词在现有词库中存在,但是用户输入的编码字符串与现有词库中存储的该字词相应的编码字符串不同,则确定用户输入的编码字符串为该字词相应的新编码字符串;
或者,如果用户所选字词及用户输入的编码字符串在现有词库中都存在,则进一步比较该字词相应的编码字符串的用户累积词频和系统词频,所述系统词频为在现有词库中预置的现有字词相应的词频信息,如果用户累积词频与系统词频的比值大于或者等于预定阈值,则确定
用户输入的编码字符串为该字词相应的新编码字符串。
15、如权利要求12或者14所述的方法,其特征在于,还包括:
统计具有新编码字符串的字词在预置的互联网页面数据库中出现的次数,得到互联网词频。
16、如权利要求15所述的方法,其特征在于,还包括:
比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频,根据比较结果,分配其互联网词频至该字词的两个或者多个相应编码字符串。
17、一种输入法系统,包括输入接口单元、显示单元以及系统词库,其特征在于,还包括:
字词提取单元,与输入法系统相连,用于提取用户在输入过程中所选择的字词,以及用户输入的编码字符串;
字词比对单元,与字词提取单元相连,用于将用户所选字词、用户输入的编码字符串与系统词库进行比对,所述系统词库中存储有字词及其相应的编码字符串;根据预置规则,确定字词相应的新编码字符串。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。