(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 102819524 A (43)申请公布日 2012.12.12 | ||
(21)申请号 CN201110265973.4
(22)申请日 2011.09.08
(71)申请人 金蝶软件(中国)有限公司
地址 518057 广东省深圳市南山区深南大道市高新技术工业村W1-B4
(72)发明人 阳荣
(74)专利代理机构 深圳市世纪恒程知识产权代理事务所
代理人 胡海国
(51)Int.CI
G06F17/27
权利要求说明书 说明书 幅图 |
(54)发明名称
基于关键字的字符序列分割方法及装置 | |
(57)摘要
本发明涉及一种基于关键字的字符序列分割方法及装置,其方法包括:加载关键字,并建立关键字列表;根据关键字列表中关键字属性的优先级对关键字进行排序;依据排序结果,以关键字为最小分割单位,通过预定的分词算法对字符序列进行分割。本发明通过定义关键字的优先级,建立关键字列表,以关键字列表中各关键字的优先级排列顺序,同时以关键字为最小分割单位,按照预定的分词算法对字符序列进行分割,提高了分词准确率及新词识别能力,避免了分词歧义,可以满足公式、函数校验、解析等对分词要求严格的应用场景。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2015-06-03 | 授权 | 授权 |
2013-01-30 | 实质审查的生效 | 实质审查的生效 |
2012-12-12 | 公开 | 公开 |
权 利 要 求 说 明 书
1.一种基于关键字的字符序列分割方法,其特征在于,包括以下步骤:
加载关键字,并建立关键字列表;
根据所述关键字列表中关键字属性的优先级对所述关键字进行排序;
依据排序结果,以所述关键字为最小分割单位,通过预定的分词算法对 字符序列进行分割。
2.根据权利要求1所述的方法,其特征在于,所述依据排序结果,以所 述关键字为最小分割单位,通过预定的分词算法对字符序列进行分割的步骤 包括:
将字符序列作为整段压入栈中;
根据排序优先级从关键字列表中取出关键字;
获取所述关键字在所述字符序列中的位置索引号;
根据所述位置索引号对所述字符序列进行分割。
3.根据权利要求2所述的方法,其特征在于,所述根据位置索引号对所 述字符序列进行分割的步骤包括:
当所述位置索引号等于第一预定值时,将所述关键字作为分段压入所述 临时栈中;
若所述关键字后面还存在内容,则将所述关键字后面的内容作为分段压 入所述临时栈中;
将所述临时栈中的各分段内容依次压入所述栈中;
从所述关键字列表中取出下一级关键字,并根据所述下一级关键字分别 对所述栈中的各分段进行分割,直至所述关键字列表被取空。
4.根据权利要求3所述的方法,其特征在于,所述将关键字作为分段压 入所述临时栈中的步骤之前还包括:
当所述位置索引号大于第一预定值时,将所述整段中位于所述关键字前 面的内容作为分段压入临时栈中。
5.根据权利要求3所述的方法,其特征在于,所述将临时栈中的各分段 内容依次压入所述栈中的步骤之前还包括:
当所述位置索引号等于第二预定值时,将所述整段压入所述临时栈中。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述关键字包 括自定义关键字及预定义关键字。
7.一种基于关键字的字符序列分割装置,其特征在于,包括:
关键字列表建立模块,用于加载关键字,并建立关键字列表;
关键字排序模块,用于根据所述关键字列表中关键字属性的优先级对所 述关键字进行排序;
oracle切割字符串函数字符序列分割模块,用于依据排序结果,以所述关键字为最小分割单位, 通过预定的分词算法对字符序列进行分割。
8.根据权利要求7所述的装置,其特征在于,所述字符序列分割模块包 括:
整段压入单元,用于将字符序列作为整段压入栈中;
取出单元,用于根据排序优先级从关键字列表中取出关键字;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论