(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 102819524 A
(43)申请公布日 2012.12.12
(21)申请号 CN201110265973.4
(22)申请日 2011.09.08
(71)申请人 金蝶软件(中国)有限公司
    地址 518057 广东省深圳市南山区深南大道市高新技术工业村W1-B4
(72)发明人 阳荣
(74)专利代理机构 深圳市世纪恒程知识产权代理事务所
    代理人 胡海国
(51)Int.CI
      G06F17/27
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      基于关键字的字符序列分割方法及装置
(57)摘要
      本发明涉及一种基于关键字的字符序列分割方法及装置,其方法包括:加载关键字,并建立关键字列表;根据关键字列表中关键字属性的优先级对关键字进行排序;依据排序结果,以关键字为最小分割单位,通过预定的分词算法对字符序列进行分割。本发明通过定义关键字的优先级,建立关键字列表,以关键字列表中各关键字的优先级排列顺序,同时以关键字为最小分割单位,按照预定的分词算法对字符序列进行分割,提高了分词准确率及新词识别能力,避免了分词歧义,可以满足公式、函数校验、解析等对分词要求严格的应用场景。
法律状态
法律状态公告日
法律状态信息
法律状态
2015-06-03
授权
授权
2013-01-30
实质审查的生效
实质审查的生效
2012-12-12
公开
公开
权 利 要 求 说 明 书
1.一种基于关键字的字符序列分割方法,其特征在于,包括以下步骤:           
加载关键字,并建立关键字列表;           
根据所述关键字列表中关键字属性的优先级对所述关键字进行排序;           
依据排序结果,以所述关键字为最小分割单位,通过预定的分词算法对            字符序列进行分割。           
2.根据权利要求1所述的方法,其特征在于,所述依据排序结果,以所            述关键字为最小分割单位,通过预定的分词算法对字符序列进行分割的步骤            包括:           
将字符序列作为整段压入栈中;           
根据排序优先级从关键字列表中取出关键字;           
获取所述关键字在所述字符序列中的位置索引号;           
根据所述位置索引号对所述字符序列进行分割。           
3.根据权利要求2所述的方法,其特征在于,所述根据位置索引号对所            述字符序列进行分割的步骤包括:           
当所述位置索引号等于第一预定值时,将所述关键字作为分段压入所述            临时栈中;           
若所述关键字后面还存在内容,则将所述关键字后面的内容作为分段压            入所述临时栈中;           
将所述临时栈中的各分段内容依次压入所述栈中;           
从所述关键字列表中取出下一级关键字,并根据所述下一级关键字分别            对所述栈中的各分段进行分割,直至所述关键字列表被取空。           
4.根据权利要求3所述的方法,其特征在于,所述将关键字作为分段压            入所述临时栈中的步骤之前还包括:           
当所述位置索引号大于第一预定值时,将所述整段中位于所述关键字前            面的内容作为分段压入临时栈中。           
5.根据权利要求3所述的方法,其特征在于,所述将临时栈中的各分段            内容依次压入所述栈中的步骤之前还包括:           
当所述位置索引号等于第二预定值时,将所述整段压入所述临时栈中。           
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述关键字包            括自定义关键字及预定义关键字。           
7.一种基于关键字的字符序列分割装置,其特征在于,包括:           
关键字列表建立模块,用于加载关键字,并建立关键字列表;           
关键字排序模块,用于根据所述关键字列表中关键字属性的优先级对所            述关键字进行排序;           
oracle切割字符串函数
字符序列分割模块,用于依据排序结果,以所述关键字为最小分割单位,            通过预定的分词算法对字符序列进行分割。           
8.根据权利要求7所述的装置,其特征在于,所述字符序列分割模块包            括:           
整段压入单元,用于将字符序列作为整段压入栈中;           
取出单元,用于根据排序优先级从关键字列表中取出关键字;           

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。