专利名称:对含四字节字符的文本进行全文检索的方法专利类型:发明专利
发明人:赵锋,王宏源
申请号:CN200510011824.X
申请日:20050531
公开号:CN1694092A
公开日:
字符串长度和字节
20051109
专利内容由知识产权出版社提供
摘要:本发明提供了一种对含四字节字符的文本进行全文检索的方法,包括:首先在建立索引的时候,在文字流中采用逐个字符查验的方法判断将要建立索引的字符是否为四字节字符,如是四字节字符,将该单个的四字节字符作为索引单元加入倒排索引;如不是四字节字符,通过检索引擎常规的分词方式确定关键词,作为索引单元加入倒排索引。在检索的时候,首先在查询字串的文字流中采用逐个字符查验的方法判断待查询的字符是否为四字节字符,如是四字节字符,将该单个的四字节字符做为一个查询词;如不是四字节字符,通过检索引擎常规的分词方式确定关键词做查询词,所有的查询词集合送入检索引擎进行查询。本发明不会影响索引建置的速度和检索的速度。
申请人:王宏源
地址:100020 北京市朝阳区朝外小庄新街大院12号楼901室
国籍:CN
代理机构:北京君尚知识产权代理事务所
代理人:贾晓玲
更多信息请下载全文后查看
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论