专利名称:字符串规划存贮索引查技术专利类型:发明专利
发明人:徐文新
申请号:CN200510111376.0
申请日:20051212
公开号:CN1983249A
公开日:
20070620
专利内容由知识产权出版社提供
摘要:本发明是一种字符串存贮、索引、模糊检索技术。首先对数据库字符串按字符元进行统计分析,并根据数据库状况决定标记方案。按标记位值V建立索引表,若按标记位值V聚集存贮后建立索引表则性能更好,称为双表处理;也可将数据库,按标记位值V重新组织存贮,即单表处理。检索时,先对检索关键词进行标记,取得位值V:双表处理,以V与索引表中的标记位值V进行位比较,按符合位比较条件的标记位值V,在句型数据库中查V,或W,对查到的记录,按需要,与检索关键词进行W位值比较、质数代换整除或通常的字符串模糊匹配等处理;单表处理,以V与表中的标记位值V进行位比较,对符合位比较条件的V的各字符串字段D或其对应的信息字段F、W,按需要,与检索关键词进行通常的字符串模糊匹配、质数代换整除、W位值比较等处理。在CPU赛扬800Hz,内存256M,810主板,硬盘40G测试,检索每条字符串5个汉字、2,035,454条字符串、10,177,270个汉字的表,由于数据库不能全部读入内存,对于每个关键词,必须从硬盘读入部分数据,第一次响应时间为0.9秒,第二次以后,响应时间为0.14至0.18秒。在位标记字符串检索的速度上再提高了一个数量级,可用于自然语言处理中快速查参考句型,其它方面的字符串模糊检索也可以应用。
申请人:徐文新
地址:200433 上海市杨浦区邯郸路220号复旦大学中文系博士后流动站博士后信箱
php 数组字符串转数组国籍:CN
更多信息请下载全文后查看
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论