专利名称:一种位置编码单次随机置换哈希度量文档相似度的方法
专利类型:发明专利
发明人:袁鑫攀,王松林,毛鑫鑫
申请号:CN202010235463.1
申请日:20200330
公开号:CN111444325A
公开日:
20200724
字符串数组怎么转成byte专利内容由知识产权出版社提供
摘要:一种位置编码单次随机置换哈希度量文档相似度的方法,属于信息检索中查相似文本领域,包括如下步骤:S1,初步提取文本特征,生成单次随机置换哈希集合O;S2,进一步提取文本特征,生成单次随机置换的位置编码哈希集合P:遍历S1中集合O中的非空区,将非空区的序号作为key,哈希值作为value,混合编码生成结构为<k,v>的键值对,形成集合P;S3:相似性度量:遍历P、P中所有键值对,根据相似度比较两文档a、b的相似度。本发明计算精度高,与OPH保持一致;随着空区数量的增加,POPH度量文档相似度的方法既节约了计算时间又节省了存储空间。
申请人:湖南工业大学
地址:412000 湖南省株洲市天元区泰山西路88号
国籍:CN
代理机构:广州粤高专利商标代理有限公司
更多信息请下载全文后查看

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。