本技术公开一种元器件型号匹配方法,其包括以下步骤:步骤1:将用户输入的关键词根据预设的拆分规则进行拆分整理;步骤2:将拆分整理后的关键词使用ES在数据源中进行检索;步骤3:将ES的检索结果根据匹配度评分显示出来,将检索结果中大于预设匹配度评分的结果集合记为搜索匹配结果集,结束本次搜索。本申请针对现有技术中检索的速度受内存限制以及电器件检索结果的准确性问题,通过对数据源进行预先整理以提高检索速度和检索准确性,并建立了建立匹配度评分规则及筛选应用来优化检索结果。此外,本申请还提供了替换方案,在业界为首创,针对元器件的特殊属性特别的设计了匹配和替换过程,具有非常好的实用价值。
技术要求
1.一种元器件型号匹配方法,其特征在于:包括以下步骤:
步骤1:将用户输入的关键词根据预设的拆分规则进行拆分整理;
步骤2:将拆分整理后的关键词使用ES在数据源中进行检索;
步骤3:将ES的检索结果根据匹配度评分显示出来,将检索结果中大于预设匹配度评分的结果集合记为搜索匹配结果集,结束本次搜索。
2.根据权利要求1所述的元器件型号匹配方法,其特征在于:所述步骤3中,将ES的检索结果根据匹配度评分具体包括:
步骤31:根据常用搜索内容,归纳整理为不同的属性域;属性域至少包括型号域和参数域,型号域是通过对产品大型号、订货标记进行加工整理而成;参数域是通过对触点形式、引出端方式参数进行加工整理而成;
步骤32:针对型号域及参数域,根据预设策略进行权重比例设置,权重比例预设为:型
号域>参数域>其他域,其他域是属性域中除了型号域和参数域的域;预设策略如下:当
检索的属性是型号类,则权重比例设为:型号域>参数域>其他域,将满足条件的优先排
到最前端;当检索的属性是参数类,则权重比例设为:参数域>型号域>其他域,将满足
条件的排到前端;当检索的属性是其他域,则自动根据所有文档计算出评分;
步骤33:接收用户的关键字,如果关键字是系统的建议词,则执行步骤331;如果关键字是用户自定义的关键字,则步骤332:
步骤331:获取该建议词及所属的维度,直接完全匹配建议词,精确得出检索结果;
步骤332:根据正则表达式,判断该关键字的类型是字母、数字还是汉字,如果关键字的类型是字母或数字,则根据步骤32中的型号域权重比例,优先检索匹配型号域,根据相似性算法算出的评分+权重比例分数,获取匹配评分;其中,权重比例分数=(权重/比例基数)*评分,权重和比例基数均为自定义数值;
如果关键字的类型是汉字,则根据步骤32中的参数域权重比例,优先检索匹配参数域,根据相似性算法算出的评分+权重比例分数,获取匹配评分;
再对其他查询源做模糊搜索,根据相似性算法算出评分。
3.根据权利要求1或2所述的元器件型号匹配方法,其特征在于:该搜索、匹配方法还包括对步骤3得到的搜索匹配结果集进一步做二次筛选的步骤4,该步骤4包括如下过程:
获取用户选择的条件项,非图像的条件项根据相似性算法得到条件项值,图像的条件项扫描后根据图像相似度算法得到条件项值,将条件项值在搜索匹配结果集中进行检索匹配,得出各条件项值对应匹配的二次搜索匹配结果集,再将各二次搜索匹配结果集进行交集计算,得出最终交集部分,即为最终检索匹配结果集,结束本次搜索。
4.根据权利要求3所述的元器件型号匹配方法,其特征在于:所述步骤4中,所述的条件项是根据元器件本身的特点定义的筛选项,筛选项包括脚位数、触点形式、线圈电压、额定负载、引出端方式和脚位图等。
5.根据权利要求1或2所述的元器件型号匹配方法,其特征在于:所述步骤1中的拆分规则如下:
设置预设规则,根据元器件本身编码的特点,预设置数字不拆分、字母拆分重组;
设置自定义拆分词,根据元器件的属性归纳关键词;
设置自定义拆分词,根据大数据分析搜索热词,归纳常用搜索关键字;判断关键词是否有空格或其他特殊符号:
如果没有则执行检索;
如果有包含空格或其他特殊符号,则去除空格或其他特殊符号组成新的关键词,然后执行检索。正则匹配所有汉字
6.根据权利要求5所述的元器件型号匹配方法,其特征在于:步骤2还包括在检索之前对数据源进行预先整理的步骤;
对数据源进行预先整理,具体包括:预先将描述同一元器件的属性一致化,使相同含义的值具有统一的形式;预先将元器件的有关数值的属性按比例投射到特定小范围之中,以消除数值型属性因大小不一而造成检索结果的偏差。
7.根据权利要求1所述的元器件型号匹配方法,其特征在于:该匹配方法还包括替换步骤,该替换步骤包括:
步骤51:将用户输入的关键词使用ES在数据源中进行检索,根据相似性算法检索完全匹配确认录入的型号;
步骤52:根据检索结果确认唯一产品,获取唯一产品的脚位图及替换必要参数,先根据脚位图搜索对比出相同脚位图的型号产品信息结果集,再根据替换必要参数到结果集进行检索匹配而得到型号产品信息结果集A;将确认后的具体型号,传输到ES上的型号维护对照中检索可匹配的型号信息结果集B;结果集A与结果集B去重后,则为可匹配的结果集。
8.根据权利要求7所述的电器件型号的替换方法,其特征在于:
所述步骤51具体包括:获取到关键字的脚位图,即以当前脚位图作为检索图,根据SIFT 算法,获取匹配度高的脚位图,提取出来记录成脚位图集,再根据脚位图集去获取出可匹配的产品型号信息集。
9.根据权利要求8所述的电器件型号的替换方法,其特征在于:步骤51中根据脚位图集去获取出可匹配的产品型号信息集具体包括:获取检索型号及其他可匹配的产品型号的脚位数,根据公式检索型号脚位数<=可匹配产品型号脚位数,剔除检索型号脚位数>可匹配产品型号脚位数的产品型号,获取可匹配的产品型号信息集。
10.根据权利要求8所述的电器件型号的替换方法,其特征在于:步骤52中,针对可匹配的结果集,还执行如下操作:获取检索型号及其他可匹配的产品型号的外形尺寸,转换成统一单位,再用检索型号与其他可匹配的产品型号的外形尺寸做差异计算,当公差满足预设区间时,视为在匹配范围内,在这个范围外,则视不可匹配。
技术说明书
一种元器件型号匹配方法
技术领域
本技术涉及计算机软件开发技术领域,具体是一种元器件型号搜索、匹配及替换方法。背景技术
Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,是建立在全文搜索引擎Apache Lucene(TM)基础上的搜索引
擎,Elasticsearch不仅包括了全文搜索功能,还可以进行以下工作:分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索;实时分析的分布式搜索引擎;可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。目前国内常见的搜索引擎例如百度(在casio、云分析、网盟、预测、文库、直达号、钱包、风控等业务上都应用了ES,单集每天导入30TB+数据,总共每天60TB+)、新浪(见大数据架构--log)、阿里巴巴、腾讯等公司均有对ES的使用。
然而ES的搜索引擎是严重的依赖底层的filesystem cache,如果引擎所分配的内存不够,无法容纳所有的index segment file索引数据文件,则会大大影响检索速度;同时,在现有的电子领域的元器件型号搜索中,一般是完全基于相似性的算法来检索,这种搜索方案会导致忽略重要因素,过分注重字符数多的文本内容,大大影响了检索的准确性,导致用户在一大串检索结果里面很难到想要的产品,且用户可能并不熟悉所有品牌产品但因成本等因素想搜索可替换的产品,也难以有效搜索到。
技术内容
在下文中给出了关于本技术实施例的简要概述,以便提供关于本技术的某些方面的基本理解。应当理解,以下概述并不是关于本技术的穷举性概述。它并不是意图确定本技术的关键或重要部分,也不是意图限定本技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本申请的一个方面,为克服直接基于相似性算法得出的检索结果而产生的难到真正想搜索内容的问题,提供一种元器件型号匹配方法,包括:
步骤1:将用户输入的关键词根据预设的拆分规则进行拆分整理;
步骤2:将拆分整理后的关键词使用ES(分布式全文搜索引擎ElasticSearch,简称ES)在数据源中进行检索;
步骤3:将ES的检索结果根据匹配度评分显示出来(可以按降序由高到低的排序),将检索结果中大于预设匹配度评分的结果集合记为搜索匹配结果集,结束本次搜索。
其中,检索匹配度评分规则如下:
步骤31:根据常用搜索内容,归纳整理成属性域,属性域至少包括型号域和参数域,其中,型号域是通过对产品大型号、订货标记进行加工整理而生成;参数域是通过对如触点形式、引出端方式等关键参数进行加工整理而生成;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论