(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 112966708 A
(43)申请公布日 2021.06.15
(21)申请号 CN202110112286.2
(22)申请日 2021.01.27
(71)申请人 中国人民解放军陆军工程大学
    地址 210007 江苏省南京市秦淮区后标营88号
(72)发明人 黄松 陈浩 史涯晴 郑长友 王梅娟 吴开舜 刘语婵 骆润
(74)专利代理机构 32224 南京纵横知识产权代理有限公司
    代理人 董建林
(51)Int.CI
      G06K9/62(20060101)
      G06F11/36(20060101)
      G06F40/30(20200101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于语义相似度的中文众包测试报告聚类方法
(57)摘要
      本发明公开了一种基于语义相似度的中文众包测试报告聚类方法,包括:输入中文测试报告集,剔除无效测试报告,并将有效测试报告进行分句处理,得到测试报告句子对数据集;构建测试报告句子对训练集对语义相似度模型进行训练,得到语义相似度计算模型;将测试报告句子对数据集输入至语义相似度计算模型中进行语义相似度计算,得到测试报告相似度矩阵;设置测试项目预期的bug数量,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇;根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分Top‑5的测试报告作为最终输出结果。提高了众包测试平台测试报告审查自动化流程,有效提升了测试报告审查效率。
法律状态
法律状态公告日
法律状态信息
法律状态
2021-06-15
公开
公开
2021-07-02
实质审查的生效
实质审查的生效
正则匹配省
权 利 要 求 说 明 书
1.一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,包括:
输入中文测试报告集,剔除无效测试报告,并将有效测试报告进行分句处理,得到测试报告句子对数据集;
利用测试报告句子对训练集对语义相似度模型进行训练,得到语义相似度计算模型;
将测试报告句子对数据集输入至语义相似度计算模型中进行语义相似度计算,得到测试报告相似度矩阵;
设置测试项目预期的bug数量,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇;
根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分大于设定阈值的测试报告作为最终输出结果。
2.根据权利要求1所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,输入中文测试报告集,剔除无效测试报告的方法包括:
若中文测试报告中测试用例字段或者结果描述字段缺失,视为无效报告;
由正则表达式“(测试|执行|实施)+(通过|正常|无误|成功)+”匹配到测试报告视为无效报告;
由正则表达式“(没有|未|无|没)(发现|检测|检查)?(任何|一个|几个)?(错误|缺陷|bug|漏洞|问题)+”匹配到测试报告视为无效报告;
由正则表达式“(无|pass|ok)$”匹配到测试报告视为无效报告。
3.根据权利要求1所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,将有效测试报告进行分句处理包括:
使用正则表达式对有效测试报告的测试用例描述和结果描述字段进行分句。
4.根据权利要求3所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,句子划分的正则表达式为:
单句结束符:如果被单句正则表达式“([。!?;\?])([^”’])”切分,视为一个完整句子;
英文省略符:如果被英文省略号正则表达式“(\.{6})([^”’;]”切分,视为一个完整句子;
中文省略符:如果被中文省略号正则表达式“(\...{2})([^”’])”切分,视为一个完整句子;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。