(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 110442684 A
(43)申请公布日 2019.11.12
(21)申请号 CN201910748469.6
(22)申请日 2019.08.14
(71)申请人 山东大学
    地址 250199山东省济南市历城区山大南路27号
(72)发明人 李玉军 韩均雷 王泽强 马宝森 张文真 邓媛洁
(74)专利代理机构 济南金迪知识产权代理有限公司
    代理人 许德山
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于文本内容的类案推荐方法
(57)摘要
      本发明涉及一种基于文本内容的类案推荐方法,该方法分为预训练部分和微调部分,预训练部分采用transformer编码器作为主结构,训练了一个中文语言模型,从其他语料库中学习中文语言知识,获得了一个高质量的语言模型。微调部分三元组模型为框架,以预处理过的司法文书为训练数据,从司法领域中学习到更多的关于判决的知识,获得了一个比较好的文本向量表示。与传统基于关键字的类案推荐方法和基于单任务神经网络的类案推荐方法相比,本发明提出的基于内容的类案推荐方法效果更好,基于语义训练模型具有更好的鲁棒性,这表明本发明提出的方法是有效的、实用的。
法律状态
正则匹配快代理
法律状态公告日
法律状态信息
法律状态
2021-11-26
专利权的转移
专利权的转移
2020-06-30
授权
授权
2020-05-12
著录事项变更
著录事项变更
2019-12-06
实质审查的生效
实质审查的生效
2019-11-12
公开
公开
权 利 要 求 说 明 书
1.一种基于内容的类案推荐方法,其特征在于,包括步骤如下:
(1)将非结构化数据构造成结构化数据:
利用规则匹配的方式抽取所需信息,实现数据结构化,构造成结构化数据集;所需信息包括犯罪事实描述与嫌疑人基本信息数据,嫌疑人基本信息数据包括年龄、性别、捕前职业信息;
将结构化数据集不重叠的划分为训练数据集和测试数据集,训练数据集和测试数据集的比例为7∶3,即训练数据集占结构化数据集的70%,测试数据集占结构化数据集的30%;
(2)模型预训练:
所述模型包括依次连接的词映射层、双向transformer层、向量压缩层、损失层、反向传播更新参数层,包括:
A、所述词映射层将输入的犯罪事实描述的每个词映射成固定维度的向量,每个词都有一个单独的向量表示;
B、将所述词映射层的输出输入所述双向transformer层,所述双向transformer将输入经过计算以更好的表达文本语义信息,输出的形式与输入一样;
C、将所述双向transformer层输出的特征向量输入所述向量压缩层,将所述双向transformer层输出的特征向量压缩成一维向量,该一维向量即为一个句子的语义表示;
D、将所述向量压缩层的输出输入所述损失层,该一维向量经过两层全连接神经网络转化为长度和数据标签一样形式的数据,计算输出与数据标签的误差;
E、所述反向传播更新参数层采用自适应梯度下降优化策略更新所述模型的参数;
(3)微调阶段:
将步骤(2)模型预训练完成得到的模型保存,丢弃所述损失层;重新设计下游模型,即添加合页误差计算层,将合页误差计算层添加在所述向量压缩层之后,以向量压缩层的输出为输入,输出为与数据标签的误差,所述合页误差计算层,采用合页损失函数计算合页误差,合页误差对于能够正确分类的样本不产生误差,对于未能正确分类的样本产生较大误差;下游模型采用三元组方式调整模型,三元组代表着使用基于对比的方式训练模型,每个输入是一个三元组,包括目标案例、相似案例1、相似案例2;目标案例、相似案
例1、相似案例2都是一段犯罪事实描述,包括:
若目标案例与相似案例1的相似度大于等于目标案例与相似案例2的相似度,则定义这种情况的标签为1;若目标案例与相似案例1的相似度小于目标案例与相似案例2的相似度,则定义这种情况的标签为0;
(4)测试阶段:
将步骤(3)微调阶段训练完成的模型保存,丢弃所述合页误差计算层,所述向量压缩层的输出为最终输出向量,该向量为样本最终表示向量;
加载步骤(3)中保存的模型,对测试数据集进行采样,获得测试所用数据,将测试所用数据输入模型,依次进行分词、词向量映射、神经网络前向传播计算,输出样本最终表示向量。
2.根据权利要求1所述的一种基于内容的类案推荐方法,其特征在于,所述步骤(2)中,对于所述向量压缩层的基础结构是self-attention结构,如式(I)、(II)所示:
A=Attention(Q,K,V)=sigmoid(Q<Sup>T</Sup>KV<Sup>T</Sup>)>
h<Sub>i</Sub>=Attention(QW<Sub>i</Sub><Sup>Q</Sup>,KW<Sub>i</Sub><Sup>K</Sup>,VW<S
ub>i</Sub><Sup>V</Sup>)>1,...,</Sub>h<Sub>n</Sub>)W<Sup>o</Sup>>k</Sub>代表矩阵中向量的长度;
式(IV)为式(III)的具体实施,h<Sub>i</Sub>代表执行一次式(III)所得的结果;
式(V)代表将式(IV)操作重复N遍,然后将得到的N个矩阵在最后一个维度上拼接在一起;Transformer(Q,K,V)为所述双向transformer层的最终输出;Concat()代表拼接操作,默认在矩阵的最后一个维度上操作;h<Sub>1,...,</Sub>h<Sub>n</Sub>代表操作了N次式(III)所得到的结果。
4.根据权利要求1所述的一种基于内容的类案推荐方法,其特征在于,所述步骤(3)中,对于合页误差计算层,采用合页损失函数计算合页误差,合页损失函数的计算公式如公式(VI)所示:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。