(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 108334500 A (43)申请公布日 2018.07.27 | ||
(21)申请号 CN201810178639.7
(22)申请日 2018.03.05
(71)申请人 上海思贤信息技术股份有限公司
地址 201207 上海市浦东新区自由贸易试验区芳春路400号1幢301-20室
(72)发明人 金耀辉 姜华 李慧 王永坤
(74)专利代理机构 上海旭诚知识产权代理有限公司
代理人 郑立
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种基于机器学习算法的裁判文书标注方法及装置 | |
(57)摘要
本发明公开了一种基于机器学习算法的裁判文书标注方法及装置。该方法包括:采集待标注的裁判文书的文本集合;对所述文本集合中的文本进行结构分割;建立语义标签库;基于语义标签库对所述待标注的裁判文书进行人工标注;选取部分人工标注的裁判文书作为标准数据集合交由机器学习,训练和优化初步标注模型;选取剩余部分人工标注的裁判文书样本作为校验数据集合,用于完善所述语义标签库,并对所述初步标注模型进行迭代和优化,得到成熟的裁判文书标注模型;将目标待标注的裁判文书进行结构分割后输入所述成熟的裁判文书标注模型,得到标注结果。通过本发明,解决了相关技术中裁判文书法律要素提取不完整和案件信息提取准确度低的问题。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2022-02-22 | 授权 | 授权 |
2018-08-21 | 实质审查的生效 | 实质审查的生效 |
2018-07-27 | 公开 | 公开 |
2022-07-01 | 专利权人的姓名或者名称、地址的变更IPC(主分类):G06F40/30专利号:ZL2018101786397变更事项:专利权人变更前:上海思贤信息技术股份有限公司变更后:江西思贤数据科技有限公司变更事项:地址变更前:201207 上海市浦东新区自由贸易试验区芳春路400号1幢301-20室变更后:330038 江西省南昌市红谷滩区九龙大道1388号绿地国际博览城JLH603-D03地块2#商业办公楼606室 | 专利权人的姓名或者名称、地址的变更 |
权 利 要 求 说 明 书
1.一种基于机器学习算法的裁判文书标注方法,其特征在于,包括以下步骤:
正则匹配法律条文步骤S101:采集待标注的裁判文书的文本集合;
步骤S102:基于预设正则集合,将所述文本集合中的各个文本进行结构分割;
步骤S103:将步骤S102处理过的所述文本集合分为标准数据集合和校验文书集合;
步骤S104:建立语义标签库,所述语义标签库包括通用标签、案由标签、同义词标签;
步骤S105:基于所述语义标签库,人工标注所述标准数据集合中的各个文书,形成标准裁判文书标注样式;
步骤S106:将步骤S105处理过的所述标准数据集合分为训练集和测试集;
步骤S107:采用机器学习算法,将所述训练集交由机器学习,训练机器自动标注模型;
步骤S108:将所述测试集交由步骤S107输出的所述机器自动标注模型进行自动标注,根据标注结果的覆盖度和置信度不断调整所述机器学习算法,形成初步标注模型;
步骤S109:使用所述初步标注模型对步骤103输出的所述校验文书集合进行自动标注;
步骤S110:对步骤S108输出的自动标注结果进行随机抽样,作为校验样本;
步骤S111:对所述校验样本进行人工校验,补充和完善所述语义标签库;同时调整算法,重复步骤S108至步骤S111,对所述初步标注模型进行迭代优化,最终得到成熟的裁判文书标注模型;
步骤S112:将目标待标注的裁判文书重复步骤S102后输入所述成熟的裁判文书标注模型,按照所述语义标签库的标签映射和所述成熟的裁判文书标注模型匹配,得到所述目标待标注的裁判文书的标注结果。
2.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S101中,所述待标注的裁判文书的文本包含多个自然段落。
3.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S102包括以下步骤:
步骤S201:将所述文本集合中的每个文本进行分行处理,得到每个文本对应的文书行集合;
步骤S202:根据预设正则集合和所述文书行集合中每个文书行对应的段落标识,将所述文本分割为“标题、头部、当事人情况、审理经过、原告诉请、被告辩称、证据事实、判决理由、引用条文与判决正文、尾部”十
个部分。
4.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S103中,所述标准数据集合的选取方法为:由法律专业人士针对不同案由,各选取至少100篇裁判文书作为所述标准数据集合。
5.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S104中,建立所述语义标签库的方法如下:
通过人工阅读裁判文书中的“引用条文和判决正文”部分,对表示法院态度的标签词进行归纳整理形成所述通用标签;
通过人工根据不同案由以及裁判文书对案件要素的论述,以动宾短语或名词词组的形式归纳整理,形成各个案由对应的所述案由标签,所述案由标签包括诉请标签、事实标签、证据标签;
通过人工方式,对案件表述相似或相同的用语表达进行归纳整理,形成所述同义词标签。
6.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤S106中人工标注的方法为:人工阅读所述标准数据集合中各个文书,将所述文书的分割部分与所述语义标签库中的标签进行对应匹配并标注,形成标准裁判文书标注样式。
7.如权利要求1所述的基于机器学习算法的裁判文书标注方法,其特征在于,步骤107中所述机器学习算法采用以下任一项算法:随机森林算法、支持向量机算法、逻辑回归算法、贝叶斯分类器和神经网络算法。
8.一种基于机器学习算法的裁判文书标注装置,其特征在于,所述裁判文书标注装置包括:
裁判文书分割模块,用于将待标注的裁判文书的文本进行结构分割;
标签库整理模块,用于建立语义标签库;
标准数据集模块,用于人工抽取裁判文书并标注,为机器学习提供数据样本;
标注模型模块,用于将所述数据样本通过机器学习算法训练和测试,得到裁判文书标注模型;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论