(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 112966525 A (43)申请公布日 2021.06.15 | ||
(21)申请号 CN202110349911.5
(22)申请日 2021.03.31
(71)申请人 上海大学
地址 200444 上海市宝山区上大路99号
(72)发明人 魏晓 谢伟
(74)专利代理机构 31205 上海上大专利事务所(普通合伙)
代理人 何文欣
(51)Int.CI
G06F40/30(20200101)
G06F16/906(20190101)
G06F16/951(20190101)
G06F40/211(20200101)
G06F40/284(20200101)
G06N3/04(20060101)
G06N3/08(20060101)
G06Q50/18(20120101)
权利要求说明书 说明书 幅图 |
(54)发明名称
一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
(57)摘要
本发明公开了一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,使用网络爬虫爬取公开法律文本语料,对原始语料进行文本预处理,获得可用的法律文本语料数据;获取法律领域的高频动词、关键名词,对词语进行聚类;构建原始法律事件知识库IE,在此基础上利用远程监督学习的方式实现法律事件语料数据的大规模自动标注;使用获得的大规模法律事件预料数据,实现基于NEZHA预训练语料模型和DMCNN卷积神经网络模型实现法律事件抽取系统。本发明通过基于远程监督学习的方式实现法律事件语料数据的大规模自动标注,利用预训练语言模型和卷积神经网络算法挖掘法律文本数据的深层语义信息,在法律事件抽取任务上的取得了较好的效果。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2021-08-06 | 实质审查的生效 | 实质审查的生效 |
2021-06-15 | 公开 | 公开 |
2023-02-10 | 授权 | 发明专利权授予 |
权 利 要 求 说 明 书
1.一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于,所述方法包括以下步骤:
A.数据获取、预处理:
使用网络爬虫爬取公开法律文本语料,对原始法律文本语料进行文本预处理,依次进行分句、分词、去噪,获得可用的法律文本语料数据;
B.法律事件模板定义:正则匹配一个或连续多个
获取法律领域的高频动词、关键名词,对这些词语进行基于距离的相近词聚类,人工根据聚类结果参考相关法律条款定义法律事件类型以及模板;
C.基于远程监督学习的大规模法律事件数据标注:
利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件,构建原始法律事件知识库IE;获取关键事件元素角,构建动词、名词触发词集;利用中文近义词表对触发词集进行拓展;利用远程监督学习的方式自动标注新的语料数据并加入法律事件知识库IE中;
D.基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统,法律事件检测任务以及法律事件论元抽取任务均使用该法律事件抽取系统,且两者的特征输入存在差别。
2.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:在所述步骤A中,获取可用的法律文本语料数据的具体步骤为:
A1.使用爬虫从法律文书网站爬取公开的法律文书数据;
A2.对获取的部分法律文书数据按照判罚的罪名进行人工分类,使用神经网络模型RCNN训练法律文书数据的罪名分类模型,对剩下的数据进行分类,获得按照罪名分类的法律文书数据;
A3.将法律文书数据的标点符号统一为中文格式,按照包括?!的中文标点断句符号对文书数据切分为句子形式,构成句子集合;
A4.使用开源分词工具对句子集合中的每个句子进行分词,得到分词结果;
A5.构建法律领域的专用停用词表,对分词结果进行修正、优化。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论