(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 110765231 A (43)申请公布日 2020.02.07 | ||
(21)申请号 CN201910964681.6
(22)申请日 2019.10.11
(71)申请人 南京摄星智能科技有限公司
地址 210000 江苏省南京市经济技术开发区兴智路6号兴智科技园C栋1211室
(72)发明人 杨理想 张侨 王银瑞
(74)专利代理机构 南京中律知识产权代理事务所(普通合伙)
代理人 沈振涛
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种基于共指融合的篇章事件抽取方法 | |
(57)摘要
本发明提供了一种基于共指融合的篇章事件抽取的方法,用以解决针对传统的事件抽取方法并不能很好地解决事件抽取的问题,具体为通过利用对根据相同的触发词进行人工标注的数据集,进行数据结构获取及预处理后,切分句子进行文本初始化特征提取,进行模型训练后,再进行事件融合处理的方法,通过此方法,可以将篇章文本中的相同事件进行融合,去除冗余信息,获取事件的更多要素信息,得到更加全面的事件描述,同时,可有效提高事件抽取效果,具有广泛的应用前景。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2020-03-03 | 实质审查的生效 | 实质审查的生效 |
2020-02-07 | 公开 | 公开 |
权 利 要 求 说 明 书
1.一种基于共指融合的篇章事件抽取方法,其特征在于:具体步骤为:
(1)标注数据集
从待抽取事件的篇章文本中出相同的触发词,即为相同类型的事件,人工标注出相同类型的事件分类信息,得到标注数据集;
(2)获取数据结构
对标注数据进行处理,得到相同事件和不同事件的语料集合,获得需要的数据结构,每条数据包括:包含两个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果;
(3)数据预处理正则匹配一个或连续多个
对步骤(2)中获得数据结构进行预处理,获得数据的位置特征编码信息;
(4)切分句子
根据触发词位置将一条文本数据在两个触发词处各切一刀,将一句话分为三部分,同时对位置向量也进行同样的切分操作;
(5)初始化处理
通过查预先训练好的词嵌入,将每个输入词标记转换成向量,获取文本特征信息;
(6)特征提取
将位置特征编码信息和文本特征信息拼接,然后将上面三个数据分别通过CNN提取特征,提取出来的特征通过maxpooling层之后进行拼接后送入softmax层,经过全连接层进行二分类,最终得到两个事件的分类结果;
(7)模型训练
将构造的数据送进分段卷积神经网络模型进行训练;
(8)事件融合
提取篇章文本中的同一类型事件,经模型判断是否为同一事件,如果是同一事件,则将两个事件融合,抽取两个事件中的要素信息并互相补充,生成事件的结构化信息;如果经过判断,多个事件两两为同一事件,则将多个事件融合,事件要素生成一个事件的结构化信息。
2.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(2)中,构造数据时,只标注最临近具有相同类型的事件分类信息事件。
3.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(3)中,位置特征编码信息包括按句子中各个词离触发词的长度信息、方向信息,其中所述方向信息为左侧或右侧。
4.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(7)中,所述模型的结构如下:进行语料信息切断处理成词,通过word2vec的Skip-gram模型将词表示成向量形式,与位置向量即各词语与两个实体的相对位置,进行拼接作为输入,之后通过卷积层得到feature map;在池化层通过两个实体位置将feature map分为三段进行池化,用于捕获两个实体间的结构化信息;最后,通过softmax层进行分类。
5.根据权利要求4所述的基于共指融合的篇章事件抽取方法,其特征在于:切断语料信息时,只截取包含两个触发词的语句以及其中间语句。
说 明 书
<p>技术领域
本发明属于自然语言处理领域,特别涉及一种基于共指融合的篇章事件抽取的方法。
背景技术
事件抽取是信息抽取的主要形式之一,它是从大量的自然文本中抽取人们感兴趣的结构化事件信息,如什么人,什么地方,什么时间,做了什么事。基于共指融合的篇章事件抽取是从篇章文本中出共指事件进行融合,以达
到抽取到更多事件信息以及事件融合的目的。
目前,业内的事件抽取方法主要是对单独的事件进行抽取,虽然这种方法取得了不错的成果,但自然语言本身的灵活性决定了这种事件抽取方法不足以很好地解决事件抽取的问题。
发明内容
有鉴于此,本发明提供了一种基于共指融合的篇章事件抽取的方法,用以解决针对传统的事件抽取方法并不能很好地解决事件抽取的问题,具体步骤为:
(1)标注数据集
从待抽取事件的篇章文本中出相同的触发词,即为相同类型的事件,人工标注出相同类型的事件分类信息,得到标注数据;
(2)获取数据结构
对标注数据进行处理,得到相同事件和不同事件的语料集合,获得需要的数据结构,每条数据包括:包含两个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果;
(3)数据预处理
对步骤(2)中获得数据结构进行预处理,获得数据的位置特征编码信息;
(4)切分句子
根据触发词位置将一条文本数据在两个触发词处各切一刀,将一句话分为三部分,同时对位置向量也进行同样的切分操作;
(5)初始化处理
通过查预先训练好的词嵌入,将每个输入词标记转换成向量,获取文本特征信息;
(6)特征提取
将位置特征编码信息和文本特征信息拼接,然后将上面三个数据分别通过CNN提取特征,提取出来的特征通过maxpooling层之后进行拼接后送入softmax层,经过全连接层进行二分类,最终得到两个事件的分类结果;
(7)模型训练
将构造的数据送进分段卷积神经网络模型进行训练;
(8)事件融合
提取篇章文本中的同一类型事件,经模型判断是否为同一事件,如果是同一事件,则将两个事件融合,抽取两个事件中的要素信息并互相补充,生成事件的结构化信息;如果经过判断,多个事件两两为同一事件,则将多个事件融合,事件要素生成一个事件的结构化信息。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论