(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 111581345 A
(43)申请公布日 2020.08.25
(21)申请号 CN202010337859.7
(22)申请日 2020.04.26
(71)申请人 上海明略人工智能(集团)有限公司
    地址 200232 上海市徐汇区龙腾大道2879号3楼3939室
(72)发明人 徐猛
(74)专利代理机构 北京安信方达知识产权代理有限公司
    代理人 王康
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种文档级别的事件抽取方法和装置
(57)摘要
      本申请实施例公开了一种文档级别的事件抽取方法和装置,该方法包括:对文档进行语句划分,获取每一条语句的向量化语义表示W1;通过条件随机场CRF对每一条语句的向量化语义表示W1进行论元识别以获取每一条语句中的论元和论元语义表示W2;根据向量化语义表示W1和论元语义表示W2判断该语句是否为事件关键句,根据判断结果确定该条语句所属的事件类型;根据确定出的事件类型和已识别出的该条语句中的论元实现该条语句的事件抽取;对从所述文档中划分出的全部语句进行事件抽取,完成所述文档中的事件抽取。通过该实施例方案,实现了将文档中的事件准确识别出来,提高了事件抽取的效率,具有更广泛的应用领域和更强的实际应用价值。
法律状态
法律状态公告日
法律状态信息
法律状态
2021-11-09
发明专利申请公布后的撤回
发明专利申请公布后的撤回
2020-09-18
实质审查的生效
实质审查的生效
正则匹配快代理
2020-08-25
公开
公开
权 利 要 求 说 明 书
1.一种文档级别的事件抽取方法,其特征在于,所述方法包括:
对文档进行语句划分,并获取每一条语句的向量化语义表示W1;
通过条件随机场CRF对每一条语句的向量化语义表示W1进行论元识别,以获取每一条语句中的论元和相应的论元语义表示W2;
根据每一条语句的向量化语义表示W1和该条语句的论元语义表示W2判断该条语句是否为事件关键句,并根据判断结果确定该条语句所属的事件类型;
根据确定出的事件类型和已识别出的该条语句中的论元实现该条语句的事件抽取;
对从所述文档中划分出的全部语句进行事件抽取,完成所述文档中的事件抽取。
2.根据权利要求1所述的文档级别的事件抽取方法,其特征在于,所述方法还包括:
预先将事件类型划分为x种,将事件的论元类型划分为y种,将所述事件类型以及所述论元类型以外的类型作为其他类型;其中,x、y均为正整数;
在获得语句的向量化语义表示W1之前,进行以下操作:
语句标记:对文档划分出的每一条语句进行标记,以确定该条语句是否属于x种事件类型中的任意一种;在该条语句属于x种事件类型中的任意一种时,将该条语句标记为所属的事件类型;在该条语句不属于x种事件类型中
的任意一种时,将该条语句标记为其他类型O;
论元标记:对语句中每个标记token进行BIO标注,所述BIO标注的类型为所述论元类型;所述BIO标注的类型包括:B-[论元类型]、I-[论元类型]和O;
论元类型编码:对每一种论元类型对应一个唯一的向量表示。
3.根据权利要求1或2所述的文档级别的事件抽取方法,其特征在于,所述获取每一条语句的向量化语义表示W1包括:通过双向LSTM网络模型或BERT模型获得每一条语句的向量化语义表示W1。
4.根据权利要求3所述的文档级别的事件抽取方法,其特征在于,在通过双向LSTM网络获得每一条语句的向量化语义表示W1之前,所述方法还包括:将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中到对应的id,从而获得维度为[S,D]的向量;
通过双向LSTM网络获得每一条语句的向量化语义表示W1包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
5.根据权利要求3所述的文档级别的事件抽取方法,其特征在于,通过BERT模型获得每一条语句的向量化语义表示W1包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1=768。
6.根据权利要求2所述的文档级别的事件抽取方法,其特征在于,所述通过条件随机场CRF对每一条语句的向量化语义表示W1进行论元识别,以获取每一条语句中的论元和相应的论元语义表示W2包括:
将所述向量化语义表示W1进行线性变换,获取变换后的矩阵;
将所述变换后的矩阵输入所述条件随机场CRF中,通过所述条件随机场CRF输出所述向量化语义表示W1所表示的语句中的每个字对应的BIO标注;
根据该条语句中的每个字对应的BIO标注识别出该条语句中的全部论元;
根据识别出的所述全部论元的论元类型和每个论元类型对应的论元类型编码获取每一条语句中的论元语义表示W2。
7.根据权利要求2所述的文档级别的事件抽取方法,其特征在于,所述根据每一条语句的向量化语义表示W1和
该条语句的论元语义表示W2判断该条语句是否为事件关键句,并根据判断结果确定该条语句所属的事件类型包括:
将每一条语句的向量化语义表示W1和该条语句的论元语义表示W2进行合并,获取新的语义表示W3;
通过卷积神经网络和池化操作对获得的新的语义表示W3进行分类,根据分类结果确定该条语句是否为事件关键句;其中,通过卷积神经网络和池化操作后输出一个概率值列表;
根据所述概率值列表确定该条语句属于x种事件类型中每一种事件类型的概率,并获取概率最大值所对应的事件类型作为该条语句的事件类型。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。