(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 112966079 A
(43)申请公布日 2021.06.15
正则匹配省(21)申请号 CN202110230345.6
(22)申请日 2021.03.02
(71)申请人 中国电子科技集团公司第二十八研究所
    地址 210000 江苏省南京市栖霞区灵山南路1号
(72)发明人 李彭伟 李亚钊 程浚 李子 郑伟 阚凌志 陈娜 吴诗婳 郭婉 周兆昕
(74)专利代理机构 32237 江苏圣典律师事务所
    代理人 于瀚文;胡建华
(51)Int.CI
      G06F16/332(20190101)
      G06F16/36(20190101)
      G06F40/186(20200101)
      G06F40/211(20200101)
      G06F40/289(20200101)
      G06K9/62(20060101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种用于对话系统的面向事件画像的文本分析方法
(57)摘要
      本发明提供了一种用于对话系统的面向事件画像的文本分析方法,包括:1、事件关系抽取;2、事件抽取和结构化;3、事件相似度计算和融合;4、事件触发词抽取和论元抽取。本发明充分研究构建事理图谱的方法,通过采用知识图谱结构来描述事件之间的逻辑结构关系,同时为了更清晰的描述事件,对事件的多维属性进行画像。本发明提出了一种事理图谱构建的体系结构,包括文本语料采集,事件关系抽取模板构造,事件抽取和结构化,事件相似度计算和融合,事件触发词抽取和论元抽取模型构建,事件关系对构建,图数据库存储,并利用该体系结构构建了顺承事理图谱、因果事理图谱、条件事理图谱、转折事理图谱、并发事理图谱。
法律状态
法律状态公告日
法律状态信息
法律状态
2021-06-15
公开
公开
2021-07-02
实质审查的生效
实质审查的生效
2022-09-30
授权
发明专利权授予
权 利 要 求 说 明 书
1.一种用于对话系统的面向事件画像的文本分析方法,其特征在于,包括如下步骤:
步骤1、抽取事件关系;
步骤2、抽取事件并结构化;
步骤3、计算并融合事件相似度;
步骤4、抽取事件触发词和论元。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:对因果、顺承、条件、并发、转折事件关系构造事件关联词模板,根据构造的事件关联词模板抽取出事件对,
事件关联词模板包括顺承关系抽取模板、因果关系抽取模板、条件关系抽取模板转折关系抽取模板和并发关系抽取模板;
其中,顺承关系抽取模板包括两种,因果关系抽取模板包括十种,条件关系抽取模板,转折关系抽取模板和并发关系抽取模板各一种。
3.根据权利要求2所述的方法,其特征在于,步骤1中,两种顺承关系抽取模板分别记为模板一和模板二,模板二的优先级高于模板一,句子先匹配模板二,如果匹配成功则获得前后的顺承事件,如果匹配失败再匹配模板一。
4.根据权利要求3所述的方法,其特征在于,步骤2中,通过事件抽取算法完成事件抽取,具体包括:
步骤2-a1,输入数据库中m个事件文本,进行长句切分:使用标志着句子结束的标点符号对每篇文本进行切分,获得长句集;正则表达式为:r'[。;;::\·]';
步骤2-a2,补齐句子主语:对长句集里每个句子判断其中的短句是否缺少主语,对于指示前一句话的内容的代词,如果所述代词后紧跟因果动词,把代词和代词前的标点符号一同从原句中剔除;
步骤2-a3,使用jieba分词工具对长句进行分词处理,并使用jieba.posseg获得每个词的词性,最后获得词语和词性的序列;
步骤2-a4,抽取事件关系:使用构造的事件关联词模板,对每个句子提取前事件集、事件关联词和后事件集;
对于因果关系事件对的抽取,还需要继续对原因事件匹配模板,最终抽取出原因事件集和结果事件集和后事件短句集;
顺承事理图谱中使用的正则表达式是r'[,,]/x',表示短句分割标点符号是中英文逗号,其他关系事理图谱中使用的正则表达式是r'[,、,;和与及且跟()~.]/[x|cp]'。
5.根据权利要求4所述的方法,其特征在于,步骤2中,通过结构化算法完成事件结构化,具体包括:
步骤2-b1,输入一个句子的前后事件短句集,进行词性处理:短句中要保留的词性标记集合为:['a','b','c','d','wp','i','j','v','n','nh','ni','nl','ns','nz'],词性标准采用863词性标注集,建立停用词库和否定词库,词过滤算法为:对于事件短句里的每个词,如果该词在否定词库中,或者其词性在词性标记集合中并且该词不属于停用词库,保留该词;根据所述词性标记集合、停用词库和否定词库,运用词过滤算法对短句中的每个词进行过滤;
步骤2-b2,对步骤2-b1第一次过滤的事件词序列结果进行第二次过滤处理:如果事件短句的第一个词和最后一个词是连词或标点符号,去除该连词或标点符号,不断循环该过程,直到开始和结束词都不是连词或标点符号;
步骤2-b3,对事件短句首先判断短句长度是否大于等于2,如果大于等于2,进行事件判定,否则直接返回空事件;
事件表示规则规定事件具备语义完整性,符合主谓结构或主谓宾结构,事件表示规则包括如下四条:
候选事件短句以名词或缩写词开头,动词、形容词或成语结尾;
候选事件短句以名词或缩写词开头,动词在短句中间,名词或缩写词结尾;
候选事件短句以名词修饰词或形容词开头,名词或缩写词是第二个词,动词、形容词或成语结尾;
候选事件短句以名词修饰词或形容词开头,名词或缩写词是第二个词,动词在短句中间,名词或缩写词结尾;
步骤2-b4,建立主观性词库,使用主观性词库过滤事件:如果事件短句中包含主观性词库中的词,则事件不属于候选事件,从候选事件短句集中去除;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。