(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 111222324 A (43)申请公布日 2020.06.02 | ||
(21)申请号 CN201911380882.8
(22)申请日 2019.12.27
(71)申请人 南京医睿科技有限公司;南京懿医云大数据科技有限公司
地址 210000 江苏省南京市江北新区浦滨路211号15层1502室
(72)发明人 隆靖 胥世承 康波
(74)专利代理机构 北京嘉科知识产权代理事务所(特殊普通合伙)
代理人 刘力
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
时间识别方法、装置、计算机可读存储介质及电子设备 | |
(57)摘要
本发明公开了一种时间识别方法、装置、计算机可读存储介质及电子设备,方法包括:确定待识别文本中的至少一个第一时间信息;根据所述待识别文本,获取所述第一时间信息对应的验证信息;当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。通过本发明的技术方案,可更为准确的识别待识别文本中的时间信息。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2023-04-11 | 专利申请权的转移IPC(主分类):G06F40/279专利申请号:2019113808828登记生效日:20230329变更事项:申请人变更前权利人:南京医睿科技有限公司变更后权利人:医渡云(北京)技术有限公司变更事项:地址变更前权利人:210000 江苏省南京市江北新区浦滨路211号15层1502室变更后权利人:100089 北京市海淀区花园北路35号9号楼8层801变更事项:申请人变更前权利人:南京懿医云大数据科技有限公司变更后权利人: | 专利申请权、专利权的转移 |
权 利 要 求 说 明 书
1.一种时间识别方法,其特征在于,包括:
确定待识别文本中的至少一个第一时间信息;
正则匹配后缀后根据所述待识别文本,获取所述第一时间信息对应的验证信息;
当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。
2.根据权利要求1所述的方法,其特征在于,所述确定待识别文本中的至少一个第一时间信息,包括:
对待识别文本与预设规则中的第一字符串进行匹配,当确定所述待识别文本中的至少一个第二字符串满足第二预设条件时,所述第二字符串确定为第一时间信息。
3.根据权利要求2所述的方法,其特征在于,
所述第二预设条件包括:所述第二字符串和所述第一字符串匹配,且所述第一字符串对应的节点标签为疑似节
点。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本,获取所述第一时间信息对应的验证信息,包括:
获取所述第一时间信息在所述待识别文本中的前缀词和/或后缀词,所述前缀词和后缀词分别与所述第一时间信息相邻;
将所述前缀词和/或后缀词作为所述第一时间信息对应的验证信息。
5.根据权利要求4所述的方法,其特征在于,所述第一预设条件包括:
所述前缀词和/或后缀词属于预设时间触发词典中的词。
6.根据权利要求5所述的方法,其特征在于,所述时间触发词典包括相对时间触发词和/或绝对时间触发词。
7.根据权利要求6所述的方法,其特征在于,还包括:判断所述验证信息是否满足第三预设条件,如果是,则将所述验证信息对应的第一时间信息确定为所述待识别文本中的不可信时间信息,如果否,则执行所述当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息步骤;
所述第三预设条件包括:所述前缀词和/或后缀词属于预设时间排除词典。
8.一种时间识别装置,其特征在于,包括:
信息确定模块,用于确定待识别文本中的至少一个第一时间信息;
获取模板,用于根据所述待识别文本,获取所述第一时间信息对应的验证信息;
验证模板,用于当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。
9.一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。
10.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。
说 明 书
<p>技术领域
本发明涉及数据处理技术领域,尤其涉及时间识别方法、装置、计算机可读存储介质及电子设备。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,其研究能够实现人与计算机之间的用自然语言进行有效通信的各种理论和方法,而时间对于理解事件具有重要的作用和意义。临床科研及药物临床实验均强依赖于患者的全生命周期临床数据,尤其是患者既往、目前进行的诊疗过程以及最终结局事件,如肿瘤患者既往每次的化疗时间、放疗时间、靶向时间、病理确诊时间以及最终死亡时间等,这些关键的诊疗过程数据主要书写在现病史、既往史、病程记录及出院记录等自然语言文本之中,准确识别出自然语言文本之中的目的时间,对辅助研究患者生命周期内各重点诊疗事件的发生、发展、结局很有意义。
目前,主要通过正则规则与自然语言文本进行匹配,以从自然语言文本中提取出时间信息。对于自然语言文本中的绝对时间,如2013-5-6或2015年5月6日等,利用绝对时间正则进行匹配;对于自然语言文本中的相对时间,利用相对时间正则进行匹配。
但是,自然语言文本往往存在时间干扰信息,这些时间干扰信息容易与正则规则匹配,进而被识别为时间信息,
从而降低了正则规则匹配出的时间信息的准确性。
发明内容
本发明提供了一种时间识别方法、装置、计算机可读存储介质及电子设备,可更为准确的识别待识别文本中的时间信息。
第一方面,本发明提供了一种时间识别方法,包括:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论