(19)中华人民共和国国家知识产权局
(12)发明专利说明书
字符串长度工具
(10)申请公布号 CN 104050158 A
(43)申请公布日 2014.09.17
(21)申请号 CN201410301560.0
(22)申请日 2014.06.27
(71)申请人 吴涛军
    地址 200000 上海市长宁区延安西路900路
(72)发明人 吴涛军
(74)专利代理机构 江阴市永兴专利事务所(普通合伙)
    代理人 达晓玲
(51)Int.CI
      G06F17/27
      G06F17/30
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种保持语义完整性的引文自动提取方法和装置
(57)摘要
      本发明提供了一种引文自动提取方法和装置。本发明能够以文本中作为阅读焦点的字符或字符串为中心自动提取上下文,所提取的引文长度处于预定的长度范围以内,并且保持所提取的引文具有语义完整性,这样能够从文本中抽取形成以被选择的字符或字符串作为阅读焦点并且长度合适、意思完整的一段语义场景,方便用户还原阅读焦点在上下文中的正确含义。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种引文自动提取方法,其特征在于,包括:       
焦点设定步骤,从文本中选择作为阅读焦点的字符或字符串;       
上下文提取步骤,通过以完整语义单元为单位进行的文本扩展和/或截取,提取以所述阅读焦点为中心的上下文,从而获得文本长度处于预定长度区间内的引文文本。       
2.根据权利要求1所述的引文自动提取方法,其特征在于,所述完整语义单元包括:由文本中包含的不同类型的边界符号所限定的具有多种尺度的文本片断,以及由文本中具有独立语义的字符或字符串组成的最小语义单元。       
3.根据权利要求2所述的引文自动提取方法,其特征在于,所述上下文提取步骤包括:以所述作为阅读焦点的字符或字符串为起点并沿扩展方向,以由某些特定类型的边界符号所限定的具有较大尺度的完整语义单元为单位选取备选文本的扩展步骤;针对所述备选文本,沿截取方向,以由其它特定类型的边界符号所限定的具有较小尺度的完整语义单元为单位截取备选文本的截取步骤;以及针对经扩展步骤和截取步骤处理后的备选文本,以所述最小语义单元为单位沿扩展方向扩展和/或沿截取方向截取所述备选文本的最小语义单元扩展截取步骤。       
4.根据权利要求1所述的引文自动提取方法,其特征在于,所述完整语义单元可分为:扩展单元,由文本中包含的扩展型边界符号所限定的文本片断;截取单元,由文本中包含的截取型边界符号所限定的文本片断;最小语义单元,由文本中具有独立语义的字符或字符串组成的最小单元;并且所述扩展型边界符号所限定的文本片断的尺度大于所述截取型边界符号所限定的文本片断的尺度。       
5.根据权利要求4所述的引文自动提取方法,其特征在于,所述上下文提取步骤包括:扩展操作,以所述作为阅读焦点的字符或字符串为原始起点,沿扩展方向以所述扩展单元为单位提
取文本并加入备选文本,直至所述备选文本长度大于所述预定长度区间的下限;判断所述备选文本的长度是否大于所述预定长度区间的上限,如果不大于上限,则将该备选文本作为所提取的引文文本;       
截取操作,如果扩展操作获得的备选文本大于所述预定长度区间的上限,以位于备选文本的首、尾部并且非边界符号的字符为起点,沿截取方向以截取单元为单位对所述备选文本进行截取,直至所述备选文本长度小于所述预定长度区间的上限;       
最小语义单元扩展截取操作,如果在所述截取操作之后所述备选文本长度小于所述预定长度区间的下限,则以位于备选文本的首、尾部并且非边界符号的字符为起点,沿扩展方向以所述最小语义单元为单位对所述备选文本进行扩展,直至所述备选文本长度大于所述预定长度区间的下限;如果经所述最小语义单元扩展之后,所述备选引文长度大于所述预定长度区间的上限,则以位于备选文本的首、尾部并且非边界符号的字符为起点,沿截取方向以所述最小语义单元为单位对所述备选引文进行截取;通过最小语义单元扩展和截取的多次迭代获得长度处于预定长度区间内备选文本作为所述引文文本。       
6.一种引文自动提取装置,其特征在于,包括:       
焦点设定模块,用于从文本中选择作为阅读焦点的字符或字符串;       
内容提取模块,用于通过以完整语义单元为单位进行的文本扩展和/或截取,提取以所述阅读焦点为中心的上下文,从而获得文本长度处于预定长度区间内的引文文本。       
7.根据权利要求6所述的引文自动提取装置,其特征在于,所述完整语义单元包括:由文本中包含的不同类型的边界符号所限定的具有多种尺度的文本片断,以及由文本中具有独立语义的字符或字符串组成的最小语义单元。       
8.根据权利要求7所述的引文自动提取装置,其特征在于,所述内容提取模块用于执行以下操作:以所述作为阅读焦点的字符或字符串为起点并沿扩展方向,以由某些特定类型的边界符号所限定的具有较大尺度的完整语义单元为单位选取备选文本的扩展操作,针对所述备选文本,沿截取方向,以由其它特定类型的边界符号所限定的具有较小尺度的完整语义单元为单位截取备选文本的截取操作,针对经扩展步骤和截取步骤处理后的备选文本,以所述最小语义单元为单位沿扩展方向扩展和/或沿截取方向截取所述备选文本的最小语义单元扩展截取操作。       
9.根据权利要求6所述的引文自动提取装置,其特征在于,所述完整语义单元可分为:扩展单元,由文本中包含的扩展型边界符号所限定的文本片断;截取单元,由文本中包含的截取型边界符号所限定的文本片断;最小语义单元,由文本中具有独立语义的字符或字符串组成的最小单元;并且所述扩展型边界符号所限定的文本片断的尺度大于所述截取型边界符号所限定的文本片断的尺度。       
10.根据权利要求9所述的引文自动提取装置,其特征在于,所述内容提取模块用于执行以下操作:       
扩展操作,以所述作为阅读焦点的字符或字符串为原始起点,沿扩展方向以所述扩展单元为单位提取文本并加入备选文本,直至所述备选文本长度大于所述预定长度区间的下限;判断所述备选文本的长度是否大于所述预定长度区间的上限,如果不大于上限,则将该备选文本作为所提取的引文文本;       
截取操作,如果扩展操作获得的备选文本大于所述预定长度区间的上限,以位于备选文本的首、尾部并且非边界符号的字符为起点,沿截取方向以截取单元为单位对所述备选文本进行截取,直至所述备选文本长度小于所述预定长度区间的上限;       
最小语义单元扩展截取操作,如果在所述截取操作之后所述备选文本长度小于所述预定长度区间的下限,则以位于备选文本的首、尾部并且非边界符号的字符为起点,沿扩展方向以所述最小语义单元为单位对所述备选文本进行扩展,直至所述备选文本长度大于所述预定长度区间的下限;如果经所述最小语义单元扩展之后,所述备选引文长度大于所述预定长度区间的上限,则以位于备选文本的首、尾部并且非边界符号的字符为起点,沿截取方向以所述最小语义单元为单位对所述备选引文进行截取;通过最小语义单元扩展和截取的多次迭代获得长度处于预定长度区间内备选文本作为所述引文文本。       

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。