(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 106598946 A
正则匹配快代理(43)申请公布日 2017.04.26
(21)申请号 CN201611151284.X
(22)申请日 2016.12.14
(71)申请人 厦门市美亚柏科信息股份有限公司
    地址 361000 福建省厦门市软件园二期观日路12号102-402单元
(72)发明人 曾超 林艺滨 朱健伟 江汉祥
(74)专利代理机构 厦门市精诚新创知识产权代理有限公司
    代理人 何家富
(51)Int.CI
      G06F17/27
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种内容提取方法及装置
(57)摘要
      本发明提出一种基于语义分析和规则的内容提取方法及装置,并在此基础上结合传统的基于模板的内容提取方法。本发明同时具备模板提取速度快,数据准确的优点,以及语义分析和规则解析适应性强的优点,通过两种方式的结合,实现快速、精确地提取内容数据。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种内容提取方法,其特征在于,包括:
S01,对样本数据进行语义分析,根据语义分析结果以及目标内容构建内容提取规则;
S02,使用多个样本数据构建的内容提取规则建立规则库;
S03,对待提取的数据进行语义分析,根据语义分析结果匹配规则库中对应的内容提取规则,若匹配成功,则使用该内容提取规则进行内容提取,若匹配失败,则记录语义分析结果,并建立新的内容提取规则,将该新建立的内容提取规则更新至规则库。
2.根据权利要求1所述的内容提取方法,其特征在于,在步骤S01前,还包括:
步骤S00,对待提取的数据进行模板匹配,若匹配成功,则使用该模板进行内容提取,若匹配失败,则执行所述步骤S01至S03。
3.根据权利要求1所述的内容提取方法,其特征在于,所述的语义分析具体包括:
对数据进行分词和词性标注;对分词的结果进行实体标注,该实体标注包括但不限于人名标注、时间标注以及金额标注;构建数据中各词之间的依存和关联关系。
4.一种内容提取装置,其特征在于,包括:
规则构建模块,被配置成对样本数据进行语义分析,根据语义分析结果以及目标内容构建内容提取规则;
规则库模块,被配置成使用多个样本数据构建的内容提取规则建立规则库;
内容提取模块,被配置成对待提取的数据进行语义分析,根据语义分析结果匹配规则库中对应的内容提取规则,若匹配成功,则使用该内容提取规则进行内容提取,若匹配失败,则记录语义分析结果,并建立新的内容提取规则,将该新建立的内容提取规则更新至规则库。
5.根据权利要求4所述的内容提取装置,其特征在于,还包括:模板匹配模块,被配置成对待提取的数据进行模板
匹配,若匹配成功,则使用该模板进行内容提取,若匹配失败,则进入规则构建模块、规则库模块及内容提取模块处理。
6.一种内容提取装置,其特征在于,包括:
处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,使得所述内容提取装置执行如权利要求1至3任一项所述的内容提取方法。
说  明  书
<p>技术领域
本发明涉及通信技术领域,具体涉及一种内容提取方法及装置。
背景技术
随着移动终端的快速发展,手机已经成为人民生活中的必需品。在电子数据取证中聊天内容数据量最大,平均占总数据量70%,每个移动终端的聊天信息通常也在几十万条,多的可达几百万条。聊天内容信息对研判分析价值很大,可以从中到很多蛛丝马迹。通知类短信内容中经常包含很多关键信息,比如银行、移动运营商、天然气提供商等。通知类的内容经常会包含用户的基本信息,银行的消费通知短信中包含机主姓名、银行卡号后四位、银行卡类型等,车船票、机票预定信息会包含旅客姓名、行程信息等。
目前对于这类数据的提取基本都是采用模板的方式来提取,通过预先设置的模板进行匹配,获取所需提取的关键内容信息,通过模板来提取数据的优点是精确和快速,缺点是需要人为持续的提取大量的模板。因为不同机构的短信内容模板不一样,同一机构不同地区的短信内容模板也可能不一样,同一机构同一地区在不同的时间段的短信内容模板也可能变化。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。