(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 正则匹配快代理CN 106055658 A
(43)申请公布日 2016.10.26
(21)申请号 CN201610387008.7
(22)申请日 2016.06.02
(71)申请人 中国人民解放军国防科学技术大学
    地址 410073 湖南省长沙市开福区德雅路109号国防科学技术大学
(72)发明人 郭利翔 张鑫 丁兆云 李沛 王晖 邓经升 乔凤才 程佳军 沈大勇 曹建平
(74)专利代理机构 北京轻创知识产权代理有限公司
    代理人 谈杰
(51)Int.CI
      G06F17/30
      G06F17/27
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种针对Twitter文本事件抽取的方法
(57)摘要
      本发明公开了一种针对Twitter文本事件抽取的方法,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,数据去重处理和文本预处理;步骤三,事件消息识别联合要素抽取,包括基于触发词匹配的事件消息识别、时间表达式识别、基于词库的地名实体识别、基于词库的主体抽取、活动主题抽取。本发明利用基于规则的事件要素抽取的方法,针对每一个事件,标注其事件要素,主要为事件发生时间、地点、主体以及活动主题,可以更加准确地对采集到的推文进行事件抽取,实现事件的快速检测与发现。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种针对Twitter文本事件抽取的方法,其特征在于,主要包括以下步骤:
步骤一,从Twitter平台上采集推文数据,并存入数据库;
步骤二,文本数据预处理:(1)数据去重处理,把内容基本或完全一致的推文进行去重处理;(2)文本预处理,首先是切句处理,将文本处理为句子级;然后对句子进行中文分词,以满足后续分析需要;
步骤三,事件消息识别联合要素抽取,包括:基于触发词匹配的事件消息识别,使用事件触发词对已采集的去重数据进行过滤,得到目标结果;时间表达式识别,利用时间正则表达式以及自定义时间词库作为文本特征,对推文进行时间要素抽取,如果存在时间信息,则认为推文确实为事件推文,反之则认为是垃圾信息,不再提取其他
要素;基于词库的地名实体识别,构建地名词典,并加入命名实体识别工具,从事件推文内容中抽取地名,从而得到事件的位置信息;基于词库的主体抽取,构建人物、团体词典,将这些词典加入命名实体识别工具,完成事件主体的抽取;活动主题抽取,根据活动主题要素完成事件抽取。
2.如权利要求1所述的针对Twitter文本事件抽取的方法,其特征在于:其中步骤一包括两种数据采集模式:
1)基于关键词查询的推文采集,初始采集的过程主要基于关键词在Twitter API中进行搜索的到相关推文;
2)基于重点用户的推文采集,根据关键词查询采集得到的推文,选取其中重点关注的用户专门采集这些用户的推文。
3.如权利要求1所述的针对Twitter文本事件抽取的方法,其特征在于:其中步骤二文本数据预处理还包括以下内容:针对使用Twitter自带的转发功能进行转发的推文,在去重之前使用预置的正则表达式对Twitter特殊标记符号以及URL网址字符串进行过滤。
4.如权利要求1所述的针对Twitter文本事件抽取的方法,其特征在于:步骤二中,在触发词模式匹配之前,进行摘要句提取,在摘要句提取完毕后,根据触发词模式匹配推文文本,若匹配的句子为摘要句,则继续匹配,得到事件详情句,若触发词仅出现在摘要句中,则将摘要句视为详情句。
5.如权利要求1所述的针对Twitter文本事件抽取的方法,其特征在于:步骤二中文本数据去重采用Google的CityHash64算法进行处理。
6.如权利要求1所述的针对Twitter文本事件抽取的方法,其特征在于:步骤二中,切句是根据推文文本中表示停顿的标点符号对文本进行划分,形成具有较完整要素的句子和分句,切句分为两个层次:句子划分与分句划分,即:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。