(10)申请公布号
(43)申请公布日 (21)申请号 201510009993.3
(22)申请日 2015.01.09
G06F 17/30(2006.01)
(71)申请人成都布林特信息技术有限公司
地址610000 四川省成都市高新区神仙树南
路1号附3号
(72)发明人张鹏
c++字符串是什么(74)专利代理机构北京天奇智新知识产权代理
有限公司 11340
代理人
郭霞
(54)发明名称
新闻舆情监测系统
(57)摘要
本发明公开了一种新闻舆情监测系统,该系
统包括新闻信息采集模块、新闻数据预处理模块、
新闻舆情分析模块和新闻舆情结果显示模块;所
述新闻数据预处理模块包括:初步过滤子模块、
正文提取子模块、分词子模块、特征短语过滤子模
块、文本情感倾向性分析子模块、图片分析子模
块、以及舆情热度获取子模块;针对新闻数据预
处理模块预处理后的数据,通过分布式的云计算
方式,使用多种新闻舆情监测算法子模块来获取
新闻舆情热点,并对获取的新闻舆情热点进行综
合判断分类评估,从而实现对新闻舆情热点话题
较高效、准确的监测。(51)Int.Cl.
(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书4页 说明书9页 附图2页
(10)申请公布号CN 104504150 A (43)申请公布日2015.04.08
C N 104504150
A
1.一种新闻舆情监测系统,该系统包括新闻信息采集模块(1)、新闻数据预处理模块
(2)、新闻舆情分析模块(3)和新闻舆情结果显示模块(4),其中
新闻信息采集模块(1)用于对互联网上的新闻舆情信息进行采集,获取新闻数据;
新闻数据预处理模块(2)用于将新闻信息采集模块(1)获取的新闻数据中的无用信息去除,并对去除了无用信息的所述新闻数据进行必要的整理;
新闻舆情分析模块(3)以新闻数据预处理模块(2)整理的新闻数据为基础,采用多个新闻热点发现子模块发现新闻舆情热点;
新闻舆情结果显示模块(4)以图表或报告形式输出新闻舆情分析结果,实现用户交互功能。
2.根据权利要求1所述的新闻舆情监测系统,其特征在于:
所述新闻信息采集模块(1)用于根据指定的关键词、来源URL或信息主题,使用基于链接分析的搜索引擎网络爬虫方法,通过多线程下载队列并发地自动采集多种类型的新闻舆情信息;其中,所述多种类型的新闻舆情信息至少包括新闻的文本信息和/或图片信息;并且
所述新闻数据预处理模块(2)包括:初步过滤子模块(2a)、正文提取子模块(2b)、分词子模块(2c)、特征短语过滤子模块(2d)、文本情感倾向性分析子模块(2e)、图片分析子模块(2f)、舆情热度获取子模块(2g)。
3.根据权利要求2所述的新闻舆情监测系统,其特征在于:
所述初步过滤子模块(2a),用于对新闻数据中的信息进行初步过滤,清除所述新闻数据中的噪声,对每条新闻数据进行以下处理:
步骤2a-1,对于每条新闻数据,按照标题进行语义分析,检测出网络中与该条新闻数据相似的所有新闻数据,得到该条新闻数据的相似组;如果未发现与该条新闻数据相似的新闻数据,则该条新闻数据的相似组为其本身;
步骤2a-2,对于每条新闻数据,将网络中所有位置出现的该条新闻数据的相似组中所有新闻数据的总数量除以发布该条新闻数据的相似组中所有新闻数据的网络地址的总数量,得到该条新闻数据的空间重复度值S1;
步骤2a-3,对于每条新闻数据,计算网络中出现的该条新闻数据的相似组中所有新闻数据的总数量,得到该条新闻数据的时间重复度值S2;
步骤2a-4,根据每条新闻数据的空间重复度值S1和时间重复度值S2计算该条新闻数据的综合重复度值S,并进行阈值判断,如果所述综合重复度值S超过阈值,则过滤掉该条新闻数据及其相似组;
其中,所述综合重复度值S通过以下公式计算:
S=(log
2(S1+50))1/2+(log
2
(S2+20))1/2+((lgS1)*(lgS2))1/4。
4.根据权利要求3所述的新闻舆情监测系统,其特征在于:
所述正文提取子模块(2b),用于在所述初步过滤子模块(2a)处理后的新闻数据中,提取对新闻舆情分析有用的新闻正文部分的信息,对新闻正文部分进行重构,将具有主题代表性的新闻信息聚集在一起;
所述分词子模块(2c),用于对所述正文提取子模块(2b)处理后的新闻数据进行分词处理、过滤停用词、命名实体识别、语法解析、词性标注、情感识别、特征词提取、以及特征短
语提取,建立正序索引和倒序索引;并根据词的语法属性、词性属性、情感属性解析出词语的倾向性、主题属性和情感属性。
5.根据权利要求4所述的新闻舆情监测系统,其特征在于:
所述特征短语过滤子模块(2d),用于对所述分词子模块(2c)处理后的新闻数据中的特征短语进行过滤筛选,包括以下步骤:
步骤2d-1,对特征短语进行去重,包括:记录新闻的文本中出现的重复性特征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和长度低于重复阈值的重复性特征短语;
步骤2d-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果一个特征短语与所有其他特征短语之间的相似度值都为0,则将该特征短语过滤掉;具体地,可以选择以下三个步骤中之一来计算所述两个特征短语X、Y的相似度值Sims(X,Y),然后进行特征短语分组:步骤2d-2-1:
首先,所述特征短语X、Y的相似度值Sims(X,Y)为两个特征短语X、Y之间的相同字符的数量;
其次,如果Sims(X,Y)≤阈值TD1,则将特征短语Y分入特征短语X所在的组;
步骤2d-2-2:
首先,假设同时出现特征短语X、Y的句子的数量为sum(XY);仅出现特征短语X,不出现特征短语Y的句子的数量为sum(X);仅出现特征短语Y,不出现特征短语X的句子的数量为sum(Y);此时,特征短语X、Y的相似度值Sims(X,Y)计算公式如下:
Sims(X,Y)=log
2(sum(XY))/log
2
(sum(X))+log
2
(sum(XY))/log
2
(sum(Y));
其次,如果Sims(X,Y)≤阈值TD2,则将特征短语Y分入特征短语X所在的组;
步骤2d-2-3:
假设两个特征短语X、Y中包括字符的个数分别为m和n,令k取m、n中的较小值,分别以Xi、Yi代表特征短语X、Y中前i个字符组成的子短语,其中,i=1,2,…,k;定义:|Xi-Yi|表示子短语Xi、Yi的最长公共字符串中包含的字符数量,则特征短语X、Y的相似度值Sims(X,Y)计算公式如下:
Sims(X,Y)=(|X1-Y1|3+|X2-Y2|3+…+|Xk-Yk|3)1/3;
其次,如果Sims(X,Y)≤阈值TD3,则将特征短语Y分入特征短语X所在的组;
步骤2d-3,对特征短语进行熵值过滤,包括:计算特征短语的熵值,过滤掉熵值低于预设的下阈值的特征短语以及熵值高于预设的上阈值的特征短语。
6.根据权利要求5所述的新闻舆情监测系统,其特征在于:
所述文本情感倾向性分析子模块(2e),用于执行新闻的文本情感倾向性分析,包括以下步骤:
步骤2e-1,人工选取若干常见的情感倾向性的中文和英文的形容词、名词和动词和作为初始化种子集;其中,所述初始化种子集中,形容词的数量可以是50,名词和动词的数量可以是150;
步骤2e-2,将新闻的文本中所有具有指代关系的代词还原为名词性的原始指代对象,以防止分析过程中对象的漏判或错判;
步骤2e-3,以新闻的句子为单位,利用词性标注POS和语义角标注SRL分析新闻中每个句子的句子成分,提取每个句子中的主观性词语;
步骤2e-4,依次输入每个句子中的主观性词语,根据所述种子集对新闻的句子中的主观性词语进行情感倾向性自动标注;对于无法自动标注的主观性词语,由人工判断其情感倾向性后,将该主观性词语补充入所述种子集。
7.根据权利要求6所述的新闻舆情监测系统,其特征在于:
所述图片分析子模块(2f),用于对新闻数据中图片的视觉特征进行提取和表达,所述图片的视觉特征包括图片的颜特征、Tamura纹理特征和形状特征;
所述颜特征通过基于HSV空间、Luv空间和Lab空间的颜直方图表示;
所述Tamura纹理特征包括图片的粗糙度、对比度和方向度;
所述形状特征包括通过对图片中物体边界轮廓上所有像素点的坐标进行傅里叶变换而获得的曲率函数、质心距离和复坐标函数。
8.根据权利要求7所述的新闻舆情监测系统,其特征在于:
所述舆情热度获取子模块(2g),用于计算所述新闻的舆情热度权值ρ,若ρ大于预先设定的阈值Tρ,则将该新闻作为舆情分析的数据来源和分析依据,具体地:假设浏览点击数为K1,评论数为K2,回复数为K3,点击支持数为K4,点击反对数为K5,转发数为K6,收藏数为K7,ξ1~ξ4为预先设定的且可调整的系数,则
ρ=(lg(K1)3/4+0.03)*ξ1+(lg((K2)2/3+(K3)2/3)+0.02)*ξ2+(lg((K4)1/2+(K5)1/2)+0.
01)*ξ3+(lg((K6)1/3+(K7)1/3)+0.005)*ξ4;
其中,ξ1~ξ4可以设置为:ξ1=0.5;ξ2=0.3;ξ3=0.2;ξ4=0.1。
9.根据权利要求8所述的新闻舆情监测系统,其特征在于:
所述新闻舆情分析模块(3)用于分析并发现新闻舆情热点,包括如下步骤:
首先,使用多个新闻热点发现子模块,通过并行的分布式计算方式来获取新闻舆情热点,所述新闻热点发现子模块包括:
1)Single-Pass新闻热点发现子模块(3.1),该子模块采用基于MapReduce的single pass算法;
2)KNN新闻热点发现子模块(3.2),该子模块采用基于MapReduce的KNN最近邻分类算法;
3)SVM新闻热点发现子模块(3.3),该子模块采用基于MapReduce的支持向量机SVM算法;
4)K-means新闻热点发现子模块(3.4),该子模块采用基于MapReduce的K平均聚类算法;以及
5)SOM新闻热点发现子模块(3.5),该子模块采用基于MapReduce的自组织映射SOM神经网络聚类算法;
其次,对上述各个新闻热点发现子模块所分别获取的所有新闻舆情热点进行汇总,进行以下分类判断:
如果获取的新闻舆情热点来源于上述三个以上热点发现子模块,则将该新闻舆情热点的类别标记为高级新闻舆情热点;
如果获取的新闻舆情热点来源于上述两个热点发现子模块,则将该新闻舆情热点的类
别标记为中级新闻舆情热点;
如果获取的新闻舆情热点仅来源于上述一个热点发现子模块,则将该新闻舆情热点的类别标记为初级新闻舆情热点;
最后,将所述高级新闻舆情热点、中级新闻舆情热点和初级新闻舆情热点依次发送到所述新闻舆情结果显示模块(4)。
10.根据权利要求9所述的新闻舆情监测系统,其特征在于:
所述新闻舆情结果显示模块(4)基于J2EE架构,可形成:新闻舆情信息热度排行报表、新闻舆情预警信息分布报表、新闻舆情地理信息分布报表、新闻舆情情感分析报表、新闻舆情状态统计报表以及新闻舆情趋势走向分析图。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论