(19)中华人民共和国国家知识产权局
正则匹配快代理 | (12)发明专利说明书 | |
(10)申请公布号 CN 107908683 A (43)申请公布日 2018.04.13 | ||
(21)申请号 CN201711044154.0
(22)申请日 2017.10.31
(71)申请人 安徽四创电子股份有限公司
地址 230088 安徽省合肥市高新技术产业开发区香樟大道199号
(72)发明人 余保华 邓惠元 范联伟 徐圣吉 展昭 张金国 吴磊 胡鸿超
(74)专利代理机构 合肥和瑞知识产权代理事务所(普通合伙)
代理人 王挺
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
无线城市大数据离线处理系统及其大数据离线处理方法 | |
(57)摘要
本发明属于无线城市数据处理技术领域,特别涉及一种无线城市大数据离线处理系统及其大数据离线处理方法。本发明包括定时增量模块、抽取匹配模块、存储模块、分析模块以及统计模块,所述定时增量模块用于获取无线城市大数据的定时增量数据;抽取匹配模块用于读取所述定时增量数据,抽取匹配数据;存储模块用于接收并存储来自抽取匹配模块的匹配数据;分析模块用于读取并分析存储于存储模块中的匹配数据;统计模块用于统计并展示所述分析模块分析后的匹配数据。本发明采用HDFS文件系统,集多台Hadoop集于一体,便于扩展,在HDFS文件系统上搭建的非关系型数据库HBase,实现将亿级无线城市大数据存储起来,满足了无线城市中的大数据量统计的需求。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2021-07-16 | 发明专利申请公布后的驳回 | 发明专利申请公布后的驳回 |
2018-05-08 | 实质审查的生效 | 实质审查的生效 |
2018-04-13 | 公开 | 公开 |
权 利 要 求 说 明 书
1.无线城市大数据离线处理系统,其特征在于:包括定时增量模块(10)、抽取匹配模块(20)、存储模块(30)、分析模块(40)以及统计模块(50),其中,
定时增量模块(10),用于获取无线城市大数据的定时增量数据;
抽取匹配模块(20),用于读取所述定时增量模块(10)获取到的定时增量数据,并对所述定时增量数据进行抽取匹配,得到匹配数据;
存储模块(30),用于接收并存储来自抽取匹配模块(20)的匹配数据;
分析模块(40),用于读取并分析存储于存储模块(30)中的匹配数据;
统计模块(50),用于统计并展示所述分析模块(40)分析后的匹配数据。
2.如权利要求1所述的无线城市大数据离线处理系统,其特征在于:所述存储模块(30)包括数据内容库和数据来源库;所述数据内容库按照键值的方式存储匹配数据的内容,所述数据来源库用于存储匹配数据的来源。
3.如权利要求2所述的无线城市大数据离线处理系统,其特征在于:所述分析模块(40)运用无线城市大数据计算框架分析存储于存储模块(30)中的匹配数据。
4.如权利要求3所述的无线城市大数据离线处理系统,其特征在于:所述定时增量模块(10)和抽取匹配模块(20)构成了本大数据离线处理系统的业务层;所述业务层由功能层提供数据支持和决策依据,所述功能层包括统计模块(50);所述功能层由平台层提供软件基础,所述平台层包括分析模块(40);所述平台层由基础层提供大数据离线处理环境,所述基础层包括存储模块(30)。
5.一种如权利要求4所述的无线城市大数据离线处理系统的大数据离线处理方法,其特征在于,包括以下步骤:
S1、配置并运行定时增量模块(10),定时增量模块(10)获取无线城市大数据的定时增量数据,将定时增量数据存储至存储模块(30)中的关系型Mysql数据库;
S2、配置并运行抽取匹配模块(20),所述抽取匹配模块(20)读取定时增量模块(10)中的定时增量数据,对所述定时增量数据进行抽取匹配,得到匹配数据,并将所述匹配数据发送至存储模块(30);
S3、所述存储模块(30)接收并存储来自抽取匹配模块(20)的匹配数据,将匹配数据存储至分析模块(40)中的HDFS文件系统,存储模块(30)将关系型Mysql数据库中的定时增量数据存储至非关系型Hive数据库;
S4、所述分析模块(40)读取并分析存储于HDFS文件系统中的匹配数据得到分析前的数据,运用无线城市大数据计算框架对分析前的数据进行数据分析得到分析后的数据;
将所述分析前的数据存储至非关系型Hive数据库中,将所述分析后的数据存储至关系型Mysql数据库中;
S5、所述统计模块(50)统计并展示分析后的数据。
6.如权利要求5所述的无线城市大数据离线处理系统的大数据离线处理方法,其特征在于:步骤S1中的配置并
运行定时增量模块(10)是根据cron表达式的时间设定方式,来配置定时增量模块(10)的定时运行方式,所述定时增量模块(10)的定时运行方式包括设置每天定时定点运行、设置间隔t时间运行一次。
7.如权利要求6所述的无线城市大数据离线处理系统的大数据离线处理方法,其特征在于:步骤S2中的配置并运行抽取匹配模块(20)是通过正则表达式匹配的方式,匹配出需要保留的信息或者匹配出需要删除的信息。
8.如权利要求7所述的无线城市大数据离线处理系统的大数据离线处理方法,其特征在于:步骤S3中的所述匹配数据是按照缓存队列中依次排队的机制存储至HDFS文件系统。
9.如权利要求8所述的无线城市大数据离线处理系统的大数据离线处理方法,其特征在于,步骤S4中的运用无线城市大数据计算框架对分析前的数据进行数据分析得到分析后的数据的具体操作步骤包括:将分析前的数据运用大数据处理工具Hive进行数据处理,得到中间处理文件,根据中间处理文件不同的业务需求,编写相应的MapReduce程序。
10.如权利要求9所述的无线城市大数据离线处理系统的大数据离线处理方法,其特征在于:所述分析前的数据包括图片文件、操作日志文件、域名流量日志、协议维度流量日志、行为日志、基本流量日志、基本时长日志、通道流量日志、准入访问日志。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论