(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201810100200.2
(22)申请日 2018.02.01
(71)申请人 广东聚晨知识产权代理有限公司
地址 528000 广东省佛山市禅城区季华西
路133号3座12层04单元之二及05单元
(72)发明人 郑英 
(74)专利代理机构 佛山市智汇聚晨专利代理有
限公司 44409
代理人 张艳梅
(51)Int.Cl.
G06F  17/30(2006.01)
(54)发明名称
一种大数据智能化处理系统
(57)摘要
本发明提供了一种大数据智能化处理系统,
所述系统包括:大数据平台,用于存放接收已采
集的大数据;大数据预处理模块,用于对所述已
采集的大数据进行预处理;所述预处理用于实现
负载均衡、资源虚拟化和分布式数据存储管理;
智能分析模块,用于根据接收到的指令进行所述
大数据的分析,并综合利用大数据预处理模块提
供的数据,进行事件因果分析;用于获取用户的
应用服务请求;确定所述应用服务请求对应的处
理算法,以及利用所述应用服务请求对应的处理
算法和所述表征学习模块得到的所述事件因果
分析的高维向量,采用神经网络对所述高维向量
进行处理。应用本发明提供大数据智能化处理系
统,解决了传统数据处理方法实时性、高效性和
交互性较差的问题。权利要求书1页  说明书4页  附图1页CN 108304549 A 2018.07.20
C N  108304549
A
1.一种大数据智能化处理系统,其特征在于,所述系统包括:
大数据平台,用于存放接收已采集的大数据;
大数据预处理模块,用于对所述已采集的大数据进行预处理;所述预处理用于实现负载均衡、资源虚拟化和分布式数据存储管理;
智能分析模块,用于根据接收到的指令进行所述大数据的分析,并综合利用大数据预处理模块提供的数据,进行事件因果分析;
智能处理模块,用于获取用户的应用服务请求;确定所述应用服务请求对应的处理算法,以及利用所述应用服务请求对应的处理算法和所述表征学习模块得到的所述事件因果分析的高维向量,采用神经网络对所述高维向量进行处理。
2.根据权利要求1所述的一种大数据的智能处理系统,其特征在于,所述大数据平台操作界面至少包括以下功能中的一种或多种:具有可视化图表、分析报告、内容检索和消息推送/订阅。
3.根据权利要求1所述的一种大数据的智能处理系统,其特征在于,所述大数据预处理模块,通过分布式系统基础架构Hadoop存储所述已采集的大数据。
4.根据权利要求1所述的一种大数据的智能处理系统,其特征在于,所述大数据预处理模块用于实现负载均衡、资源虚拟化、分布 式数据存储管理和应用程序编程接口API接口功能。
5.根据权利要求1所述的一种大数据的智能处理系统,其特征在于,所述分析模块,用于实现即席查询/组合条件查询、多维OLAP、KPI指标、MDX查询等分析功能。
6.根据权利要求1所述的一种大数据的智能处理系统,其特征在于,所述分析模块也可以用以实现分类、
聚类、关联规则等数据挖掘功能,以及灵活的参数配置功能。
7.根据权利要求1所述的一种大数据的智能处理系统,其特征在于,所述智能处理模块用于根据预设数据信息进行实时公司情况实时评估;所述预设数据信息包括:人力、财务、物质和业务。
权 利 要 求 书1/1页CN 108304549 A
一种大数据智能化处理系统
技术领域
[0001]本发明涉及电子技术领域,尤其涉及一种大数据智能化处理系统。
背景技术
[0002]随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的中心,云计算、大数据正在成为一种趋势和潮流,包括存储容量、可用性、I/O 性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V:Volume (大量),数据量持续快速增加;Velocity(高速),数据I/O速度更快;Variety(多样),数据类型和来源多样化;Value(价值),其存在各方面的可用价值。如何从海量的数据中提取、获得想要的知识或感兴趣的信息,这是利用好大数据,进而更好地服务于社会发展的要求。因此,数据挖掘方法应运而生。
[0003]数据挖掘是作为一门学科诞生于20世纪80年代,从技术的角度看就是从大量复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。在大数据应用领域,往往可以根据用户的各种行为特征将用户体划分成若干类,以便于针对用户的特征进行精准式、个性化的服务。聚类是对用户体进行划分一种方式。聚类是将数据对象分成类的过程,使同一个类中的对象具有很高的相似度,而使不同类中的对象高度相异。相异度通常使用距离来进行度量。
[0004]但是,聚类操作中针对用户行为特征对用户体进行划分的效果在很大程度上依 赖于基础数据的质量,现有的基于聚类算法的用户体划分往往不能够很好的反映用户的行为特征,存在聚类不准确的问题,难以利用聚类结果对用户进行精准式、个性化的服务。
发明内容
[0005]本发明的目的在于提供一种大数据智能化处理系统,解决了传统数据处理方法实时性、高效性和交互性较差的问题,帮助用户实时地感知企业情况,从而提高企业管理效率和业务处理水平。
[0006]为了达到上述目的,本发明公开了一种大数据智能化处理系统,所述系统包括:大数据平台,用于存放接收已采集的大数据;
大数据预处理模块,用于对所述已采集的大数据进行预处理;所述预处理用于实现负载均衡、资源虚拟化和分布式数据存储管理;
智能分析模块,用于根据接收到的指令进行所述大数据的分析,并综合利用大数据预处理模块提供的数据,进行事件因果分析;
智能处理模块,用于获取用户的应用服务请求;确定所述应用服务请求对应的处理算 法,以及利用所述应用服务请求对应的处理算法和所述表征学习模块得到的所述事件因果分析的高维向量,采用神经网络对所述高维向量进行处理。
[0007]作为本发明的一种优选技术方案,所述大数据平台操作界面至少包括以下功能中
的一种或多种: 具有可视化图表、分析报告、内容检索和消息推送/订阅。
[0008]作为本发明的一种优选技术方案,所述大数据预处理模块通过分布式系统基础架构Hadoop存储所述已采集的大数据。
[0009]作为本发明的一种优选技术方案,所述大数据预处理模块用于实现负载均衡、资源虚拟化、分布 式数据存储管理和应用程序编程接口API接口功能。
[0010]作为本发明的一种优选技术方案,所述分析模块,用于实现即席查询/组合条件查询、多维OLAP、KPI指标、MDX查询等分析功能,同时实现分类、聚类、关联规则 等数据挖掘功能,以及灵活的参数配置功能;
作为本发明的一种优选技术方案,所述智能处理模块用于根据预设数据信息进行实时公司情况实时 评估;所述预设数据信息包括:人力、财务、物质和业务。
数据可视化图表分析
[0011]与现有技术相比,本发明有如下优点:
1、处理速度快:系统架构方案采用大数据技术对计算、存储任 务进行合理调度,可以充分发挥系统中每一个集节点的运算能力; 业务需求增长时,能够方便地通过添加集节点来扩展系统规模、 提升系统性能。
[0012]2、用户体验较好:系统支持多种终端运行,支持各级校情指标 的实时可视化,提供简单直观的交互方式;
3、灵活度高:可以根据本企业的实际情况灵活创建、配置分析 模型;系统采用分层设计,易于部署实施、升级维护。
附图说明
[0013]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本发明实施例提供的大数据的智能分析系统的结构示意图。
具体实施方式
[0015]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0016]图1为本发明实施例提供的大数据的智能分析系统的流程示意图,该方法包括步骤:
大数据平台11,用于存放接收已采集的大数据;
大数据预处理模块12,用于对所述已采集的大数据进行预处理;所述预处理用于实现负载均衡、资源虚拟化和分布式数据存储管理;
智能分析模块13,用于根据接收到的指令进行所述大数据的分析,并综合利用大数据预处理模块提供的数据,进行事件因果分析;
智能处理模块14,用于获取用户的应用服务请求;确定所述应用服务请求对应的处理
算 法,以及利用所述应用服务请求对应的处理算法和所述表征学习模块得到的所述事件因果分析的高维向量,采用神经网络对所述高维向量进行处理。
[0017]本实施例中,整个分析平台是基于开源的Hadoop架构实现云 平台,集硬件配置如下:16核32线程的CPU,64或128的GB 的内存,由CPU的主板控制器直接连接的多张预设转速的硬盘(总 存储达24TB),并采用千兆以太网构建集。其中,硬盘的数量和 转速可以根据需要进行设置,如数量为20,转速为3600r/s等。
[0018]其中,Hadoop集有四种基本任务角:名称节点(包括备用 名称节点)、工作追踪节点、任务执行节点和数据节点。名称节点负 责协调集上的数据存储;作业追踪节点负责协调数据处理任务; 任务执行节点负责进行数据采集、数据处理等任务;数据节点负责 存储数据。集内大部分的节点需要同时作为数据节点和任务执行 节点。
[0019]在Hadoop集的基础上,通过Map/Reduce来实现对分布式并 行任务处理的支持。Map/Reduce是一个用于大数据量并行计算的编 程模型,同时也是一种高效的任务调度模型,它将一个大任务分成 很多更细粒度的子任务,通过在空闲的处理节点之间进行子任务调 度,避免处理速度慢的节点延长整个任务的完成时间。
[0020]本发明中,整个智能分析平台包括三大部分,如大数据预处理模块11、智能分析模块12和智能处
理模块14;其中,大数据预处 理模块11内搭建了大数据仓库,用于存储ETL过程抽取的数据源 中的关键原始数据,在大数据仓库的基础上构建多维数据集(Cube), 为系统分析、展示提供数据支持。
[0021]大数据预处理模块12还用于通过云平台管理模块实现对底 层节点设备的负载均衡、资源虚拟化、分布式数据存储管理、容错 策略管理和提供API接口等功能,实现了大数据处理和管理。
[0022]上述的数据源是企业各业务部门独立所有的业务系统及数据 库,包括人事处数据、财务处数据、研发部门数据、财务处数据、 市场部数据、评估处数据、互联网部数据和综合管理数据;其中, 上述部分可能会细分很多小部门,如市场部可能还包括秘书组,市 场组等,此时的数据均包括在市场部中。大数据预处理模块,通过分布式系统基础架构Hadoop 存储所述已采集的大数据,并且用于实现负载均衡、资源虚拟化、分布 式数据存储管理和应用程序编程接口API接口功能。
[0023]所述智能分析模块13,用于实现即席查询/组合条件查询、多维OLAP、KPI指标、MDX 查询等分析功能,同时实现分类、聚类、关联规则 等数据挖掘功能,以及灵活的参数配置功能;指标评估模块,用于根据预设数据信息进行实时公司情况实时 评估;所述预设数据信息包括:人力、财务、物质和业务。
[0024]上述的大数据仓库基于HDFS和Hive实现,采用分布式存储 方式集中了企业各相互独立的业务系统中的海量数据,为多维数据 集提供数据。进一步的,大数据仓库中的数据以维度和事实表的形 式存
储,这里的维度是数据的属性,表示分析数据的角度,类型有 一般维度、时间维度和渐变维度;事实表是存储所要分析的数据的 主表,只包括主键、外键和度量值。
[0025]操作界面至少包括以下功能中的一种或多种:具有可视化图表、分析报告、内容检索和消息推送/订阅。
[0026]本发明实施例中,智能处理模块14采用Javaweb技术搭建了 B/S模式的系统客户

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。