基于 Hadoop的企业大数据平台 解决方案
摘要伴随企业信息化建设的深入推进以及物联网技术的广泛应用,大量以ERP应用系统为主的结构化数据以及过程管控、设备监测、产品运行产生的非结构化数据呈爆发式增长。为解决传统信息资源管理技术在应对大数据问题时存在的缺陷,本文提出了一种基于Hadoop生态系统的企业大数据解决方案。该方法将企业数据划分为结构化与非结构化两类。针对两类数据处理过程中的采集、存储、分析计算及应用四个阶段,阐述了系统建设的总体设计与软件架构,为企业信息化建设提供一种高效、可扩展的低成本解决方案。
关键词大数据,分布式,Hadoop,ERP
0引言
21世纪是“互联网+”与大数据时代,以制造企业为例,一方面在逐渐引入 ERP、PLM、MES 等系统后,在财务、绩效、客户关系、库存和营销管理、质量控制、供应链等众多领域内激增海量数据;另一方面又被数据所困,无法进行有效管理和分析。
传统企业采取的普遍应对策略是[1]:增加应用系统的机器性能和存储空间,备份历史数据,减
少应用系统的数据存储量和系统压力,从而提高业务数据处理能力。但该策略存在以下不足:(1)后端关系型数据库,存储能力和并发能力有限,不易扩展。(2)现有数据模型和计算系统并不适合非结构化分析。(3)没有达到高效的计算和存储资源的分配与调度。(4)未能实现易扩展的计算支持中间件,不易于企业扩展新的业务逻辑。大数据技术为企业提供了高效、可扩展的低成本解决方案。
1相关概念及定义
IBM最早给出其三“V”特性[2],Volume是处理数据量正从TB级跨越到ZB级,Variety是处理的数据类型从以结构化类型为主过渡到结构化和非结构化两种数据类型共存, Velocity是对数据处理的响应时间从批处理响应时间到实时的流数据处理响应间。孟小峰[3]等人指出大数据的定义可在把握3V的基础上适当考虑4V(Value)特性,后有学者延伸出5V(Veracity)、6V(Vender)等定义。
大数据通常是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产[3]
2总体设计
本文提出的基于Hadoop的企业大数据解决方案采用“两类数据四个阶段”的总体设计思路。即将数据来源划分为抽取自企业信息系统内部的结构化数据及来自信息平台外部的非结构化数据。选取先进的大数据应用技术作为企业整体数据管理的基础,对应数据处理过程中采集、存储、计算和应用四个阶段,将整个平台划分为抽取层、存储层、分析计算层及数据展现层。
抽取层:是整个系统的基础及输入。将数据从以ERP组系统为核心的数据库中抽取出来并对数据进行检验和清洗。SAP BW的底层模块包含ERP系统数据的ETL流,其它非结构化数据采用大数据技术进行采集和抽取,并实现Hadoop与传统数据库之间的数据传递,将部分关系型数据库中的数据导入到HDFS中。
存储层:该层是进行数据分析和数据挖掘的数据源,将经过检验及清洗的数据进行有效整合和实时传输。企业信息系统的数据类型复杂,数据来源不一,需要根据数据类型及运算要求选择存储方式。对于从ERP系统提取的结构化数据可直接装载至BW的数据仓库模块中进行存储;对于ERP系统中无法直接提取的大量数据取自外部文件,包括OFFICE文件、文本文
件、WEB文件、设备监测数据等,此类数据大多为半结构化或非结构化数据,引入列式存储技术,采用基于Hadoop的分布式存储系统HDFS进行存储。
分析计算层:该层是数据存储和上层数据展现工具之间的桥梁,不仅包含数据分析及运算,还需了解数据分析工作的背景和环境,企业信息数据来源多样,对数据读取及处理的响应要求均比较高。基于Hadoop集的分布式系统采用本地计算模式,即数据存储和计算位于同一台服务器,以减少网络数据传输,降低网络带宽的要求。同时,在基于Hadoop的并行计算模式下,计算节点可根据需要进行扩充,以提高其计算性能。
数据展现层:企业信息化建设的最终目的。引入可视化技术,将大数据分析的结果形象地展示给用户,方便用户理解和接受,引导用户逐步进行分析,辅助企业经营决策,增强企业综合竞争力。
3软件架构
hadoop分布式集搭建利用基于Hadoop的大数据技术对“两类”数据进行四个阶段的处理。在数据抽取层面,采用Sqoop、Flume作为ERP系统外部数据的ETL工具,对数据进行检验和清洗,实现Hadoop与
传统数据库之间的数据传递。针对大数据的数据量庞大的特点,在方案设计过程中,采取分布式存储策略。通过NoSQL工具HBase建立分布式的列存储数据库;运用基于Hadoop的Hive建立分布式数据仓库,方便将SQL语句转换为MapReduce任务运行并进行数据的统计分析;使用Pig等实现半结构化数据集的查询。在硬件服务器支撑方面,为降低存储成本,可以采用廉价的服务器集或者企业原有的存储设备,搭建分布式存储系统,实现海量数据的分布式存储。在数据的分析计算层,针对数据类型繁多、传统事务性数据的实时性等特点,运用MapReduce、Spark等框架实现大规模数据集的并行计算(例如离线批处理、流数据处理、在线实时计算等),及时捕捉数据变化。最后通过HTML5或其它数据可视化技术开发基于Web的数据展现工具。
图1 基于Hadoop的企业大数据解决方案软件架构
4结论
本文将大数据分析中所需的高效数据存储技术和高性能处理能力与企业信息化所需的数据分析和挖掘进行有机结合,按照“两类数据四个阶段”的总体设计思路,提出了基于Hadoop的企业大数据平台系统框架。结合企业数据现状,围绕Hadoop生态系统,结合SAP BW模块,构建符合大数据特点并具有较高扩展性的系统软件架构。通过对数据进行抽取,经过清洗、转换和集成过程,再利用数据挖掘等方法对数据进行分析和计算并最终展现给用户。基于此解决方案,能够为企业管理层进行准确决策提供有效信息,为企业未来发展中的信息化工作奠定坚实的基础。
参考文献
[1]张德刚,张德海;面向大数据分析的企业信息化解决方案研究;电力信息通信体系;2014年第卷第9期
[2]陈吉荣,乐嘉锦;基于Hadoop生态系统的大数据解决方案综述;计算机工程与科学;Vol.
35,No.10,Oct.2013
[3]Meng Xiaofeng,Ci Xiang;Big data management: Concepts,techniqus and challenge[J];Journal of Computer Research and Development;2013,50(1):146-169(in Chinese)(孟小峰,慈祥;大数据管理:概念、技术与挑战[J];计算机研究与发展,2013,50(1):146-169)
[4]Ghemawat S,Gobioff H,Leung S T;The google file system[C];Proc of the 19th ACM Symposium on Operating System Principles,2003:29-43
3

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。