基于Hadoop和Spark的可扩展性化工类大数据分析系统设计
作者:***
来源:《粘接》2021年第06期
摘 要:针对易化学品数据的海量增长问题,如何对这些数据进行分析,进而为易
化学品交易提供参考,是当前思考的重点。对此基于易化学品海量增长的数据,结合Hadoop和Spark各自的优缺点,提出一种基于Hadoop+Spark的易化学品数据分析系统。为实现该系统,首先采用Hadoop+Spark的框架对系统进行搭建;将系统功能模块分为数据分析模块、ETL模块、可视化模块3个主要模块,并对上述功能模块进行详细设计与实现;提出用于易化学品价格预测的保序回归模型。最后搭建集服务器和系统运行环境,运行上述预测模型,得到价格预测的误差值较小,能较准确预测易化学品价格。
关键词:Hadoop框架;易化学品;大数据分析;保序回归模型
中图分类号:TP311.13 文献标识码:A 文章编号:1001-5922(2021)06-0081-03
Abstract:In view of the massive growth of precursor chemicals data, how to analyze these data and provide reference for precursor chemicals trading is the focus of current thinking. Based on the huge growth data of precursor chemicals, combined with the advantages and disadvantages of Hadoop and Spark, a data analysis system of precursor chemicals based on Hadoop + Spark is proposed. In order to realize the system, Hadoop + Spark framework is used to build the system; the system function mod
ule is divided into three main modules: data analysis module, ETL module and visualization module, and the above functional modules are designed and implemented in detail; the ordinal regression model for price prediction of precursor chemicals is proposed. Finally, the cluster server and system operating environment are built, and the above prediction model is run. The error value of price prediction is small, which can accurately predict the price of precursor chemicals.
Key words:Hadoop framework; precursor chemicals; big data analysis; ordinal regression model
要想对易化学品交易过程进行多角度、全方位的监控,就必须对相关数据进行实时分析处理,包括实时采集、数据流缓存、数据处理等环节,可是,现有研究主要关注于数据采集和数据处理等工作,反而忽略了数据清洗、数据缓存、数据布局等内容,这在一定程度上影響了实时数据的分析处理效率及效果。对此,一是基于Hadoop平台进行实时数据的分析处理。在实操中,利用HDFS系统进行数据储存,利用Map Reduce工具对实时数据进行快速处理,这为数据流的高效处置提供了技术支持。但HDFS对于实时数据流的适应性差,Ma
p Reduce在分析实时数据流的过程中可能出现数据丢失、分析延迟等问题,导致Hadoop系统对于实时数据的处理效能不佳。二是构建统一的云计算平台,它集成了Hadoop和Spark的应用优势,即Hadoop能够进行数据批量操作,Spark善于进行数据收集。因此,本研究结合两种并行处理框架的优势,对海量的化工类交易数据进行处理。
1 系统整体架构设计
本文系统选用Spark和HBase框架,引用Flume、Kafka等技术进行数据传输,能够对易化学品交易数据进行采集及分析,并利用可视化工具来展示数据分析结果。系统整体架构展示,如图1所示。
2 系统功能模块设计hadoop分布式集搭建
本文开发的易化学品数据分析系统包含数据分析模块,ETL模块,可视化模块,等3个功能模块,这3个功能能够对易化学品交易数据进行提取、存储及分析,从而为用户提供信息支持,包括化学品价格走势、化学品交易现状等。具体如图2所示。
在图2的模块中,ETL模块是由数据采集子模块、数据转换子模块、数据存储子模块构
成的,它整合了Spark Streaming、Kafka、Flume等多个组件,围绕用户的业务需求,利用Spark Streaming组件对交易数据进行筛选、转化等处理,最后将处理结果转存至HBase内。数据分析模块是由离线分析模块和实时分析模块构成的,前者从HBase中提取出历史交易数据,然后利用Spark ML对其进行模型训练,最终实现了价格预测的功能;后者遵循面向场景的原则,对ETL模块的处理数据进行更深层次的数据分析。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论