基于Hadoop平台的大数据可视化分析实现与应用
摘要:数据是数字经济的“石油”,数据的价值不仅在于数据量,更在于如何让数据有效释放能量。数据挖掘、数据可视化成了“石油”精炼进而充分燃烧的手段。数据可视化随着大数据时代应运而生,通过业务人员或分析人员的经验、行业知识以及现实商业背景信息结合起来,通过数据可视化挖掘数据之中隐藏的信息和知识,如了解用户需求、用户习惯、用户偏好等,帮助业务人员及时掌握现状,有针对性地制定业务决策。本文围绕数据可视化的概念、数据可视化技术、数据可视化的意义进行了初步研究,为商业分析新手提供借鉴。本文对基于Hadoop平台的大数据可视化分析实现与应用进行分析,以供参考。
关键词:大数据;可视化;Hadoop 平台
引言
hadoop分布式集搭建大数据是以容量大、类型多、存储速度快、应用价值高为主要特征的数据集合。近年来,包括互联网、物联网、云计算等信息技术在内的IT通信业迅速发展,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,因此现代信息社会已经进入了大数据时代。事实上,大数据
改变的不只是人们的日常生活和工作模式、企业运作和经营模式,甚至还引起科学研究模式的根本性改变。
1大数据
数据的类别和体量影响着设计的目的、方法和形式。“大数据”以数据量、速度和多样性等特征区别于一般数据类型,在进行捕获、整理、管理、处理等活动时都需要计算机的支持。每天,人们会创建数万亿字节的数据,这些数据来自于气候、社交媒体网站、购买交易记录、GPS信号等渠道,不断产生的、拥有庞大体量的数据可以被称为“大数据”。大数据提取技术的成熟、可访问性的增强及海量数据结构所引发的美学挑战等,使“大数据”成为目前“数据可视化”研究的主要内容。与大数据相对的是小体量的数据,典型的是个人数据,个人数据被看作是个人日常生活中产出的内容——一段旅程、一段聊天记录、一段社交关系。个人数据所展现的独特视角与人文关怀同时也可以作为数据可视化设计实践的素材与主题。综上,可以发现:数据即事实、符号与信号;当今世界所依赖的数据,本质上更具计算性,但它们既不能理解也不能模拟人们大脑进行工作,因此在传达时,需要考虑用户的思考方式与感知行为;“数据”往往与“信息”捆绑,从启蒙运动到近代,数据一直是信息的载体。相同的数据在不同的背景下会产生不同的含义,为了更好地提取或推断信息,需要考量数据语境这一因素。
2数据可视化概述
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。而大数据是指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样性的信息资产。大数据从结构上划分分为三类:结构化数据、半结构化数据、非结构化数据。大数据具有这4个特点:数据容量大(volume)、数据类型多(variety)、获取数据速度快(velocity)、数据价值密度低(value)。以往企业的大量数据主要被IT部门掌管,业务部门或者分析人员如果要进行数据分析,往往需要面临着“流程冗余、周期冗余”的问题。但数据在业务部门或者分析人员手中,才能创造更大的价值,数据可视化能够帮助人们读懂数据,了解现状以及预测变化趋势,从而提供业务决策支持。数据可视化将数据集中的数据以图形、表格、数值等的形式表示,并利用相应的算法和工具对数据进行定量的推演和计算,从多角度多方面剖析数据,从而发现其中未知信息的处理过程。
3可视化的视觉情感
视觉情感关乎数据可视化的创建形式,在满足使用功能的同时,从产品的使用场景、用户的心理与行为习惯等特征出发,突破数据可视化自19世纪以来就存在的常规的表达形式。设计师Guillaume更新了传统运动界面的可视化形式,在视觉设计中,整体采用了CD光盘的形式,与个人运动时的听歌习惯建立起了联系,打破了原有冰冷的数据折线显示,增加了互动环节,为跑步带来了更丰富的体验。这种设计方法所遵循的概念便是数据人文主义,关注用户体验,在视觉上能够有效地处理数据与用户的心理认知问题。另外,这里所说的视觉,并不意味着产出的形式拘泥于平面或限制在屏幕内,也可以是空间化的表达方式,因为各个知觉对人接收和处理信息都有不同层面的作用。
4大数据可视化技术分析
Hive是用于Hadoop平台的一种分布式数据分析框架,它不仅能够实现Hadoop平台的数据存取和转换,还提供了丰富的SQL查询处理手段.为了衔接底层并行处理结构,Hive的查询语句被系统转换为Map和Reduce函数.利用这两个函数实现并行处理,可以极大地降低查询成本.同时,与HDFS类似,它也采用流模式进行数据输入和输出,不支持数据的随机存取.但是Map和Reduce函数的转换需要消耗一定的资
源,因此对大规模查询,效率将会下降,其实时查询的效果也不佳.HBase是一种基于HDFS的数据库,且它是开源和基于列的,通常传统数据库均是基于行进行数据存取和查询的,而HBase则基于列进行相关操作.它的另外一个重要特征是可以用于存储非结构化数据(这正是大数据环境下亟待解决的问题).传统数据库一般用于存储符合某一范式的结构化数据,但是大数据时代,非结构化数据将成为主流(如网络平台上发布的照片,其分辨率、格式、颜模式等不可能完全统一).
5系统的设计与实现
大数据可视化呈现是基于平台中所有相关企业的业务数据构建的,由于原始数据采用的是多类型数据库系统,且业务数据一般分散存储在不同的服务器上,因此首先需要将数据集成,把分散的企业数据从分布式数据库集成到Hadoop集中,从而完成初始数据收集.接下来,本系统根据可视化需求构建数据空间,并以此搭建Hive预处理数据库.基于初始提供数据的结构以关系型数据库为主,需利用迁移工具Sqoop将数据从关系型数据库迁移至Hadoop的HDFS存储器上,进而再将其加载到便于检索、查询的Hive数据库.然后利用HQL语句对数据进行查询分析,并将查询结果存入HBase数据库,接下
来将相应的查询结果与可视化的设计主题相结合,构造对应的可视化模型,并将模型以固定形式存入到HBase,最后使用Echarts可视化插件对分析模型进行图形可视化呈现.
结束语
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
参考文献
[1]曾繁超.基于PaaS平台的矢量关系化数据可视化方法[J].信息技术,2022(03):127-132.
[2]陈小英.基于宏观经济大数据应用的可视化决策支持系统构建研究[J].长江信息通信,2022,35(03):168-171.
[3]黄凯,章铖.一种基于大数据的可视化数据治理平台的研究[J].电子制作,2022,30(06):36-38+23.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论