大数据与数据可视化(3)
大数据与数据可视化(3)
胡经国
数据可视化的五个步骤
1、前言
⑴、从海量数据中抓到关键信息越来越难
数据被称作是最新的商业原材料21世纪的石油。商业领域、研究领域、技术发展领域使用的数据总量非常巨大,并且还在持续增长。例如,每年从ScienceDirect(全文数据库)下载的文章有7亿篇Scopus(斯高帕斯)数据库(Scopus收录了来自全球4000家出版社的19000来源种期刊,是全球最大的文摘和引文数据库,是为科研人员提供一站式获取科技文献的平台)上的机构档案有8万个研究人员档案有13万;Mendeley(是一款免费的跨平台文献管理软件,同时也是一个在线的学术社交网络平台)上的研究人员档案有3万。对于用户来说,要从海量数据中抓到关键信息越来越难。
⑵、数据可视化的目的
许多先进的数据可视化方式如:网络图、3D建模、堆叠地图被用于特定用途例如3D医疗影像、模拟城市交通、救灾监督等。但无论一个数据可视化项目有多复杂,可视化的目的是帮助读者识别所分析的数据中的一种模式或趋势,而不是仅仅给他们提供冗长的描述出的数据可视化项目应该总结信息,并且把信息组织起来,让读者注意力集中于关键点上。
2、包含五个步骤的数据可视化指南
本文提供一份包含五个步骤的数据可视化指南为了给想要用表格、图形来传播观察结果和解读分析结果的人士提供帮助,要记住,建立一个好的数据可视化项目是一个反复迭代的过程。
⑴、第1步:明确问题
在开始创建一个数据可视化项目时,第一步是明确要回答的问题,或者试着回答下面的问题这个数据可视化项目会怎样帮助读者
⑵、第2步:建立一个基本图形
在确定数据可视化项目的目标以后,下一步是建立一个基本图形。它可能是饼图、线图、流程图、散点图、表面图、地图、网络图等等取决于手头的数据是什么样子。在明确图表该传达的核心信息时,需要明确以下几件事:我们试图绘制什么变量X轴和Y轴代表什么数据点的大小有什么含义颜有什么含义我们试图确定与时间的有关趋势,还是变量之间的关系
有些人使用不同类型的图表实现相同目标,但是这里并不推荐这样做。不同类型的数据各自有其最适合的图表类型。比如,线形图最适合表现与时间有关的趋势,或者是两个变量的潜在关系。当数据集中的数据点过多时,使用散点图进行可视化会比较容易。此外,直方图展示数据的分布。直方图的形状可能会根据不同组距而改变,见图1(图源:网络)。在绘制直方图时,本质上是在绘制柱状图来展示特定范围内有多少数据点。这个范围叫做组距。
图1当组距变化时,直方图形状也发生变化
组距太窄了会导致起伏过多,让读者只盯着树木却看不到整个森林。此外,你会发现,在完成下一个步骤以后,你可能会想要修改或更换图表类型。
⑶、第3步:确定最能提供信息的指标
数据可视化什么意思
假设我们有另一个关于某研究机构出版物数量的数据库见表1;资料来源:网络。在数据可视化过程中最关键的步骤是充分了解数据库以及每个变量的含义。从表2中可以看出
表1用B列数据除以D列得到新的指标相对活跃程度E栏
在A领域SubjectA),此机构出版了633篇文章,占此机构全部文章的39%相同时间内全球此领域共出版了27738篇文章,占全球总量的44%。注意,B列中的百分比累计超过100%,因为有些文章被标记为属于多个领域。
在这个例子中,我们想了解此机构在各个领域发表了多少文章。出版数量是一个有用的指标不仅如此,与下面这些指标对照会呈现出更多信息:此领域的研究成果总量B列此领域的全球活跃程度
由此,我们可以确定一个相对活跃的指标,1.0代表全球平均活跃程度。高于1.0代表高于全球水平低于1.0代表低于全球水平。用B列的数据除以D列,得到这个新的指标相对活跃程度E栏见表1。
⑷、第4步:选择正确的图表类型
现在我们可以用雷达图来比较相对活跃指数,并且着重观察指数最高最低的研究领域。例如,此机构在G领域的相对活跃指数最高1.8)。但是,此领域的全球总量远远小于其他领域见图2;图源:网络。
图2相对活跃指数雷达图

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。