数据可视化基础——数据模型
数据说⽩了就是⼀组可定性或可量化的值。随着计算机存储能⼒的⼤幅提⾼,⼈们对于数据的关注与⽇俱增,「⼤数据」⼀词近⼏年来也被⼈们频频提及。⽽数据可视化的主要任务是将数据转换为易于感知的图形。因此,为了更准确更形象的表达数据,我们需要了解⼀些数据相关的概念。
数据模型与概念模型
为什么数据能代表我们的世界?要回答这个问题,我们得先了解数据和概念两个模型。
数据模型是⼀组数字或符号的组合,它包含数据的定义、类型等,可以进⾏各类数学操作等。概念模型描述的是事物的语义或状态⾏为等。现实 => 概念 => 数据
现实世界可以⽤概念模型来描述,⽽概念模型⼜可以⽤数据模型来描述。经过两层抽象,数据便可以描述我们的现实⽣活中的⽅⽅⾯⾯。
数据类型
⼀个东西具体归为哪⼀类,取决于我们⽤什么标准划分,数据亦然。
从数据在计算机中的存储可分为浮点数、整数、字符等;从关系模型的⾓度分,数据⼜可以分为实体和关系两类;从数据的结构来分,可以分为⼀维、⼆维、三维、多维、时间序列、空间序列、树型、图型等等[3];还有很多的分类⽅法,我们暂时先不讨论,把关注点聚焦到和数据可视化有关的分类⽅法上。
按照测量标度来分,数据⼀般被分为四类:类别型、有序型、区间型、⽐值型。
类别型数据⽤于区分事物。例如,⼈可以分为男⼥,⽔果能分为苹果⾹蕉等。
有序型⽤来表⽰对象间的顺序关系。例如,我们的⾝⾼可以从矮到⾼,学⽣的成绩可以从低到⾼排列等。
区间型⽤于对象间的定量⽐较。例如,⾝⾼ 160cm 与⾝⾼ 170cm 相差 10cm,⽽ 170cm 与 180cm 也相差 10cm,它们俩的差值是相等的。由此可见,区间型数据基于任意的起始点,所以它只能衡量对象间的相对差别。
⽐值型⽤于⽐较数值间的⽐例关系。例如,体重 80kg 是体重 40kg 的两倍。
不同的数据类型适⽤于不同的操作[1]:
数据类型操作集合操作统计操作
类别型=、≠互换元素位置类别、模式、列联相关
有序型=、≠、>、<;计算元素单调递增(减)中值、百分位数
区间型=、≠、>、<、+、-元素间线性加(减)平均值、标准⽅差、等级相关、积差相关
⽐值型=、≠、>、<、+、-、×、÷元素间相似度变异系数
不过,在数据可视化中,我们通常不特别区分区间型和⽐值型,将其统称为数值型。进⽽可将数据类型进⼀步精简为三种:类别型、有序型、数值型。具体为什么要分为这三类,我相信你看完下⼀篇之后会完全明⽩。
例⼦
说了那么多,都⽐较抽象,不如直接来看个例⼦。下⾯是⼀个简单的数据表,每⼀⾏通常称作⼀条记录,每⼀列称作⼀个字段,共有⼏个字段,则通常就说这份数据有⼏个维度。
id类型款式尺码销量年增长
1男款上⾐L5010%
2⼥款上⾐S355%
3⼥款裤⼦M4020%
id类型款式尺码销量年增长
4男款上⾐XL3015%
对照我们上⽂的概念,不难判断出上表中:
类型、款式为类别型数据;
id、尺码为有序型数据;
销量和年增长为数值型数据。
总结
⾄此,其实本⽂的任务就已经完成了。通篇传递的最重要的知识就是数据可视化中的三⼤数据类型,消化了这点,下⼀篇就能更好的理解。欢迎各位在我博客⽂末留⾔讨论(如果看不到评论框可能是因为你没有科学上⽹)。
参考⽂献
[1]
[2]
[3]Shneiderman B. The eyes have it: a task by data type taxonomy for information visualizations[C]// Visual Languages,
数据可视化的概念1996. Proceedings. IEEE Symposium on. IEEE Xplore, 1996:336-343.
[4]
本作品采⽤进⾏许可。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。