数据可视化基本理论
通用的可视化流程:分析•处理-生成
一、分析
进行一个可视化任务时,我们首当其冲的当然是要分析,分析又分为三部分:任务、数 据、领域。
首先我们要分析我们这次可视化的出发点和目标是什么。我们遇到了什么问题、要展示 什么信息、最后想得出什么结论、验证什么假说等等。数据承载的信息多种多样,不同的展 示方式会使侧重点有天壤之别。只有想清楚以上问题,才能确定我们要过滤什么数据、用什 么算法处理数据、用什么视觉通道编码等等。
其次我们要分析我们的数据,这是至关重要的一步。因为每次可视化任务拿到的数据都 是不同的,数据类型、数据结构均有变化,数据的维度也可能成倍增加。
最后我们针对不同的领域,也要进行相应的分析。毕竟术业有专攻,可视化的侧重点要 跟着领域做出相应的变化。
二、处理
处理可以分为两部分:对数据的处理和对视觉编码的处理。
1.数据处理
在可视化之前我们要对数据进行数据清洗、数据规范、数据分析。
数据清洗和规范是必不可少的步骤。把无效的信息排除掉,可以减少我们的认知负担, 让数据更加突出。
数据分析中最简单的方法是一些基本的统计方法,如求和、中值、方差、期望等。
最后的可视化结果中我们肯定不可能把所有的数据统统展示出来,于是又涉及到包括标 准化(归一化)、采样、离散化、降维、聚类等数据处理的方法。
2.设计视觉编码
视觉编码的设计是指如何使用位置、尺寸、灰度值、纹理、彩、方向、形状等视觉通 道,以映射我们要展示的每个数据维度。
三、生成
这个阶段基本上就是把之前的分析和设计付诸实践,在制作或写代码过程中,再不断调 整需求、不断地迭代(有可能要重复前两步),曷后将数据用图像的方式呈现。
什么是数据可视化
1.数据可视化是尽可能高效传达一个故事或概念的方法。一张图片抵得上一千个字。
2.数据可视化是指如何使用颜、尺寸、形状等,从视觉上最好地呈现出某些基础数据, 从而像观众和读者传达信息或见解C
3.数据可视化结合故事和叙述成分,让作者与观众或者读者分享自己发现的有趣的事情和 见解。
4.我把数据可视化看作映射,将值映射到图像,可视化内容就是将数值转化成更易理解的 视觉图像。
5.数据可视化是将数字转化为图画或者故事,数据可视化允许我们以不同方式探索和理解 数
据。
6.人类的视觉系统处理信息的速度非常快,所以高质量的可视化数据有助于我们更快理解。
数据可视化的目的有两个:探索和阐释。
数据可视化成功的五个经验:
一.对内容背景有透彻的理解:了解谁是观众,他们要知道什么或者要做什么
二.恰当图像类型的选择:想让观众加何处理这些信息,何种图表或者视觉类型能让观众轻 松直接的处理信息
三.排除无效信息:识别并删除那些不会为图像增加信息价值的内容,这么做可以减少认知 负担,让数据显得更突出
四.吸引观众注意力,让他们为你的卖点买单:战略性地把颜、尺寸和页面布局作为指示 标志,把用户的目光吸引到最重要的点上
五.故事叙述:最成功的数据可视化案例会让其本身成为故事或叙述内容的关键点 视觉编码
视觉编码描述的是将数据映射到最终可视化结果上的过程。
数据类型
一.类别型数据
二.有序型数据
三.数值型数据:区间型数据、比值型数据
类型 | 基本操作/用途 | 集合操作 | 允许的统计计算 |
类别型 | 判断是否相等 =、* | 允许互.换元素同位讨 | 类别、模式、列联相关 |
有序型 | 判断大小 K、>、< | il律元素单调递增(减)关系 | 中值、百分位数 |
区间型 | 判断差别 | 允许兀素M线性加M操作 | 平均值、标准方差、等级相关、枳差 相关 |
比值型 | 判断比例 =、♦、>、<■+.・、X . -F | 能判断元素间的根似度 | 变异系数 |
人类视觉对不同视觉通道的敏感性
分类数据 Categorical | 有序数据 Ordinal | 定量数据 Quantitative | |
位置 position | 好 | 好 | 好 |
长度length | 好 | 好 | 好 数据可视化的概念 |
亮暗 luminance | 好 | 好 | 中 |
纹理 texture | 好 | 中 | 差 |
颜color | 好 | 中 | 差 |
角度angle | 好 | 差 | 差 |
形状shape | 好 | 差 | 差 |
视觉编码的选择优先级
序号 | 分类数据 | 定量数据 | |
1 | 位直 position | 位置 position | 位置 position |
2 | 调hue | 密度 density | 长度length |
3 | 纹理 texture | 饱和度 saturation | 角度angle |
4 | 连接 connection | 调hue | 斜率slope |
5 | 包含 containment | 纹理 texture | 面积area |
6 | 密度 density | 连接 connection | 体积volume |
7 | 饱和度 saturation | 包含 containment | 密度 density |
8 | 形状shape | 长度length | 饱禾口度 saturation |
9 | 长度length | 角度angle | 调hue |
10 | 角度angle | 斜率slope | 纹理 texture |
11 | 斜率slope | 面积area | 连接 connection |
12 | 面积area | 体积volume | 包含 containment |
13 | 体积volume | 形状shape | 形状shape |
视觉通道设计原则
一.一致性:可视化结果与数据直实蕴含的信息一致(诚实性)
文字标示清晰、完整
视觉度量和数字本身成比例
体现数字的变异,而不是设计的变异
•彩虹一般都要慎用
•要善用灰' 灰度
二.表达性:可视化结果充分且不多余地表达数据要传达的信息 用于表现数字变化的笔墨比重越高越好
内容为王,避免图标垃圾,增加信息/数字密度
信息分层
对比、证据综合
•3D图侧面/阴影元素费墨,且误导比例•淡化边框、网格、轴线、背景
•花哨的‘镀金"元素,应一律去除 •去掉所有无关元素
三.有效性:可视化之后表达效果更好
•人类视觉对面积不如长度敏感
•饼图承载信息量太稀,建议尽量少用 四.可理解性:可视化结果便干理解
可视化组件组合
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论