数据可视化的本质:⾼效利⽤视觉与沟通
1
我们可以⽤眼睛、⽿朵、⿐⼦等各种感官来接触、感受、理解这个世界。科学研究表明,进⼊⼤脑的信息有75%来⾃视觉,进⼊或离开中枢神经系统的纤维细胞占 38%。⽽视⽹膜上有 1亿个传感器,但只有 500万个能够将信息从视⽹膜传递到⼤脑。这表明,实际上眼睛处理的信息要多于⼤脑处理的信息,可以说眼睛过滤了信息。
也许⼈类最有价值的器官就是眼睛。正是因为⼈类具备了优良的视⼒,所以才能在狩猎或采集活动中保持较⾼的效率,判断环境的风险,很好地躲避猛兽的袭击。⼈类对于信息摄取的速度,视觉器官是占绝对主导地位的。因此我们可以充分利⽤⼈类最为⾼效的信息获取器官——眼睛,来快速吸收、加⼯和处理信息。在越来越强调效率的今天,与其听长篇⼤论的汇报,还不如亲⾃看看来得快。
“视觉感知并⾮是记录刺激物质的被动过程,⽽是⼤脑的主动关注,视觉是选择性的⼯作,对外形的感知包括对形式分类的应⽤,因其简单性和⼀般性⼜被称为视觉概念。”
——奥恩海姆《视觉思维》
⼈类的视觉同样存在诸多缺陷。⽐如,⼈们在已有的认知或经验的基础上,视觉系统对客观事物进⾏了某
种最合理、最可能的解释,但在特定条件下,这种解释往往容易产⽣偏差,就形成了错觉。举个例⼦(图3-1):缪勒-莱尔错觉(Maller-Lyer Illusion)发现末端加上向外的两条斜线的线段⽐末端加上向内的两条斜线的线段看起来长⼀些。⽽著名的艾宾浩斯错觉(Ebbinghause Illusion)则表明⼈类对圆形⼤⼩的感知极易受参照物的影响。诸如此类⼈类认知的视错觉还有很多。
图3-1 经典的视错觉图形
2
那么同样是运⽤视觉,什么样的数据可视化才最有价值呢?⼈类经过漫长的进化,视觉系统接受和加⼯信息已经形成了⼀些独特的规律,我们正是要充分理解这些视觉特点,将数据信息加⼯成适合⼈类快速接受的⽅式,同时规避⼀些⼈类视觉的缺陷(⽐如⼀些错觉),使得信息以不容易造成偏差的⽅式⾼效组织,并向⼈类传递。
数据可视化⽅式多种多样,每种不同的展⽰⽅法都从特定的视⾓表达了信息。好的数据可视化设计原则,可以很好地向读者展⽰数据的内在规律,能够快速抓住读者的眼球,同时避免传递错误信息。我们把结构化数据分为数值型数据和⾮数值型数据两⼤类型。⽽⼈类可以从数据中观察到的模式则包括局部与整体、趋势、偏离、分布、相关性、可⽐性等等。
通常⽤来进⾏数据可视化的基本图形包括柱状图、饼状图、折线图、散点图和地理位置图等,由这些基本图形⼜可以衍⽣出更多,⽐如DataFocus中就包括近60种可视化图表类型。在进⾏可视化设计时,请谨记⼗⼤原则:
•⼀个类别只⽤⼀种颜⾊表⽰;
•排序和分类要符合逻辑,⽐如从⼤到⼩等;
•使⽤标注突出重点信息;
•展⽰多种数据时尽量⽤可对⽐的⽅式进⾏;
•减少不必要的标签;
•不要使⽤⾼对⽐度颜⾊组合,如红⾊/绿⾊或蓝⾊/黄⾊
•尽量不要使⽤三维图表,避免错觉;
•尽量减少阴影和装饰,避免分散注意⼒;
•单个图形颜⾊不要超过6种;
••不要⽤分散注意⼒的字体或元素(如粗体、斜体或下画线)。
••不要⽤分散注意⼒的字体或元素(如粗体、斜体或下画线)。
3
沟通⽆处不在,⽆论是我们与⾝边的朋友聊天、和讨厌的⼈吵架,还是通过键盘⿏标浏览新闻、通过智能⼿机的触屏围观抖⾳⼩视频,我们都在传播或接受信息。事实上,天才科学家⾹农和他的合作者韦弗很早就发现了这个秘密,他们为信息传播的⽅式建⽴了⼀个简单的数学模型,如图3-2。
图3-2 ⾹农-韦弗信息沟通模型
从模型中我们可以看出信息传播(沟通)包含了信源、编码、信道、解码和信宿5个步骤,以及过程中存在影响的环节,⽐如对信道的⼲扰,通过信宿反馈以获得更新的信源。⽤通俗的语⾔来讲,信源就是讲话者想表达的意思,经过语⾔编码通过嘴巴说出去,这些话的声⾳(信道)被接收者的⽿朵听到(解码),转变成了接收者的理解。
根据我们的经验可以知道,如果对话者具有相同的知识背景,沟通⼀般⽐较顺畅,否则就会出现鸡同鸭讲的尴尬场景。⽐如,假设你和朋友正在聊关于 2019年 NBA总决赛第5场发⽣的事情。你对朋友说:“嘿,你知道吗,杜兰特⼜受伤了,他这个伤搞不好整个赛季都要报销,离开勇⼠队也可能泡汤了。”如果你和你的朋友都是NBA联赛勇⼠队的球迷,这次沟通会⾮常成功,你的朋友⼀定会和你很好地讨论⼀番;假如你的朋友对篮球⼀⽆所知,他⼀定对你的讲话⼀脸茫然,毫⽆反应。⼈与 AI之间的交流也是如此。本书要讲到的⽤户与 DataFocus系统的沟通同样适⽤于信息沟通模型。⽤户将头脑中想查询的问题(信源)输⼊DataFocus搜索框中(问题编码),DataFocus系统将搜索框中的信息翻译成数据库可执⾏的程序(解码),并将查询的结果进⾏可视化编码后返回给⽤户,如图3-3。由此可以看出,这是个双向的沟通过程,⽤户与DataFocus既充当信源⼜充当信宿。
图3-3 ⽤户与DataFocus沟通模型
4
我们运⽤DataFocus探索、分析和可视化数据,这些最终的分析结果和可视化成果,都需要有效地传达给它们的受众(数据分析、可视化结果的接收者)。同样地,要与您的受众⾼效沟通,也需要⼀些技巧。下⾯给出了六⼤原则:
原则
任何沟通都不是⽆意义的闲聊,因此准确地了解你的沟通⽬标是⾸要任务。后续所做的⼀系列⼯作都是由此展开的,宁肯多花点⼉时间把⽬标搞清楚,再开始选择信息、收集数据。你可以通过提前回答⼏个关键问题来清楚地表达这个⽬标(图3-4):
•你的⽬标受众是谁?
•你想让他们知道什么?
•你期待什么样的沟通效果?
图3-4 沟通⽬标三要素
对于不同的数据分析⼯作,这些问题的答案可能⾮常不同。⽐如⼀个致⼒于突发事件分析的数据记者和⼀个在公司⼯作的商业情报分析员的⽬标就不⼀样。他们可能会以截然不同的⽅式向他们的⽬标受众阐释数据,尽管⽅式⼤相径庭,然⽽对他们来说却是完全合适的。
最重要的部分是阐明你的⽬标,确保您能写出刚刚列出的三个问题的答案。在这三个问题得到圆满回答之前,不要急于进⾏下⼀步⼯作,因为那有可能导致错误的结果。
原则
数据可视化什么意思要得到正确的答案,必须向合适的⼈提问。同样的道理,要想得到准确的数据见解,必须与正确的数据沟通。在这个数据⼤爆炸时代,获取数据的渠道正变得越来越多,这给数据准备带来了另⼀个挑战,有时候我们必须在纷繁复杂的数据中抽取、清洗、提炼,通过多个数据集之间的互相印证,才能获得正确的分析基础。
保证优良的数据谱系。清晰可溯源的数据,是数据分析⼯作的可靠基础,这可以保证数据分析结果的透明性。企业的数据⼀般来源于其业务系统的数据记录,这些数据相对可靠,很少有⼈为修改;还有⼀些数据来源于内部填报或收集的数据,这些数据有时候并不可靠;还有⼀些分析基于互联⽹上⽤爬⾍爬取的数据,这些数据质量⼀般不⾼,往往需要⼤量的清洗和提炼⼯作。如果能够为你的分析结果精确地标⽰数据来源,并给出可信度,当你向CEO或其他观众介绍你基于数据分析的结果时,他们如果提问:“
得出这些结论的数据是哪⾥来的,可信吗?”你就可以很清楚地展⽰这些数据的可信度,从⽽对你的结论给出有⼒的佐证。
运⽤统计学原则,拒绝零假设。更多时候,数据分析⼯作都是在数据并不充分的基础上进⾏的。⽐如进⾏产品质量分析时,出于成本原因,不可能做到将所有产品的检测数据收集起来分析;进⾏⽤户调查时,往往只能得到部分⽤户的反馈信息。这种数据分析都是基于样本数据进⾏的,这个时候就需要运⽤统计学知识,⽐如T检验或者F检验,弄清楚样本数据是否能正确代表整体。
聚焦你的问题。很多时候,数据的来源渠道多种多样,有些数据也会存在⼀定的关联关系。常⽤的原则是,少即是多,⼀般情况下,针对你的⽬标,运⽤直接相关的数据源进⾏分析,⽐使⽤更多间接相关的数据进⾏分析有效得多。
原则
⼀旦准备好⽤于佐证你的观点的数据,下⼀步就是决定如何对它进⾏可视化编码。编码数据意味着将数据值本⾝转换为抽象的图形表⽰,如⼤⼩、颜⾊或形状。
数据可视化是⼀种将数据构造成可视化结构的编码⽅式。可视化编码分成平⾯编码、视⽹膜编码等等。将图形分割成X、Y的平⾯都是最简单的平⾯编码;有时候为了⽤3个或更多变量表⽰数据,这时候会引
⼊尺⼨、纹理、形状、⽅向,如颜⾊渐变和颜⾊⾊调等,这些就是视⽹膜编码,需要视神经进⾏解码。研究表明,⼈们最容易理解的视觉编码是简单的平⾯编码,如位置(Y轴,X轴),其次是长度、⾓度和坡度、⾯积、体积,最后是颜⾊和密度等。因此,当⼀些可
的平⾯编码,如位置(Y轴,X轴),其次是长度、⾓度和坡度、⾯积、体积,最后是颜⾊和密度等。因此,当⼀些可视化图形引⼊了动态效果时,如延时、⽐例变化等等,则需要经过⼤脑思考和加⼯才能理解其中的含义,不建议频繁使⽤。
可视化图形多种多样,除了常见的折线图、柱状图、饼图之外,还有多达数⼗种各类不同的图形。不同的可视化图形适⽤于不同的数据结果,正确的可视化应该选取合适的图形类型。通常情况下,DataFocus的⾃动可视化引擎会默认选择相应的图表进⾏数据展⽰,但有时候也不够精确,⽤户可以根据⾃⼰的设计思路进⾏图形切换,表3-1提供了常⽤的选择参考。
表3-1 可视化图表选择
可视化类型
图形类别
时间序列,⼀段时间内持续记录的随时间变化的数据集
折线图、⾯积图、极坐标图、⽔流图等
⽐较类型,⽤于⽐较数据集中数值的⼤⼩
柱状图、饼图等
⽂字类型,⽤于展⽰数据中类别的频率
词云图等
地理位置类型⽤于按地区展⽰数据
位置图、经纬图、等⾼线图等
⽹状或分层结构,⽤于展⽰数据之间的层次关系
树形图、打包图、桑吉图、平⾏图、引⼒图等
此外,要避免使⽤扭曲的图形。由于可视化传递的介质绝⼤多数是平⾯的,⽐如通过纸张、⽹页、PPT或其他的⽂档形式。⽽三维图形展⽰在⼆维平⾯上时,将导致图形扭曲,观察⾓度的不同甚⾄会导致获得错误的信息,因此为了准确地表达信息,应该避免使⽤3D图形。另外还有⼀种典型的可视化错误,就
是柱状图(或类似的其他图形)的X轴不从零开始,这有时候会很显著地放⼤数据的微⼩差异。
原则
爱美之⼼⼈皆有之,如果你的可视化作品兼具美感,那⼀定能更好地打动⼈。但是图表的美化存在许多误区,这⾥需要遵循的原则就是美学设计必须以不对正确的数据信息沟通产⽣⼲扰为前提。⾸要的⼀点是,尽量保持简单。简单也是美学设计的⼀种,数据可视化作品要直抒胸臆,不能附带过多⽆⽤信息,从⽽影响信息传递。
⼀个有效的保持简洁的⽅式是尽量提⾼Data/ink Ratio(数据像素⽐),这是可视化专家爱德华·塔夫塔(Edward Tufte)提出来的概念。他⽤来量化图表的信息传达效率,⽐率越⾼,说明传递单位数据信息消耗的像素越少,换句话说,可视化图表更简洁;相反,⽐率越低,则意味着可视化图表中的冗余信息越多。其公式定义为:
从公式中可以看出,这只是⼀个定性的指标,并没有标准的度量值来评价每个可视化作品的Data/Ink Ratio,基于这⼀原则,通常有⼀些经验可借鉴,如:不要在⼀个仪表板中放置太多图表;简单的图形更容易让⼈聚焦;复杂的图形,具备太多元素,容易分散⼈的注意⼒。保持简约的设计,⽬标是清除所有对传递消息没有帮助的混乱,诸如:分类数据的颜⾊过多;频繁使⽤特殊效果,引⼊ 3D图形和阴影;太多的标签;各种花哨的图⽚和⽹格线;等等。因为这些都会显著降低数据看板的信息传递效率,应该
尽量避免。
原则
原则
现实世界中有许多优秀的数据可视化案例,都向它们的⽬标受众准确、⾼效地传达了信息。从 1854年英国约翰·斯诺(John Snow)医⽣的地图,到 1861年法国⼯程师查尔斯·约瑟夫·⽶纳德(Charles Joseph Minard)绘制的拿破仑远征图(图3-5),以及汉斯·罗斯林教授通过Gapminder⽹站展⽰的令⼈震撼的全球经济、医疗等数据,都带有⽆可辩驳的说服⼒。这些可视化作品⼴为传播,汉斯甚⾄在 2006年2⽉通过TED上的著名演讲进⾏了全球范围的宣传,这为他的慈善基⾦吸引了很多关注,算得上是通过数据可视化沟通的成功典范。
图3-5 拿破仑远征图:低温是造成拿破仑远征俄罗斯失利的主要元凶
⽆论读者是希望通过⼀项可视化项⽬进⾏宣传,或是打算运⽤翔实的数据向领导层展⽰你的思考,促成决策,还是仅仅希望通过可视化的分析结果说服你的同事关注某项⼯作,你都应该通过合适的媒介或渠道开展这项交流,因此你需要注意可视化⼯作的表现形式:
•独⽴图形还是旁⽩?
•静态、交互式、动画或组合图形?
•如果叙述过:录⾳、实况还是两者兼有?
•如果是现场:远程、亲⾃或两者兼有?
•在所有情况下:⼴播、定向还是两者兼有?
如果你是在企业从事数据分析和可视化⼯作,那么创建令⼈印象深刻的数据看板,或者通过数据可视化图表填充你的汇报演⽰PPT,是常⽤的沟通渠道。运⽤DataFocus系统可以很⽅便地完成这些⼯作。
如果是从事媒体宣传、咨询研究等⾯向⼤众体的数据可视化⼯作,⼀般通过等⾃媒体平台作为
信息传播渠道,这类⼯作可以运⽤DataFocus的⾃定义数据看板功能制作数据分析报告,定期更新数据可获得最新的数据报告;或者将可视化图表嵌⼊⽹页中作为可更新的数据向公众传达。
原则
每次项⽬结束,进⾏⼀次认真的检查和复盘,将发现的问题进⾏及时的反馈是⼀个好习惯,这些反馈循环和检查点可以帮助你衡量是否达到了预期的结果。这在未实现⽬标的情况下进⾏及时的项⽬迭代或调整⾮常有效。检查结果时常问以下⼏个问题:
•受众收到你的信息了吗?谁收到了,谁没有?
•他们是否以您期望的⽅式正确地解读了数据信息?
•他们的反应是否如你所希望的那样?提出这些问题将有助于你更好地检验你的沟通效果,同时也可以通过你的受众反馈,获得有价值的改进意见。
⼩结
数据可视化的最终⽬的是向你的沟通对象传播信息,因此了解⼈类的视觉系统有助于更好地设计可视化图形。前两节讲

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。