《DataFocus从⼊门到精通》
第⼀章数据可视化的价值
1.1 触⼿可及的数据
经过三次信息化浪潮的洗礼,将⽣活的点滴进⾏数字化记录和存储,已经变得司空见惯。将⼀天中的美好瞬间记录成数字化图⽚,录下⼩宝宝刚刚学会⾛路的可爱影像;或者⽤apple watch 记录下⼼跳,⽤以规律的运动和饮⾷;或者⽤便携式电⼦设备记录下⾎糖数值,科学指导⽤药。到如今,虚拟现实(VR)和增强现实(AR)已经开始模糊数字化世界和真实的世界,新兴起的脑机接⼝技术则将⼈类带向了⼈机融合的未来。⼈类正在朝着⽐特化⽣存的⼤路狂奔⽽去,未来难以确定,但是有⼀点可以肯定的是,您的⽣活正在被量化。
相⽐于个体的⼈来说,企业组织则早就是数字化⾰命的先锋。从最早的业务电算化,到业务信息化的发展过程中,企业就创建了⼤量基于软件和互联⽹的业务系统。如今ERP、CRM等信息系统,更是企业的标配,⼀些⼤型企业集团经过20多年的信息化建设,甚⾄形成了⼏⼗种、数百种业务信息系统,⽽这些⽤⽐特记录的业务系统的点点滴滴正在形成庞⼤的数据池。
据IDC预测,全球数据总量预计2020年达到44个ZB,我国数据量将达到8060个EB,占全球数据总量的1
8%。物联⽹,5G技术的普及,⼯业4.0⽔到渠成。精益⽣产越来越普遍,企业将更加注重效率,通过数据分析,挖掘提升组织效率成为必然。
1.2 数据资产的价值
⼀个普通⼈⼀年会产⽣100GB的数据,其中⼤部分是图⽚、视频或⾳频数据。⼤部分⼈会选择将这些宝贵的⽣活记录保存下来,以便空闲的时候回顾精彩⼈⽣。⽽⼀个中⼩型企业组织,每年则会产⽣1TB的数据,⼤型企业集团⼀年的数据增加量甚⾄会突破1PB。如此⼤量的数据,仅仅是被记录存储,就耗费巨⼤,企业付出昂贵的代价仅仅只是为了保存这些数据吗?
有⼈说,数字化时代“数据就是⽯油”。企业业务系统所形成的数据⼤部分与企业的⽣产、经营、市场活动息息相关,这些数据记录着企业的业务规律,承载着客户关系。但如果仅仅只是把数据记录存储起来,那么这些数据将成为企业永远的成本。只有将数据进⾏有效整理和挖掘,这些数据才会从沉默的费⽤成本变成有效的资产,如果辅之以⾼效的数据分析平台,业务⼈员随时随地可以进⾏数据分析,从数据中获得对企业有业务启⽰的⽣产经营规律、市场线索,那么这些数据将变成具有⾼度变现能⼒的流动资产,才会真正的变成企业的业务增长引擎所必须的燃油。
1.3 什么是数据可视化?
数据对于⼤多数⼈来说只是⼀个概念,⼤数据尤其如此。以⽐特⽅式存储在电脑中的数据,对我们并没有什么⽤。⽐如下⾯这个数据记录,对于⼤多数⼈来说,这是⼀串毫⽆意义的数据:[{'编号': '001' , '年龄': 15 , '⾝⾼': 165 , '体重': 59 } , {'编号': '002' , '年龄': 18 , '⾝⾼': 195 , '体重': 78 } , {'编号': '003' , '年龄': 16 , '⾝⾼': 170 , '体重': 63 } ]
因为这些数据没有带⼊任何场景,也没有任何上下⽂提⽰,更不符合⼤多数⼈的阅读习惯(这是json格式的数据表⽰),这只能称之为数据,但如果是下表所⽰的数据,就变得有意义了:
编号年龄⾝⾼体重
0011516559
0021819578
0031617063
这是⼀个简单的体检数据,记录了某个编号被测量者的年龄、⾝⾼和体重。为什么同样的数据,⼀个难以理解,⼀个很容易理解呢?⼆者的区别是,前者只能叫做数据,是⼀种特定的计算机可读取的格式;⽽后者可以称之为信息,⼈类可以直接阅读和理解。
⽽数据可视化,则是将数据进⾏有效整理变成易于接受的信息,⼈类通过频繁处理这类信息,从⽽产⽣正确的知识。⽐如,将以上表格⽤下图可视化展⽰出来,我们不仅能理解数据的含义,还能发现随着年龄的增长,⾝⾼和体重都会增加这样⼀个规律,这便将数据从信息转变成了知识。
同样的道理,企业业务系统中的数据因为带有业务的背景特征,只要稍微经过系统的整理,就可以很好的通过这些数据来理解业务。但是仅仅只是⼀些表格还是不够的。将数据变成信息,⽤表格的⽅式来表⽰,只是具备了可视化的基础,还没有真正的可视化。
1.4 如何数据可视化
1.4.1 ⼈类视觉感知的特点
我们可以⽤眼睛、⽿朵、⿐⼦等各种感官来接触、感受、理解这个世界。科学研究表明,进⼊⼤脑的信息有75%来⾃视觉,进⼊或离开中枢神经系统的纤维细胞占38%。⽽视⽹膜上有1亿个mysqld exe闪退
眼睛过滤了信息。
传感器,但只有500万个能够从视⽹膜传递信息到⼤脑。这表明,实际上眼睛处理的信息要多于⼤脑处理的信息,可以说眼睛过滤了信息
可以说⼈类最有价值的器官,就是眼睛。正是因为⼈类具备了优良的视⼒,所以才能在狩猎或采集活动中保持较⾼的效率,判断环境的风险,很好的躲避猛兽的袭击。⼈类对于信息摄取的速度,视觉器官是占绝对主导地位的。,因此我们可以充分利⽤⼈类最为⾼效的信息获取器官—眼睛,来快速吸收、加⼯和处理信息。在越来越强调效率的今天,与其听长篇⼤论的汇报,还不如亲⾃看看来得快。
选择性的⼯作,对外形的感知包括对形式分类的应⽤,因其简单性和⼀般性⼜被称为视觉概念。”
“视觉感知并⾮是记录刺激物质的被动过程,⽽是⼤脑的主动关注,视觉是选择性的⼯作
--奥恩海姆《视觉思维》
⼈类的视觉同样存在诸多缺陷。⽐如,⼈们在已有的认知或经验的基础上,知觉系统对客观事物进⾏了某种最合理、最可能的解释,但在特定条件下,这种解释往往容易产⽣偏差,就形成了错觉。举个例⼦:缪勒—莱尔(Maller-Lyer Illusion)发现末端加上向外的两条斜线的线段⽐末端加上向内的两条斜线的线段看起来长⼀些(图-?)。⽽著名的艾宾浩斯错觉(Ebbinghause Illusion)则表明⼈类对圆形⼤⼩的感知极易受参照物的影响(图-?)。以上⼈类认知的视错觉还有很多。
缪勒—莱尔错觉艾宾浩斯错觉
1.4.2 数据可视化的基本原则
那么同样是运⽤视觉,什么样的数据可视化才最有价值呢?⼈类经过漫长的进化,视觉系统接受和加⼯信息已经形成了⼀些独特的规律,我们正是要充分理解这些视觉特点,将数据信息加⼯成适合⼈类快速接受的⽅式,同时规避⼀些⼈类视觉的缺陷(⽐如⼀些错觉),使得信息以不容易造成偏差的⽅式⾼效组织,并向⼈类进⾏传递。
成适合⼈类快速接受的⽅式,同时规避⼀些⼈类视觉的缺陷(⽐如⼀些错觉),使得信息以不容易造成偏差的⽅式⾼效组织,并向⼈类进⾏传递。
数据可视化⽅式多种多样,每种不同的展⽰⽅法都从特定的视⾓表达了信息。好的数据可视化设计原则,可以很好的向读者展⽰数据的内在规律,能够快速抓住读者的眼球,同时避免传递错误信息。我们把结构化数据分为:数值型数据、类别型数据和时间序列三⼤类型。⽽⼈类可以从数据中观察到的模式则包括:局部与整体、趋势、偏离、分布、相关性、可⽐性等等。
通常⽤来进⾏数据可视化的基本图形则包括柱状图、饼状图、折线图、散点图和地理位置图等,由这些基本图形⼜可以衍⽣出更多,⽐如DataFocus中就包括36中可视化图表类型。在进⾏可视化设计时,请谨记10⼤原则。
⼀个类别只⽤⼀种颜⾊表⽰;
排序和分类要符合逻辑,⽐如从⼤到⼩等;
使⽤标注突出重点信息;
展⽰多种数据时尽量⽤可对⽐的⽅式进⾏;
减少不必要的标签;
不要使⽤⾼对⽐度颜⾊组合,如红⾊/绿⾊或蓝⾊/黄⾊
尽量不要使⽤三维图表,避免错觉;
尽量减少阴影和装饰,避免分散注意⼒;
单个图形颜⾊不要超过6种;
不要⽤分散注意⼒的字体或元素(如粗体、斜体或下划线)
第⼆章 DataFocus简介
2.1 DataFocus概述
多年来,从事⼤数据分析⾏业⾯临巨⼤的障碍。⾸先,从数据的准备⾓度来看,数据分析师要么⾃⼰
学会、要么依靠软件⼯程师,搭建Hadoop集,创建数据仓库,或者购买informatics等第三⽅数据仓库软件,或者要学会kettle等ETL⼯具。其次,他们还需要学会数据库语⾔,能够熟练操作SQL语句。或者掌握⼀些复杂的拖拽、配置操作技巧;最后,数据分析师还必须熟悉待分析的业务类型,或者把⾃⼰变成⼀名⾼效的需求经理,学会聆听、理解并实现业务⼈员交办的数据分析任务。所有这⼀切,都严重阻碍了数据分析⾏业的发展。
DataFocus在设计之初就希望尽量降低⼤数据分析的门槛,让⽤户在安装、使⽤、⽣产过程中,尽量摆脱对技术的过度依赖。⽐如,从即时的数据分析体验上来说,DataFocus的搜索式分析功能,彻底放弃了通过写SQL语句进⾏数据分析的⽅式,相⽐于拖拽式分析,上⼿速度也更快;DataFocus标准版⾃⾝也集成了⼤数据仓库的功能,⽤户只需要通过界⾯简单配置即可从其他业务系统的数据库中抽取数据,或者直接查询第三⽅数据库。⽤户也可以将本地数据⽂件上传到DataFocus系统中,通过中间表和公式进⾏数据整理和清洗。
总⽽⾔之,DataFocus可以让⽤户在不写⼀⾏代码的情况下,完成⼤数据仓库的搭建、简单的数据整理和清洗、数据分析以及可视化,在10分钟内完成⼀个可视化⼤屏的创建⼯作。
2.2 系统架构
DataFocus包含了数据仓库系统(DataLake&DataWarehouse),数据分析引擎(Data search syste
m),可视化框架(Data Visualization Framework),权限控制模块,以及⼀个语义解析模块(Semantic Parsing),更⾼级的版本还带有内存计算引擎、机器学习模块(Mechine Learning)和智能洞察模块(Data insight)。
Architecture of DataFocus
DataFocus虽然包含了众多复杂的功能模块,但是其安装和部署不需要另外组合,⼀般情况下,根据官⽹的安装说明完成相应版本的安装后,系统的各个功能模块即⾃动安装完毕。这避免了产品安装和使⽤上的复杂性,相⽐⼀些需要组合多个模块,进⾏复杂安装操作的系统,明显简便了很多。
2.3 DataFocus部署
以下为对应版本的安装环境⽀持。具体安装流程,可参看官⽹说明,也可以根据提⽰⾃⾏尝试安装。
产品名称操作系统⽀持内存硬盘CPU数据容量备注
DataFocus Mini Win7/8/10 64位系统4G20G可⽤-
10万⾏以内数据
内存需2G可⽤CentOS 7.2以上4G
/home 下30G可⽤
/root 下20G可⽤
-内存需2G可⽤
DataFocus Standard CentOS 7.2以上20G可⽤/home 下50G可⽤
/root 下20G可⽤
双核不限数据容量受内存⼤⼩制约
DataFocus Professional CentOS 7.2以上32G可⽤/home 下50G可⽤
/root 下20G可⽤
双核不限数据容量受内存⼤⼩制约
所有版本DataFocus完成安装后就是服务器版,可以通过配置公⽹IP进⾏联机访问和分析,⽀持多⽤户协作共享,权限分配等,也可以在线发布可视化分析结果。
2.4 系统安装
2.4.1 Windows安装
安装前请先登录console.datafocus.ai,按照提⽰在管理中⼼页⾯中配置购买成功应⽤,保证待安装的计算机中有充⾜可⽤磁盘空间且处于联⽹状态,⽤户主机中运⾏的各类‘安全管家’可能会误将安装包识别为⽊马,导致安装失败,建议安装过程中关闭。
安装步骤:
1.完成购买后下载云服务安装包
2.计算机中中安装相关应⽤,
3.在打开桌⾯快捷程序,以管理员权限启动Datafocus
安装案例:
1.从官⽹登⼊’管理中⼼’在 ’我的资产’页⾯下创建购买新的应⽤
图1.创建新应⽤
2.在选择好相关参数后点击’确认⽀付’后跳转到⽀付页⾯,根据不同需求⽤对应的⽀付⽅式(测试时请
使⽤余额⽀付);⽀付成功后跳转到’本地服务器’界⾯;
图2.本地服务器界⾯
3.点击进⼊刚创建好的服务器中点击’下载Windows服务器安装包’按钮,下载产品安装⽂件;
图3.本地应⽤详细页⾯
下载好安装⽂件后,请将安装⽂件解压缩并使⽤‘以管理员⾝份运⾏’;
图4.解压后的安装包
正确的网址格式怎么写5.安装脚本使⽤介绍:
1.⾸先根据安装脚本引导选项,选择语⾔;(以中⽂(简体)为例)
图5.选择语⾔
2.配置内存空间
图6.配置内存
3.请仔细浏览并接受许可⽤协议后点击下⼀步。
图7.产品使⽤协议
4.确认选择安装产品的位置
图8.根据选项引导,选择安装路径
5.选择附加项
图9.根据选项引导,选择安装路径
图10.安装准备完毕
7.开始执⾏安装程序,请等待。
jquery帮助文档下载图11.正在安装
8.当执⾏安装程序,请根据安装向导将程序所需⽂件按要求执⾏默认安装。
图12.安装向导
1. 继续耐⼼等待10分钟待直⾄安装进⾏执⾏完成,点击‘完成’。
图13.等待Datafocus安装完成
图14.Datafocus安装完成
9.勾选’运⾏Datafocus’ 点击‘完成’后,弹出运⾏脚本,(请根据提⽰信息登录Datafocus服务)并使⽤默认浏览器弹出Datafocus服务。
图15.Datafocus启动程序
图15.Datafocus启动程序
图16.Datafocus提⽰信息
图17.Datafocus登录页⾯
2.4.2 CentOS安装
系统要求:
操作系统:Centos7 (64-bit versions)
python版本:2.7.x
最低配置:推荐配置:
处理器:Intel Xeon E1235 处理器:Intel Xeon E5-2682
内存:20GB RAM 内存:32GB RAM
存储空间:/root需要20GB可⽤存储空间:/root需要30GB可⽤
正则表达式教程图解/home需要50GB可⽤ /home需要100GB可⽤
安装流程:
前提:
1. 已在管理中⼼页⾯中配置购买成功相关服务器及应⽤
2. 已在本地服务器中安装配置成功CentsOs7系统
3. 登录linux时需要为root⽤户或者具有sudo权限的管理员
4. 若⽤户已提前安装过Docker服务,需保证Docker服务可以正常使⽤
系统安装步骤可参考:
jingyan.baidu/article/7f41ecec027031593d095c90.html
安装步骤:
1.完成购买后下载云服务安装包
2.在已有Centos7服务器中安装相关应⽤,
3.在浏览器中输⼊⽹址或IP号登陆datafocus产品
(IP地址默认为服务器本地地址,端⼝号由⽤户⾃⾏配置)
安装案例:
1. 从官⽹登⼊’管理中⼼’在 ’我的资产’页⾯下创建购买新的应⽤
图1.创建新应⽤
2.在选择好相关参数后点击’确认⽀付’后跳转到⽀付页⾯,根据不同需求⽤对应的⽀付⽅式(测试时请使⽤余额⽀付);⽀付成功后跳转到’本地服务器’界⾯;图2.本地服务器界⾯
3.点击进⼊刚创建好的服务器中点击’下载云服务器安装包’按钮,下载产品安装⽂件;
图3.本地应⽤详细页⾯
4.下载好安装⽂件后,请将安装⽂件解压缩并转移到本地服务器中;(测试时将⽂件到服务器路径:/datafocus/datafocus.bin,)
图4.转移解压后的安装⽂件到Cents7服务器中
5.启动的安装脚本:
1.使⽤chmod 命令配置⽂件权限:
在命令⾏中输⼊ chmod 775 datafocus.bin ,为安装脚本设置权限。设置完成后输⼊ ls 命令核查是否设置成功。若datafocus.bin⽂件变为绿⾊表明设置成功。
图5.为安装脚本设置权限
2.运⾏安装脚本:
继续输⼊ ./datafocus.bin 即可进⼊安装脚本,进⼊安装包语⾔设置引导
图6.进⼊安装包
6.安装脚本使⽤介绍:
1.⾸先根据安装脚本引导选项,输⼊相对应数字选择语⾔;(以简体中⽂为例)
图7.安装脚本功能列表python安装教程win7
1. 输⼊数字1后输⼊Y确认选项,进⼊安装程序。
2. 确认安装后,根据提⽰输⼊部署软件的对应端⼝。(若回车跳过,软件将默认安装在该服务器IP地址的81端⼝上),输⼊端⼝后再输⼊Y确认选项。
图8.根据选项引导,执⾏安装程序
1. 选择确认端⼝后,进⼊使⽤许可协议。此界⾯需要⽤户完全浏览完毕才能执⾏下⼀个步骤
图8.部分使⽤协议
1. 浏览完软件使⽤后,同时确认接受后正式进⼊安装程序。
图9.进⼊安装阶段
6.等待⼤约30分装,待界⾯显⽰⼀下信息,即为安装成功。
1. 打开浏览器,输⼊安装成功的服务器ip及端⼝号信息即可使⽤(测试时默认地址为19
2.168.0.71:81)
图11.输⼊服务器ip及安装应⽤使⽤的端⼝号使⽤产品
2.5 初识DataFocus
DataFocus功能强⼤,界⾯确异常简单。其产品理念就是尽量提供最简单的交互⽅式,不需要⽤户记忆复杂的⾯板和控件,降低⽤户的学习成本。安装完成进⼊系统后,界⾯如下:
您可以跟随引导提⽰⼀步⼀步认识系统的各个模块。根据提⽰载⼊数据源后,界⾯如下:
从图中可以看出,整个⾯板左侧是5⼤功能菜单。分别对应“搜索分析”、“数据看板”,“历史问答”,“数据列表”,“系统管理”五个功能模块。其中“数据看板”就是我们常说的可视化⼤屏,历史问答就是指已保
存下来的所有报表。
要开始数据分析,只需要选择待分析的数据源,然后通过双击左侧数据列,或者输⼊对应的关键词语句,就可以进⾏分析了。
俗话说“巧妇难为⽆⽶之炊。”出⾊的数据分析,往往依赖于完整、精细的数据。接下来的第三章将详细介绍如何⽤DataFocus链接您的各种数据源:加载您的本地数据,或者从您的业务系统数据库中抽取数据。
第三章连接数据源
3.1 连接本地⽂件
打开DataFocus系统,点击左侧数据管理,然后点击右侧操作按钮,点击导⼊数据。可导⼊本地CSV、TXT、XLS、XLSX以及JSON等本地数据⽂件。选中后点击上传,并确认⾏列属性是否正确。若⾏列属性不正确(如数值保留了字符串格式未转化为数值格式),则⽆法进⾏可视化分析。适⽤于⼀些本地已有⽂件(如⼀些店铺数据或是⾃录数据表)的分析,或是⼀些未购买数据库的企业。
图3-1
3.2 连接数据库
点击左侧数据管理模块,点击上⽅数据源按钮,点击右侧新建数据源,可点击直连数据和导⼊数据。需要注意的是,导⼊数据为数据导⼊到DataFocus⾃带⼤数据仓库,直连数据为直接抽取服务器数据进⾏分析。若是操作⼤量分析,建议使⽤导⼊数据,DataFocus数据仓库性能可保障分析顺畅,否则直连数据分析则依靠对⽅设备的性能。数据导⼊后,可点击上⽅“开始”则可进⾏导⼊,列表可查看导⼊状态。
导⼊数据⽀持定时更新,更新频率⼀般为每天、每周、每⽉。直连数据可⽀持实时更新,数据库中数据有变化,DataFocus中直连的这些表,以及依赖这些表制作的报表等也都能实时更新。图3-2
图3-3
第四章 DataFocus基础操作
4.1 列名搜索
gridview控件和datalist控件的区别打开DataFocus系统,点击左上⽅选择数据源按钮,进⾏数据选择。
图4-1-1
选择需要操作的数据表,并点击右上⾓“确定”按钮。⼀般新导⼊的数据表会显⽰在靠前的位置。
图4-1-2
双击左侧列名即可进⾏组合分析,根据业务需要选择需要分析的列名即可。不需要分析的列名可点击搜索框的“x”按钮,删除此列名。此⽅法是最为简便的搜索⽅法,双击搜索即分析,尤其是⼀些列名规范的数据表,如“产品名称”、“销售⾦额”等写明确的数据表,则能快速进⾏分析,双击两个列名即可出现每个产品的销售⾦额情况。
图4-1-3
并且,可点击右侧图形转换按钮进⾏图形转换,⽐如需求变更为看趋势,可将柱形图转换为折线图。可变换的图形主要分为基础图形和⾼级图形,基础图形有柱状图、折线图、⾯积图、条形图、堆积柱状图、饼图、环形图、散点图、⽓泡图、堆积条形图、漏⽃图、帕累托图、KPI指标、仪表图、雷达图、位置图、数据透视表以及组合图。⾼级图形有树形图、瀑布图、旭⽇图、打包图、箱型图、词云图、弦图、桑基图、平⾏图、时序柱状图、时序条形图、时序散点图、时序⽓泡图、经纬图、泾渭⽓泡图、热⼒图和统计图。具体可在DataFocus系统中进⾏体验。
4.2 关键词搜索
关键词搜索,即为在搜索框输⼊⼀些关键词进⾏搜索分析,主要分为以下类型:
1)时间⽇期关键词搜索分析:
每年/每季度/每⽉销售⾦额
按⽉统计销售⾦额
2018(具体年份)销售⾦额—>2018 销售⾦额 9⽉(加上具体⽉份)
按周⽇期统计销售⾦额
周三(具体周⼏)销售⾦额
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论