CDA LEVEL1 第二章 数据结构知识点整理
考试占比:
数据结构(占比 15%)
a. 表格结构数据特征(占比 2%)
b. 表格结构数据获取、引用、查询与计算(占比 3%)
c. 表结构数据特征(占比 5%)
d. 表结构数据获取、加工与使用(占比 5%)
考试内容:
总体要求:理解表格结构与表结构的数据特征、理解表结构与表结构数据获取操作方法、理解表结构数据连接及汇总的逻辑、能够应用表结构连接及汇总逻辑关联多表进行汇总求值计算、能够制作 ER 关系图。
◆ 1、表格结构数据特征
【领会】
表格结构数据概念
表格结构数据处理工具
【熟知】
表格结构数据特征
◆ 2、表格结构数据获取、引用、查询与计算
【领会】
表格结构数据获取方法
【熟知】
单元格区域的特征
【应用】
表格结构数据的引用方法
表格结构数据的查询方法
表格结构数据的常用函数
◆ 3、表结构数据特征
【熟知】
理解主键的意义
理解维度及度量的意义
理解缺失值
表结构数据特征
表结构数据与表格结构数据差异 字符串函数去重
◆ 4、表结构数据获取、加工与使用
【领会】
表结构数据获取渠道及方法
【熟知】
表结构数据连接逻辑
表结构数据汇总逻辑 ETL 作用、特征
【应用】
应用 E-R 图
计算两表连接汇总值
知识点:
1. 数据的两种类别:结构化数据和非结构化数据。
2. 结构化数据:数据结构规范、完整的数据。它主要产生于企业的业务系统及客户端应用程序,如CRM(客户关系管理)系统、ERP(企业资源计划)系统、电商App等。
3. 非结构化数据:数据结构不规范、不完整、格式多样、难以理解、难以进行标准化处理的数据。来自企业系统之外的数据,大部分都属于非结构化数据。
4. 结构化数据分类:表格结构数据和表结构数据。
5. 表格结构数据概念:表格结构数据是指应用在电子表格工具上的数据。
6. 表格结构数据处理工具:主流电子表格工具有微软公司的Excel、苹果公司的Numbers及金山办公的WPS表格等。
7. 表格结构数据特征:
(1)用于对表格结构数据进行识别、引用、计算的基本单位叫作单元格,单元格的集合叫作单元格区域,单元格区域的集合叫作工作表,工作表的集合叫作工作簿,一个工作簿就是一个独立的电子表格文件。在电子表格文件中,可以通过从工作簿到单元格这4个不同的层级结构对数据进行记录、管理。
(2)在表格结构数据中可以为不同的单元格设置不同的数据类型,但是一次只能为一个单元格设置一种数据类型。
(3)一个单元格不仅具有数据类型的属性,还具有单元格格式的属性。
8. 表格结构数据类型分类:数值型(整数值、小数值,主要用来进行数学计算)、文本型(文字、符号、数字等信息,主要用来对文本内容进行描述,也叫字符或者字符串)、逻辑型(包含真值true与假值false两种信息,主要用来进行逻辑判断)。
9. 单元格格式:包含数字格式及显示格式两类。数字格式决定显示形式(数字、百分比、货币、日期),显示格式决定显示效果(字体、填充、图表集、显示位置)
10. 表格结构数据获取方法:企业的后台数据库系统,企业的前端操作平台,企业外部渠道。
11. 电子表格工具支持的数据文件格式:文本文件(.csv和.txt,csv文件常以逗号为分隔符,txt文件常以制表符TAB为分隔符)和电子表格文件(.et和.xlsx和.numbers)。
12. 表格结构数据的引用方法:
(1)=A1
(2)=Sheet2!A1
(3)A1:C4(引用单元格区域需要从左上到右下的顺序写)
(4)5:8
(5)A:F
13. 单元格区域的特征:(1)单元格区域须由连续的单元格构成。(2)单元格区域须是一个方形区域。
14. 表格结构数据的查询方法:(1)使用表格工具搜索功能进行查询(ctrl+f)
(2)使用查询函数进行查询如VLOOKUP函数
15. 函数的构成部分:(1)“=”:等号的意义是告诉计算机,我从现在开始要使用函数进行计算了,是对计算机的函数使用宣言。(2)函数表达式:由函数名及括号两部分构成,不同函数表
达式代表不同的函数功能。(3)参数:进行函数计算时参照的计算依据。(4)操作符:有特殊意义的字符。(5)返回值:使用函数进行计算的目的是得到计算结果,计算结果就是返回值。
16. 函数嵌套的充要条件:内部函数返回值的数据类型要与外部函数该位置上参数的数据类型相符才能够将两个函数嵌套在一起使用。
17. 表格结构数据的计算方法:
(1)直接计算:使用运算符连接单元格值或单元格区域值进行计算。如:+、-、*、/、^、>、>=、<、<=、<>、&
(2)函数计算:
数学函数INT、MOD、ROUND、ABS、SQRT、RAND、RANDBETWEEN
统计函数MAX、MIN、AVERAGE、SUM、COUNT、FREQUENCY、RANK
日期函数YEAR、MONTH、DAY、TODAY、DATE、NOW
文本函数MID、LEFT、RIGHT、LEN、TEXT、REPT、REPLACE、SUBSTITUTE
查与引用函数VLOOKUP、OFFSET、MATCH、INDEX、INDIREC、ROW、COLUMN、HLOOKUP
逻辑函数IF、AND、OR、NOT
18. 表结构数据处理工具:数据库查询语言SQL、ETL工具及数据可视化工具等。
19. 字段:指的是表结构数据中列上的信息,“字段”用来区分“记录”中不同的业务角度信息及业务行为结果信息。
20. 记录:指的是表结构数据中行上的信息,数据表中每一“行”上的信息就成为业务流程的历史记录,所以,我们将表结构数据中的“行”称为“记录”。
21. 维度:描述交易行为不同角度的信息,字段通常为文本型。
22. 度量:描述交易结果的信息,字段通常为数值型。
23. 维度表:只包含维度信息而不包含度量信息的表,主要用来扩展观测业务问题的角度及细节。
24. 事实表:既包含维度信息又包含度量信息的表,主要用事实表中的度量字段对业务行为产生结果的好坏程度进行描述。
25. 表结构数据特征:
(1)表结构数据中的基本引用、操作、计算单位是字段或记录行(字段的第1行叫作字段名,字段名不能重复,第1行信息也叫作标题行,从字段的第2行开始后的内容叫做记录,表中的1个字段只能有1种数据类型)。
(2)表中所有字段的记录行数相同,不同字段拥有相同记录行数。
(3)所有数据表中都存在且只存在一个主键。
26. 缺失值:空值在计算机中用null表示,在数据分析工作中,一般又将空值称为缺失值。
27. 缺失值处理方法:文本型字段如果影响不大可以用没有意义的文本字符替换,文本字段如果有影响可以录入者确认或者删除整行,数值型字段需要考虑这个度量的意义,具体问题具体分析。
28. 主键:用来区分每行记录使用的字段或字段组合就是主键。
29. 主键的物理意义:(1)非空不重复(2)如果构成主键的字段只有一个,我们称该主键为单字段主键(3)如果主键由多个不同字段构成,我们称该主键为多字段联合主键(4)主键是数据表中每行记录的唯一识别符,其作用类似于每行的行号(5)主键使用的字段信息主要以各类编号、ID、序列号等为主,字段名多使用“××ID”“××No.”“××号”“××编号”等名称,数据类型主要为文本型。
30. 主键的业务意义:主键的业务意义是一个表的业务记录单位,在一个数据表中的所有非主键字段都要围绕主键展开,只有能够扩充及描述主键信息的字段才能出现在同一个表中。
31. 表结构数据与表格结构数据差异:表格结构数据是以单元格为基本处理单位的,表结构数据是以字段为基本处理单位的。在数据使用上,表格结构数据用的是“应用”,“应用”数据源数据的方式无法自动与数据源数据同步更新。表结构数据用的是“引用”,只要表结构数据分析工具与数据源之间的连接关系不断,就可以保证表结构数据分析工具中的数据始终与数据源数据同步,数据源数据更新时,表结构数据分析工具中的数据也能及时、自动同步更新。
32. 数据库管理系统(RDBMS):Relational Database Management System,它具有多层级结构,是联机事务处理过程OLTP的一个重要过程,它可量化结构化数据,可以提供大部分数据源但不善于分析。
33. 数据库管理系统多层级结构:一个RDBMS下包含多个数据库(DB Data Base),多个数据库下面包含多个数据表(Table)。
34. OLTP:On-Line Transaction Processing联机事务处理过程。
35. 商业智能(Business Intelligence,BI)系统:强于获取、加工多源数据、对海量数据进行多维分析并能够即时共享分析结果的计算机应用系统。这套系统由ETL功能、数据仓库功能、OLAP功能及数据可视化功能几部分构成,主要用于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察,做出正确决策判断,从而最终帮助企业创造更多商业价值。
36. 商业智能系统分类:企业级商业智能系统和敏捷型商业智能系统。
37. ETL功能:ETL是英文Extract-Transform-Load的首字母缩写,是将分析时使用的数据从
数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程。“E”表示抽取功能,ETL通过创建与不同数据源间的连接关系,对这些数据源中的数据进行“引用”。“T”表示清洗转换功能,其目的是保证数据的完整性与准确性。数据清洗的主要任务是过滤筛选不完整、错误及重复的数据记录,数据转换主要对“粒度”不一致及“规则”不一致的数据进行转换以及对一些业务规则不一致的数据进行转换。“L”的功能是将从数据源抽取出来的数据经过清洗与转换后加载到数据仓库中进行存储与使用。
38. DW数据仓库:英文是Data Warehouse,主要作用是存储分析所需要的不同数据源上的所有相关数据信息。DB中的数据不够,而且局限于结构化数据,所以需要用到DW。而DW要通过ETL功能中的加载功能才能对不同数据源中的数据进行引用。ETL功能与DW功能可以由独立的不同工具实现,也可以同时被内嵌在一个工具中使用。
39. OLAP:On-Line Analytic Processing联机分析处理技术,通过OLAP技术创建的多维数据模型可以解决信息孤岛问题,整合DW中的零散数据,为我们进行全方位业务问题探究提供完整的数据环境。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论