Excel:数据处理
⼀、数据处理的内容
数据处理的内容主要有以下两项:
1.数据清洗。将多余重复的数据筛选出来,并剔除;将缺失的数据补⾜,将错误的数据纠正或删除。
2.数据加⼯。对清洗过后的数据进⾏字段的信息提取、计算、分组、转换等处理。
⼆、数据清洗
1.重复数据的处理
第⼀步,出重复数据。
⽅法1:函数法
,对区域中满⾜单个指定条件的单元格进⾏计数。
range:要计数的单元格范围。
criteria:计算条件,可以为数字、表达式或⽂本,如32、>32或“三⼗⼆”。
在B2单元格输⼊=COUNTIF(A:A,A2),计算每⼀个员⼯编号出现的次数。
在C2单元格输⼊=COUNTIF(A$2:A2,A2),计算出现了两次及以上的重复项。以C9对应的编号为例,3表⽰从A1~A9,该编号是第3次出现。
⽅法2:⾼级筛选法
⽅法3:条件格式法
⽅法4:数据透视表
⽤数据透视表统计各项数据出现的频次,出现2次及以上为重复项。
第⼆步,删除重复数据。
⽅法1:通过菜单操作删除重复值
⽅法2:通过排序删除重复值
选择筛选功能,升序排序C列数据,删除⼤于1的数值即可。
⽅法3:通过筛选删除重复值
直接将筛选出来的重复值删除即可。
2.缺失数据的处理
在Excel中,缺失值⼀般以空值或错误标识符标记。那么,如何出缺失值?
⽅法1:定位输⼊
适⽤情况:缺失值以空⽩单元格形式出现。
弹出定位对话框:excel的随机数函数
1.Ctrl+G组合键
2.开始–>编辑–>定位条件
如何处理缺失值?
⽅法1:⽤⼀个样本统计量的值代替缺失值。常⽤样本均值代替缺失值。
⽅法2:⽤⼀个统计模型计算出来的值代替缺失值。常⽤的模型有回归模型、判别模型等,需借助数据分析软件。
⽅法3:删除包含缺失值的数据记录。
⽅法4:保留包含缺失值的数据记录,分析时按需排除缺失值。
常⽤做法是,如果样本量⽐较⼤,⼀般采⽤定位查功能⼀次性选出所有缺失值,再⽤Ctrl+Enter组合键填充样本均值。
⽅法2:查替换
适⽤情况:缺失值以错误标识符形式出现。
以查错误标识符“#DIV/0!”为例:
1.选中所有数据区域,按Ctrl+H组合键,弹出“查和替换”对话框。
2.在“查内容”中输⼊要搜索的⽂本或数字,在“替换为”中输⼊要替换成的内容,再单击“全部替换”按钮。
3.检查数据逻辑错误
以员⼯满意度问卷调查为例,错误数据出现的情况有:
1.被调查对象输⼊的选项不符合要求,⽐如,选择的选项超过了3个。
2.录⼊错误,⽐如,录⼊的数据出现了0、1之外的数据。
如何检查错误?
⽅法1:⽤IF函数检查错误情况1.
COUNT,计数。
COUNTIF,对满⾜指定条件的单元格进⾏计数。⽐如,COUNTIF(B3:H3,"<>0")表⽰“对B3:H3区域中不等于0的单元格进⾏计数”。
,判断逻辑值的真假。⽐如,IF(COUNTIF(B3:H3,"<>0")>3,"错误","正确")表⽰“如果录⼊的选项超过3个,则单元格显⽰’错误’,否则,显⽰’正确’”。
⽅法2:⽤条件格式检查错误情况2.
OR,或,⾄少⼀个为真,就范围TRUE。
AND,和,所有参数都为真,才返回TRUE。
三、数据加⼯
1.数据抽取
数据抽取,指保留某些字段的部分信息,组合成⼀个新字段。
1.字段分列,截取某⼀字段的部分信息;
2.字段合并,将某⼏个字段合并为⼀个新字段;
3.字段匹配,将原数据表中没有但其他表中有的字段匹配起来。
字段分列
⽅法1:菜单法。
⽅法2:函数法。
截取字符串左边指定个数的字符。
,截取字符串右边指定个数的字符。
字段合并
的⽅式有:
1.,如CONCATENATE(A2,"迟到",B2,"次")。
2.&运算符,如A2&“迟到”&B2&“次”。
**作⽤:**在使⽤连接运算符连接数字和⽂本时,控制数字的显⽰⽅式。如果不⽤TEXT函数,则默认显⽰引⽤单元格的基本数据。⽐如,若单元格中数据为10%,不使⽤TEXT函数,合并后的数据则显⽰为0.1。
**注意:**合并数字和⽂本后,数据类型为⽂本,不能做数学运算。
字段匹配
如何将员⼯职位表中的职务信息提取到员⼯个⼈信息(销售部)表中?
1.在“员⼯个⼈信息(销售部)”表中F2单元格中输⼊=VLOOKUP(B2,[员⼯职位表.xlsx]Sheet1!$B$1:$D$11,3,0)。
2.复制单元格F2到F3:F7,完成数据提取。
作⽤:在表格的⾸列查指定的数据,并返回指定的数据所在⾏中的指定列出的单元格内容。
lookup_value:要在表中第⼀列查的值,参数可以是值或引⽤。
table_array:包含数据的单元格区域,可以是绝对区域或区域名称的引⽤。
col_index_num:1,表⽰返回匹配值的列号,即返回table_array第⼀列中的值;2,表⽰返回匹配值的列号,即返回table_array第⼆列中的值,以此类推。
range_lookup:近似匹配1,精确匹配0,常⽤0.
注意:table_array第⼀列的值必须是要查的值(lookup_value),否则会出现错误标识“#N/A”。出现“#N/A”其他情况还有:
1.数据存在空格,可以⽤批量删除空格。
2.数据类型或格式不⼀致。
2.数据计算
2.1 简单计算
简单计算,能通过加减乘除计算出来的字段。
如下图,销售额=销售数量*单价,总销售额=∑各产品销售额。
2.2 函数计算
1.平均值与总和
AVERAGE():求平均值。
SUM():求和。
2.⽇期的加减法
输⼊当前系统时间/⽇期;
⽇期公式快捷键2020/1/1=TODAY()Ctrl+;
13:39Ctrl+Shift+;
2009/1/1=NOW()  1.Ctrl+; 2.按空格键 3.Ctrl+Shift+;
DATE(year,month,day),返回指定⽇期。
YEAR(),返回某⽇期对应的年份。
MONTH(),返回以序列号表⽰的⽇其中的⽉份,⽤整数1~12表⽰。
DAY(),返回以序列号表⽰的⽇期的天数,⽤整数1~31表⽰。
DATEIF(start_date,end_date,unit),返回两个⽇期之间的年/⽉/⽇间隔数。unit有Y/M/D/YM/YD六种形式。
3.数据转换
3.1 数据表的⾏列互换
⽅法1:选择性粘贴。
⽅法2:Ctrl+Alt+V
3.2 多选题⼏种录⼊⽅式之间的转换
多选题的两种录⼊⽅式:
1.⼆分法,各选项⽤0和1表⽰该选项是否被录⼊。
2.多重分类法,直接录⼊选项的额代码。只能在SPSS⾥分析。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。