实验8-1 数据分析
一、实验目的
1. 理解数据挖掘的一般流程。
2. 掌握数据探索和预处理的方法。
3. 使用PHSTAT软件,结合Excel对给定的数据进行手工预处理。
4. 使用WEKA软件,对给定的数据进行预处理。
二、实验内容
在D盘中以“班级-学号-姓名”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。
0. 数据集介绍
银行资产评估数据bank-data.xlsx,数据里有12个属性,分别是id(编号), age(年龄), sex
(性别), region(地区), income(收入),married(婚否), children(子女数), car(是否有私家车), save_act(是否有定期存款), current_act(是否有活期账户), mortgage(是否有资产抵押), pep(目标变量,是否买个人理财计划Personal Equity Plan)。
1.数据探索之数据质量分析
新建“1-数据质量分析.xlsx”文件,导入“0-bank_data.xlsx”文件数据,请你用EXCEL对其进行数据质量分析。
【要求】
(1)请出bank_data.xlsx表中的含有缺失值的记录。
(2)请你用PHSTAT软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。
(3)计算Whisker上限、Whisker下限,并利用高级筛选,出该属性的异常值记录。
【提示】
(1)请出bank_data.xlsx表中的含有缺失值的记录。
方法1:条件格式法
1)选取A1:L601区域。
2)开始 --> 条件格式 --> 新建规则(N)...,在"新建格式规则"对话框中,选择空值。如图8-1所示。
图8-1 “新建格式规则”对话框
3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。如图8-2所示。
图8-2 设置条件格式
方法2:
1)缺失值定位。“开始”→“编辑 / 查和选择”→“定位”对话框 →“定位条件”按钮。
2)“定位条件”对话框 → 选择“空值”,如图8-3所示。
图8-3 “转到(G)…”下拉菜单命令 和“定位条件”对话框
(2)绘制“income”属性箱线图和点比例图。高级筛选出异常值。
“加载项 / PHStat”→ “Descriptive Statistics”→“Boxplot…”或”Dot Scale Diagram…“命令。如图8-4所示。注意选中“income”属性,如果数据区域包括标题行(E1单元格),则勾选下面的First cell contains label选项,否则,不用勾选First cell contains label选项。
(a) (b)
(c) (d)
图8-4 PHSTAT 软件的“箱线图”和“点比例图”绘制
计算income属性的最小值、最大值、第一四分位数、中位数、第三四分位数。以及Whisker下限和上限。
表8-1 四分位数表
箱线图 | 公式 | 数值 |
最小值 | =MIN(E2:E601) 或=QUARTILE.INC(E2:E601,0) | 5014.21 |
最大值 | =MAX(E2:E601) 或=QUARTILE.INC(E2:E601,4) | 78843.21 |
第一分位数 | =QUARTILE.INC($E$2:$E$601,1) | 17264.5 |
第二分位数 (中位数) | =MEDIAN($E$2:$E$601) 或=QUARTILE.INC(E2:E601,2) | 24925.3 |
第三分位数 | countifs函数为何总为零=QUARTILE.INC(E2:E601,3) | 36172.675 |
Whisker上限 | =QL-1.5*(Qu-QL) | -11097.763 |
Whisker下限 | =Qu+1.5*(Qu-QL) | 64534.9375 |
高级筛选,筛选出大于Qu,小于QL的离点。
1)设置条件区域,如图8-5所示。
income |
<-11097.7625 |
>64534.9375 |
图8-5 高级筛选“条件区域”
2)设置高级筛选。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论