实验8-1 数据分析
一、实验目的
1. 理解数据挖掘的一般流程。
2. 掌握数据探索和预处理的方法。
3. 使用PHSTAT软件,结合Excel对给定的数据进行手工预处理。
4. 使用WEKA软件,对给定的数据进行预处理。
二、实验内容
在D盘中以“班级-学号-姓名”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。
0. 数据集介绍
银行资产评估数据bank-data.xlsx,数据里有12个属性,分别是id(编号), age(年龄), sex
(性别), region(地区), income(收入),married(婚否), children(子女数), car(是否有私家车), save_act(是否有定期存款), current_act(是否有活期账户), mortgage(是否有资产抵押), pep(目标变量,是否买个人理财计划Personal Equity Plan)。
1.数据探索之数据质量分析
新建“1-数据质量分析.xlsx”文件,导入“0-bank_data.xlsx”文件数据,请你用EXCEL对其进行数据质量分析。
【要求】
(1)请出bank_data.xlsx表中的含有缺失值的记录。
(2)请你用PHSTAT软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。
(3)计算Whisker上限、Whisker下限,并利用高级筛选,出该属性的异常值记录。
【提示】
(1)请出bank_data.xlsx表中的含有缺失值的记录。
方法1:条件格式法
1)选取A1:L601区域。
2)开始 --> 条件格式 --> 新建规则(N)...,在"新建格式规则"对话框中,选择空值。如图8-1所示。
图8-1 “新建格式规则”对话框
3)点击“格式(F)”按钮,设置特殊格式,高亮显示。如图8-2所示。
图8-2 设置条件格式
方法2:
1)缺失值定位。“开始“编辑 / 查和选择”“定位对话框 “定位条件”按钮。
2)定位条件对话框 选择“空值,如图8-3所示。
   
图8-3 “转到(G)”下拉菜单命令 和“定位条件”对话框
(2)绘制“income”属性箱线图和点比例图。高级筛选出异常值。
“加载项 / PHStat” Descriptive Statistics“Boxplot…”或”Dot Scale Diagram“命令。如图8-4所示。注意选中“income”属性,如果数据区域包括标题行(E1单元格),则勾选下面的First cell contains label选项,否则,不用勾选First cell contains label选项。
 
(a)        (b)
 
(c)        (d)
图8-4 PHSTAT 软件的“箱线图”和“点比例图”绘制
计算income属性的最小值、最大值、第一四分位数、中位数、第三四分位数。以及Whisker下限和上限。
表8-1 四分位数表
箱线图
公式
数值
最小值
=MIN(E2:E601)
=QUARTILE.INC(E2:E601,0)
5014.21
最大值
=MAX(E2:E601)
=QUARTILE.INC(E2:E601,4)
78843.21
第一分位数
=QUARTILE.INC($E$2:$E$601,1)
17264.5
第二分位数
(中位数)
=MEDIAN($E$2:$E$601)
或=QUARTILE.INC(E2:E601,2)
24925.3
第三分位数
countifs函数为何总为零=QUARTILE.INC(E2:E601,3)
36172.675
Whisker上限
=QL-1.5*(Qu-QL)
-11097.763
Whisker下限
=Qu+1.5*(Qu-QL)
64534.9375
高级筛选,筛选出大于Qu,小于QL的离点。
1)设置条件区域,如图8-5所示。
income
<-11097.7625
>64534.9375
图8-5 高级筛选“条件区域”
2)设置高级筛选。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。