广东金融学院实验报告
课程名称:大数据工具应用
实验编号
及实验名称
实验二 数据分析入门(一)
学院
姓  名
学  号
班  级
实验地点
新电1001
实验日期
2018.11.19
实验时数
2
指导老师
钟雪灵
同组其他成员
成  绩
一、实验目的及要求
通过实验进一步掌握大数据工具的基础知识,独立使用工具获取网页数据并对数据进行预处理。
二、实验环境及相关情况(包含使用软件、实验设备、主要仪器及材料等)
1.使用软件:Wekabank文件
2.实验设备:装有Windows 7的联网的个人计算机
三、实验内容
1. 完成bank-data.xlsx文件到arff文件的转换。
2. 对inal.arff数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。
3. 生成inal.arff数据集的决策树。
4. 对CPU.arff数据集使用M5P分类器进行线性回归。
5. 使用SimpleKMeans聚类器对weather.numeric.arff数据集进行聚类,选择2个簇和欧氏距离,其他参数保持默认值,忽略play属性。
6. 使用EM聚类器对weather.numeric.arff数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。
四、实验结果(对必要的实验步骤进行截图,并加以文字描述)
1、完成bank-data.xlsx文件到arff文件的转换。
(1)打开“bank-data.xlsx”-点击“文件”-点击“另存为”-保存类型选中“CSV(逗号分隔)”-点击“保存”。
(2)打开weka-点击“Tools”-点击“ArffViewer”-点击“File-open” –文件类型选中“所有文件”-选中“bank-data.csv”-“打开”
点击“file”-点击“save as”-文件类型选中“Arff data files ”-“保存”
2、对inal.arff数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numeric.arff”-点击“打开”
点击“Choose”-选中“Discretize”-点击空白处-在 “attributelndices”中输入2,在“bins”中输入3,其他保持不变-点击“OK”,再点击“Apply”
为避开可读性较差的问题,先另存为,点击“Save”。
(2)打开“word”,打开“weather.numeric.arff”这个文件
选中“'\'(-inf-71]\''”,点击“替换”
选中 “'\'(71-78]\''”,替换成“mild”
选中“'\'(78-inf)\''”,替换成“hot”
点击“保存”。
(3)用weka打开查看
3、生成inal.arff数据集的决策树。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numinal.arff”-点击“打开”,切换到“Classify”-单击Choose”-打开“trees”条目-点击“J48”,选择“Use traning set”,单击“Strart”。
(2)在结果列表中右击“J48”条目,选择可视化菜单项“Visualize tree
4. 对CPU.arff数据集使用M5P分类器进行线性回归。
打开weka-点击“Explorer”-点击“Open file”-选中“cpu.aff”-点击“打开”, 点击“Classify”-“Choose”,打开“function”条目-点击“LinearRegressio”,单击“Strart”。
在结果列表中右击条目,选择可视化分类结果误差菜单项“Visualize classifier errors”
5. 使用SimpleKMeans聚类器对weather.numeric.arff数据集进行聚类,选择2个簇和欧氏距离,
其他参数保持默认值,忽略play属性。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numeric.arff”-点击“打开”, 切换到“Cluster”-单击“Choose”-选择“SimpleKMeans”,单击文本框-保持默认设置,单击“Ignore attributes”-选择“play”-单击“select”,单击“Start”。
(2)在结果列表中右击条目,选择“Visualize cluster assignments”
(3)单击“Save”,再次打开文件查看
6. 使用EM聚类器对weather.numeric.arff数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numeric.arff”-点击“打开”,切换到“Cluster”-单击“Choose”-选择“EM”,单击文本框-“numClusters”设置为“2”-其他参数保持不变,选中“Classes to clusters evaluation”,单击“Ignore attributes”-弹出框中选择“play”-单击“select,”单击“Start”。
(2)在结果列表中右击条目,选择“Visualize cluster assignments”
(3)单击“Save”,再次打开文件查看
五、实验总结(包括心得体会、问题回答及实验改进意见,可附页)
1、这次实验很有难度,基本都要依靠视频,逐步跟进,第一次接触Weka,所以一轮实验过后对weka也只能算是有了接触,还算不上理解。
2、决策树较其他几个实验项目易懂,有图形,很形象了然。
3、大致懂得分类、聚类的操作步骤,但由于缺乏相应的数学知识储备,相应的计算机术语,不明白结果要如何分析,所以距离用weka做实际分类聚类的应用还很远。
4、希望自己有时间的时候能多看点资料,多补充点计算机和数学的知识,多了解软件里各个英文的含义,多去分析分析数据结果。
六、教师评语
□实验态度端正,实验步骤、结果正确,实验总结认真,评分:优秀
□实验态度端正,实验步骤、结果正确,评分:良好
实验步骤、结果正确,评分:中等
□能够按照实验步骤完成实验,评分:及格
□无法完成实验,评分:不及格
                                                  指导老师:钟雪灵
                                                          2018.5

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。