广东金融学院实验报告
课程名称:大数据工具应用
实验编号 及实验名称 | 实验二 数据分析入门(一) | 学院 | |||
姓 名 | 学 号 | 班 级 | |||
实验地点 | 新电1001 | 实验日期 | 2018.11.19 | 实验时数 | 2 |
指导老师 | 钟雪灵 | 同组其他成员 | 无 | 成 绩 | |
一、实验目的及要求 通过实验进一步掌握大数据工具的基础知识,独立使用工具获取网页数据并对数据进行预处理。 | |||||
二、实验环境及相关情况(包含使用软件、实验设备、主要仪器及材料等) 1.使用软件:Wekabank文件 2.实验设备:装有Windows 7的联网的个人计算机 | |||||
三、实验内容 1. 完成bank-data.xlsx文件到arff文件的转换。 2. 对inal.arff数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。 3. 生成inal.arff数据集的决策树。 4. 对CPU.arff数据集使用M5P分类器进行线性回归。 5. 使用SimpleKMeans聚类器对weather.numeric.arff数据集进行聚类,选择2个簇和欧氏距离,其他参数保持默认值,忽略play属性。 6. 使用EM聚类器对weather.numeric.arff数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。 | |||||
四、实验结果(对必要的实验步骤进行截图,并加以文字描述) 1、完成bank-data.xlsx文件到arff文件的转换。 (1)打开“bank-data.xlsx”-点击“文件”-点击“另存为”-保存类型选中“CSV(逗号分隔)”-点击“保存”。 (2)打开weka-点击“Tools”-点击“ArffViewer”-点击“File-open” –文件类型选中“所有文件”-选中“bank-data.csv”-“打开” 点击“file”-点击“save as”-文件类型选中“Arff data files ”-“保存” 2、对inal.arff数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。 (1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numeric.arff”-点击“打开” 点击“Choose”-选中“Discretize”-点击空白处-在 “attributelndices”中输入2,在“bins”中输入3,其他保持不变-点击“OK”,再点击“Apply” 为避开可读性较差的问题,先另存为,点击“Save”。 (2)打开“word”,打开“weather.numeric.arff”这个文件 选中“'\'(-inf-71]\''”,点击“替换” 选中 “'\'(71-78]\''”,替换成“mild” 选中“'\'(78-inf)\''”,替换成“hot” 点击“保存”。 (3)用weka打开查看 3、生成inal.arff数据集的决策树。 (1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numinal.arff”-点击“打开”,切换到“Classify”-单击“Choose”-打开“trees”条目-点击“J48”,选择“Use traning set”,单击“Strart”。 (2)在结果列表中右击“J48”条目,选择可视化菜单项“Visualize tree” 4. 对CPU.arff数据集使用M5P分类器进行线性回归。 打开weka-点击“Explorer”-点击“Open file”-选中“cpu.aff”-点击“打开”, 点击“Classify”-“Choose”,打开“function”条目-点击“LinearRegressio”,单击“Strart”。 在结果列表中右击条目,选择可视化分类结果误差菜单项“Visualize classifier errors” 5. 使用SimpleKMeans聚类器对weather.numeric.arff数据集进行聚类,选择2个簇和欧氏距离, 其他参数保持默认值,忽略play属性。 (1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numeric.arff”-点击“打开”, 切换到“Cluster”-单击“Choose”-选择“SimpleKMeans”,单击文本框-保持默认设置,单击“Ignore attributes”-选择“play”-单击“select”,单击“Start”。 (2)在结果列表中右击条目,选择“Visualize cluster assignments” (3)单击“Save”,再次打开文件查看 6. 使用EM聚类器对weather.numeric.arff数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。 (1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numeric.arff”-点击“打开”,切换到“Cluster”-单击“Choose”-选择“EM”,单击文本框-“numClusters”设置为“2”-其他参数保持不变,选中“Classes to clusters evaluation”,单击“Ignore attributes”-弹出框中选择“play”-单击“select,”单击“Start”。 (2)在结果列表中右击条目,选择“Visualize cluster assignments” (3)单击“Save”,再次打开文件查看 | |||||
五、实验总结(包括心得体会、问题回答及实验改进意见,可附页) 1、这次实验很有难度,基本都要依靠视频,逐步跟进,第一次接触Weka,所以一轮实验过后对weka也只能算是有了接触,还算不上理解。 2、决策树较其他几个实验项目易懂,有图形,很形象了然。 3、大致懂得分类、聚类的操作步骤,但由于缺乏相应的数学知识储备,相应的计算机术语,不明白结果要如何分析,所以距离用weka做实际分类聚类的应用还很远。 4、希望自己有时间的时候能多看点资料,多补充点计算机和数学的知识,多了解软件里各个英文的含义,多去分析分析数据结果。 | |||||
六、教师评语 □实验态度端正,实验步骤、结果正确,实验总结认真,评分:优秀 □实验态度端正,实验步骤、结果正确,评分:良好 □实验步骤、结果正确,评分:中等 □能够按照实验步骤完成实验,评分:及格 □无法完成实验,评分:不及格 指导老师:钟雪灵 2018.5 | |||||
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论