学年第学期;          课号                    
课程名称 Python经济大数据分析 (A闭卷); 适用班级(或年级、专业)  
(每位考生需要答题纸(8k)  1 张、草稿纸(16k)张)
考试时间 120  分钟    班级              学号                  姓名           
python大数据就业前景
题  号
成绩
满  分
30
20
20
30
得  分
评卷人
一、单项选择题(每道题2分,共30分)
1. 衡量取样数据的质量的标准不包括:(    )
A. 资料完整无缺 B. 各类指标项齐全 C. 数据准确无误  D. 数据一致
2. Python中如果用户要自己定义函数,需要使用的关键字是?(    )
A. from          B. def或lambda  C. import          D. return
3. 以下代码的输出结果为(    )
def  Foo(x):
if(x= =1):
  return 1
else:
  return x+Foo(x-1)
print(Foo(4))
10          B. 24            C. 7              D. 1
4. 以下关于分类问题的说法错误的是?(    )
A. 分类问题输入属性必须是离散的
B. 分类属于监督学习
C. 回归问题在一定条件下可被转化为多分类问题
D. 多分类问题可以被拆分为多个二分类问题
5. 关于第三方库,以下说法不正确的是(    )
A. 下载源代码自行安装
B. 用pip命令安装
C. 现在编译好的文件包进行安装
D. 单独导入库名不可以使用库中的所有子模块
6. 提供了数支持以及相应的高效的处理函数的是(    )
A. SciPy              B. Keras          C. Numpy      D. StatsModels
7. 有关数据质量正确的说法是(    )
A. 错误的数据也可能产生有用的结果
B. 数据预处理的重要目的是提高数据挖掘结果的质量
C. 因为分析的数据量很大,有些噪声即使不去除也对数据挖掘没多大影响
D. 数据质量不需要对业务理解
8. 假设有三类数据,用OVR(One V Rest)方法需要分类几次才能完成?
A. 3
B. 4
C. 1
D. 2
9. 以下哪些不是二分类问题?
A. 根据一个人的身高和体重判断他(她)的性别。
B. 根据肿瘤的体积、患者的年龄来判断良性或恶性?
C. 身高1.85m,体重100kg的男人穿什么尺码的T恤?
D. 或者根据用户的年龄、职业、存款数量来判断信用卡是否会违约?
10. 以下不属于集中趋势统计量的是(    )
A. 均值          B. 中位数      C. 四分位数      D. 众数
11. 置信度是度量(    )的指标。
A. 简洁性        B. 可靠性      C. 实用性          D. 新颖性
12. 以下不属于聚类算法类型的是(    )
A. 划分方法    B. 层次方法      C. 基于密度的方法  D. 决策树归纳算法
13. 下面哪个回归分析的说法是正确的(    )
A. 非线性回归问题一般要转化为线性回归
B. 回归分析不需要样本训练
C. 可以预测非数据型属性的类别
D. 回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计方法
14. 以下不属于属性规约常用的处理技术是(    )
A. 合并属性      B. 决策树归纳  C. 主成分分析      D. 特征加权
15. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
A. 根据内容检索    B. 建模描述    C. 预测建模    D.寻模式和规则
二、填空题(每空2分,共20分)
1. 处理缺失值常用的三种方法是:删除记录、___________和____________
2. 二分类问题的混淆矩阵如图所示,通过图中的数据可以得知精确率是________ ,召回率是_________ ,F1值是___________,真正例率是__________,假正例率是________,准确率是________,错误率是_________。(保留两位小数)
3. 对聚类分析算法进行评价常用的方法有purity评价法、RI评价法和________
三、名词解释题(每道题5分,共20分)
1. 脏数据
2. 数据清洗
3. 关联规则
4.  BP神经网络
四、简答题(每道题6分,共30分)
1. 在数据质量分析的过程中,如何进行异常值分析?
2. 数据探索的定义,简述数据质量分析中脏数据的类型。
3. 简述为什么要做数据预处理,数据预处理的主要内容。
4. 什么是决策树?决策树的剪枝有哪些方法?
5. 什么是聚类?简要描述K-Means聚类算法的实现过程。
试卷一答案
单选
1-5:  DBAAD
6-10: CBDCC
11-15: BDADC
填空
1. 数据插补、不处理。
2.0.90; 0.78; 0.84; 0.78; 0.02; 0.93; 0.07
3. 5F值评价法
名词解释题
1. 脏数据:脏数据一般是指不符合要求以及不能直接进行相应分析的数据。
2. 数据清洗:数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉和挖掘主题无关的数据,处理缺失值、异常值等。
3. 关联规则:假设I={I_1,I_2,⋯,I_n}是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)
对应。关联规则是反映一个事物与其他事物之间的相互依存性和关联性,用于从大量数据中挖掘出有价值的数据项之间的相关关系,可从数据中分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。