2019年数据分析师考试题
姓名:__________
一、单选题(10题*2分=20分)
1、正态分布有两个参数与,(),分布越集中,正态曲线的形状越“扁平”。
A、越大
B、越小
C、越大
D、正则化是结构风险最小化策略的实现越小
2、在基本K-均值算法里,当邻近度函数选择()时候,合适的质心是簇中各点的中位数。
A、欧氏距离
B、曼哈顿距离
C、余弦距离
D、Bregman散度
3、一般情况下,以下哪些指标不用于分类模型中的模型评价:()
A、正确率
B、覆盖率
C、命中率
D、轮廓系数
4、在使用 ROC 曲线判断模型的优劣时,以下哪个叙述是正确的?()
A、ROC 曲线下方的面积越小,说明模型效果越好
B、ROC 曲线越靠近 45 度斜线,说明模型效果越好
C、ROC 曲线一般在 45 度斜线下方
D、ROC 曲线下方的面积越大,说明模型效果越好
5、为了判断某班级男女身高是否有差异,可以使用哪种方法?()
A、卡方检验
B、T检验
C、DW 检验
D、ANOVA
6、如果准备观察单维连续型数据的分布情况,优先使用以下哪种图形?()
A、散点图
B、折线图
C、直方图
D、河流图
7、对于极值正规化(Min-Max Normalization)及 Z-分数正规化(Z-Score Normalization)的结果,以下判断正确的是()
A、经过 Z-Score Normalization 处理后的数据,不可能再有小于 0 的值
B、经过 Min-Max Normalization 处理后的数据,不可能再有小于 0 的值
C、经过 Z-Score Normalization 处理后的数据,不可能再有大于 1 的值
D、经过 Min-Max Normalization 处理后的数据,可能还有大于 1 的值
8、对于缺失值,以下说法正确的是?()
A、所有的有监督学习模型都不支持有缺失值的情况
B、遇到有缺失值的情况,优先考虑删除变量
C、对于连续型数据,考虑使用临近法进行填充
D、对于分类数据,考虑使用均值填充
9、如果被解释变量和某一个解释变量都是连续型变量,那么可以使用以下哪种模型来判断这一个解释变量是否应当剔除或者保留?()
A、T检验
B、卡方检验
C、相关系数
D、hash算法
10、设某公路上经过的货车与客车的数量之比为2:1,货车中途停车修理的概率为0.02,客车为 0.01,今有一辆汽车中途停车修理,求该汽车是货车的概率为?()
A、0.80
B、0.40
C、0.60
D、0.013
二、填空题(5题*3分=15分)
1、跨行业数据挖掘标准流程CRISP-DM包括六大步:______。
2、知识图谱本质上是语义网络,是一种基于图的数据结构,由__节点____和___边___组成。
3、关联分析的目的是出数据集合中隐藏的关联网,是离散变量因果分析的基础,主要的关联算法:______(至少两个)。
4、2019年国家电网提出的战略目标是“三型两网”,其中三型是指______,两网是指______。
5、K-Means算法、AHP算法、PCA算法属于_____算法,C4.5决策树算法、L1/2稀疏迭代回归算法、XGboost等算法属于_____算法。
三、简答题(5题*10分=50分)
1、什么是过拟合、欠拟合?如何防止过拟合和欠拟合?
2、设某工厂甲、乙、丙三个车间生产同一产品,产量依次占全厂的 45%,35%,20%。且各车间的次品率依次为4%,2%,5%。现从待出厂的产品中抽取1个产品,该产品是次品的概率是?
3、如下是某小卖部的营业分析表,设定关联规则喝茶->喝咖啡,{喝茶}、{喝咖啡}为项集,则{喝茶->喝咖啡}的支持度和置信度是多少?
喝咖啡(A) | 不喝咖啡(¬A) | 合计 | |
喝茶(B) | 150 | 50 | 200 |
不喝茶(¬B) | 650 | 150 | 800 |
合计 | 800 | 200 | 1000 |
4、简述奥卡姆剃刀原理应用于模型选择时的核心思想。
5、请简单介绍下马尔可夫链的原理。
四、开放题(15分)
在训练二分类模型时,例如反窃电识别、配变重过载等,经常会遇到正负样本不均衡的问题。对于很多分类算法,如果直接采用不均衡的样本来进行训练学习,会存在一些问题,比如,如果正负样本比例达到1:99,则分类器简单的将所有样本都判别为负样本就能达到99%的正确率,显然这并不是我们想要的,我们想让分类器在正样本和负样本上都有足够的准确率和召回率。问题:对于二分类问题,当训练集中正负样本非常不均衡时,如果处理数据以更好的训练分类模型?
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论