2019年数据分析师考试题--688IT编程网

2019年数据分析师考试题

姓名：__________

一、单选题（10题*2分=20分）

1、正态分布有两个参数与，（），分布越集中，正态曲线的形状越“扁平”。

A、越大

B、越小

C、越大

D、正则化是结构风险最小化策略的实现越小

2、在基本K-均值算法里，当邻近度函数选择（）时候，合适的质心是簇中各点的中位数。

A、欧氏距离

B、曼哈顿距离

C、余弦距离

D、Bregman散度

3、一般情况下，以下哪些指标不用于分类模型中的模型评价：（）

A、正确率

B、覆盖率

C、命中率

D、轮廓系数

4、在使用 ROC 曲线判断模型的优劣时，以下哪个叙述是正确的？（）

A、ROC 曲线下方的面积越小，说明模型效果越好

B、ROC 曲线越靠近 45 度斜线，说明模型效果越好

C、ROC 曲线一般在 45 度斜线下方

D、ROC 曲线下方的面积越大，说明模型效果越好

5、为了判断某班级男女身高是否有差异，可以使用哪种方法？（）

A、卡方检验

B、T检验

C、DW 检验

D、ANOVA

6、如果准备观察单维连续型数据的分布情况，优先使用以下哪种图形？（）

A、散点图

B、折线图

C、直方图

D、河流图

7、对于极值正规化（Min-Max Normalization）及 Z-分数正规化（Z-Score Normalization）的结果，以下判断正确的是（）

A、经过 Z-Score Normalization 处理后的数据，不可能再有小于 0 的值

B、经过 Min-Max Normalization 处理后的数据，不可能再有小于 0 的值

C、经过 Z-Score Normalization 处理后的数据，不可能再有大于 1 的值

D、经过 Min-Max Normalization 处理后的数据，可能还有大于 1 的值

8、对于缺失值，以下说法正确的是？（）

A、所有的有监督学习模型都不支持有缺失值的情况

B、遇到有缺失值的情况，优先考虑删除变量

C、对于连续型数据，考虑使用临近法进行填充

D、对于分类数据，考虑使用均值填充

9、如果被解释变量和某一个解释变量都是连续型变量，那么可以使用以下哪种模型来判断这一个解释变量是否应当剔除或者保留？（）

A、T检验

B、卡方检验

C、相关系数

D、hash算法

10、设某公路上经过的货车与客车的数量之比为2:1，货车中途停车修理的概率为0.02，客车为 0.01，今有一辆汽车中途停车修理，求该汽车是货车的概率为？（）

A、0.80

B、0.40

C、0.60

D、0.013

二、填空题（5题*3分=15分）

1、跨行业数据挖掘标准流程CRISP-DM包括六大步：______。

2、知识图谱本质上是语义网络，是一种基于图的数据结构，由__节点____和___边___组成。

3、关联分析的目的是出数据集合中隐藏的关联网，是离散变量因果分析的基础，主要的关联算法：______（至少两个）。

4、2019年国家电网提出的战略目标是“三型两网”，其中三型是指______，两网是指______。

5、K-Means算法、AHP算法、PCA算法属于_____算法，C4.5决策树算法、L1/2稀疏迭代回归算法、XGboost等算法属于_____算法。

三、简答题（5题*10分=50分）

1、什么是过拟合、欠拟合？如何防止过拟合和欠拟合？

2、设某工厂甲、乙、丙三个车间生产同一产品，产量依次占全厂的 45%，35%，20%。且各车间的次品率依次为4%，2%，5%。现从待出厂的产品中抽取1个产品，该产品是次品的概率是？

3、如下是某小卖部的营业分析表，设定关联规则喝茶->喝咖啡，{喝茶}、{喝咖啡}为项集，则{喝茶->喝咖啡}的支持度和置信度是多少？

	喝咖啡（A）	不喝咖啡（¬A）	合计
喝茶（B）	150	50	200
不喝茶（¬B）	650	150	800
合计	800	200	1000

4、简述奥卡姆剃刀原理应用于模型选择时的核心思想。

5、请简单介绍下马尔可夫链的原理。

四、开放题（15分）

在训练二分类模型时，例如反窃电识别、配变重过载等，经常会遇到正负样本不均衡的问题。对于很多分类算法，如果直接采用不均衡的样本来进行训练学习，会存在一些问题，比如，如果正负样本比例达到1:99，则分类器简单的将所有样本都判别为负样本就能达到99%的正确率，显然这并不是我们想要的，我们想让分类器在正样本和负样本上都有足够的准确率和召回率。问题：对于二分类问题，当训练集中正负样本非常不均衡时，如果处理数据以更好的训练分类模型？

688IT编程网

2019年数据分析师考试题

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

2019年数据分析师考试题

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式