机器学习黄海广老师期末考试-答题记录(得分100分)--688IT编程网

机器学习黄海⼴⽼师期末考试-答题记录（得分100分）

机器学习期末考试

得分：100分(欢迎讨论评论)

1.单选(2分)

⼀监狱⼈脸识别准⼊系统⽤来识别待进⼊⼈员的⾝份，此系统⼀共包括识别4种不同的⼈员：狱警，⼩偷，送餐员，其他。下⾯哪种学习⽅法最适合此种应⽤需求：

A.K-means聚类问题

B.回归问题

C.⼆分类问题

√ D.多分类问题

2.单选(2分)

以下哪种技术对于减少数据集的维度会更好？

√ A.删除缺少值太多的列

B.删除数据差异较⼤的列

C.删除不同数据趋势的列

D.都不是

3.单选(2分)

将原始数据进⾏集成、变换、维度规约、数值规约是在以下哪个步骤的任务？

A.频繁模式挖掘

B.分类和预测

√ C.数据预处理

D.数据流挖掘

4.单选(2分)

正则化是最小化策略的实现

下列不是SVM核函数的是( )

A.多项式核函数

√ B.逻辑核函数

C.径向基核函数

D.线性核函数

5.单选(2分)

数据科学家可能会同时使⽤多个算法（模型）进⾏预测，并且最后把这些算法的结果集成起来进⾏最后的预测（集成学习），以下对集成学习说法正确的是

A.单个模型之间有⾼相关性

√ B.单个模型之间有低相关性

C.在集成学习中使⽤“平均权重”⽽不是“投票”会⽐较好

D. 单个模型都是⽤的⼀个算法

6.单选(2分)

在以下不同的场景中，使⽤的分析⽅法不正确的有

A.根据商家最近⼀年的经营及服务数据,⽤聚类算法判断出天猫商家在各⾃主营类⽬下所属的商家层级

√ B.根据商家近⼏年的成交数据,⽤聚类算法拟合出⽤户未来⼀个⽉可能的消费⾦额公式

C.⽤关联规则算法分析出购买了汽车坐垫的买家，是否适合推荐汽车脚垫

D.根据⽤户最近购买的商品信息,⽤决策树算法识别出淘宝买家可能是男还是⼥

7.单选(2分)

b ootstrap 数据的含义是

A.有放回的从整体M中抽样m个特征

B.⽆放回的从整体M中抽样m个特征

√ C.有放回的从整体N中抽样n个样本

D.⽆放回的从整体N中抽样n个样本

8.单选(2分)

在逻辑回归中，如果同时加⼊L1和L2范数，不会产⽣什么效果

A.以做特征选择，并在⼀定程度上防⽌过拟合

B.能解决维度灾难问题

C.能加快计算速度

√ D.可以获得更准确的结果

9.单选(2分)

对于在原空间中线性不可分问题，⽀持向量机（）。

A.在原空间中寻⾮线性函数的划分数据

B.⽆法处理

C.在原空间中寻线性函数划分数据

√ D.将数据映射到核空间中

10.单选(2分)

回归问题和分类问题的区别是？

A.回归问题有标签，分类问题没有

B.回归问题输出值是离散的，分类问题输出值是连续的

√ C.回归问题输出值是连续的，分类问题输出值是离散的

D.回归问题与分类问题在输⼊属性值上要求不同

11.单选(2分)

以下关于降维的说法不正确的是？

A.降维是将训练样本从⾼维空间转换到低维空间

√ B.降维不会对数据产⽣损伤

C.通过降维可以更有效地发掘有意义的数据结构

D.降维将有助于实现数据可视化

12.单选(2分)

向量x=[1,2,3,4,-9,0]的L1范数是多少？

A.1

√ B.19

C.6

D.sqrt(111)

假设X和Y都服从正态分布，那么P(X<5,Y<0)就是⼀个（），表⽰X<5,Y<0两个条件同时成⽴的概率，即两个事件共同发⽣的概率。

A.先验概率

B.后验概率

√ C.联合概率

D.以上说法都不对

14.单选(2分)

假设会开车的本科⽣⽐例是15%，会开车的研究⽣⽐例是23%。若在某⼤学研究⽣占学⽣⽐例是20%，则会开车的学⽣是研究⽣的概率是多少？√ A.27.7%

B.16.6%

C.23%

D. 15%

15.单选(2分)

假设有100张照⽚，其中，猫的照⽚有60张，狗的照⽚是40张。

识别结果：TP=40，FN=20，FP=10，TN=30，则可以得到：( )。

A.Accuracy=0.8

√ B.Precision=0.8

C.Recall=0.8

D.以上都不对

16.单选(2分)

以下关于训练集、验证集和测试集说法不正确的是( )。

A.测试集是纯粹是⽤于测试模型泛化能⼒

√ B.训练集是⽤来训练以及评估模型性能

C.验证集⽤于调整模型参数

D.以上说法都不对

17.单选(2分)

下列哪种⽅法可以⽤来缓解过拟合的产⽣：( )。

A.增加更多的特征

√ B.正则化

C.增加模型的复杂度

D.以上都是

18.单选(2分)

假设有 6 个⼆维数据点：D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)}，第⼀次切分时候，切分线为( )。

A.x=5

√ B.x=6

C.y=5

D.y=6

19.单选(2分)

两个向量的长度分别为1和2，两者之间的夹⾓为60度，则以下选项错误的是( )。

A.余弦相似度为0.5

B.余弦相似度为正

√ C.余弦相似度没法计算，因为没给出具体坐标值

D.余弦相似度的值与向量的长度⽆关，只和向量之间的夹⾓有关

20.单选(2分)

L ightGBM与XGBoost相⽐，主要的优势不包括( )

A.更快的训练速度

B.更低的内存消耗

C.更好的准确率

√ D.采⽤⼆阶泰勒展开加快收敛

21.单选(2分)

关于BP算法优缺点的说法错误的是 ( )。

√ A.BP算法不能⽤于处理⾮线性分类问题

B.BP算法训练时间较长

C.BP算法容易陷⼊局部最⼩值

D.BP算法训练时候可能由于权值调整过⼤使得激活函数达到饱和

22.单选(2分)

神经⽹络算法有时会出现过拟合的情况，那么采取以下哪些⽅法解决过拟合更为可⾏（）。

A.为参数选取多组初始值，分别训练，再选取⼀组作为最优值

B.增⼤学习的步长

C.减少训练数据集中数据的数量

√ D.设置⼀个正则项减⼩模型的复杂度

23.单选(2分)

S VM算法的最⼩时间复杂度是O(n^2)。基于这⼀点，以下哪种规格的数据集并不适⽤于该算法?( )

√ A.⼤数据集

B.⼩数据集

C.中数据集

D.不受数据集⼤⼩的影响

24.单选(2分)

⼀个正例(2,3)，⼀个负例(0,-1)，下⾯哪个是SVM超平⾯?（）

A.2x+y-4=0

B.2y+x-5=0

√ C.x+2y-3=0

D.⽆法计算

25.单选(2分)

下列关于Kmeans聚类算法的说法错误的是( )。

A.对⼤数据集有较⾼的效率并且具有可伸缩性

B.是⼀种⽆监督学习⽅法

C.K值⽆法⾃动获取，初始聚类中⼼随机选择

√ D.初始聚类中⼼的选择对聚类结果影响不⼤

简单地将数据对象集划分成不重叠的⼦集，使得每个数据对象恰在⼀个⼦集中，这种聚类类型称作( )。

A.层次聚类

√ B.划分聚类

C.⾮互斥聚类

D.密度聚类

27.单选(2分)

以下关于PCA说法正确的是 ( )。

A.PCA是⼀种监督学习算法

B.PCA在转换后的第⼀个新坐标轴选择的是原始数据中⽅差最⼩的⽅向

√ C.PCA转换后选择的第⼀个⽅向是最主要特征

D.PCA不需要对数据进⾏归⼀化处理

28.单选(2分)

关于Apriori和FP-growth算法说法正确的是( )。

A.Apriori⽐FP-growth操作更⿇烦

B.FP-growth算法需要对项⽬进⾏配对，因此处理速度慢

C.FP-growth只需要⼀次遍历数据，扫描效率⾼

√ D.FP-growth算法在数据库较⼤时，不适宜共享内存

29.单选(2分)

某超市研究销售纪录数据后发现，买啤酒的⼈很⼤概率也会购买尿布，这种属于数据挖掘的哪类问题？( )√ A.关联规则发现

B.聚类

C.分类

D.⾃然语⾔处理

30.单选(2分)

置信度(confidence)是衡量兴趣度度量( )的指标。

A.简洁性

√ B.确定性

C.实⽤性

D.新颖性

31.多选(2分)

下⾯哪些是分类算法？

√ A.根据肿瘤的体积、患者的年龄来判断良性或恶性？

√ B.根据⽤户的年龄、职业、存款数量来判断信⽤卡是否会违约？

√ C.⾝⾼1.85m，体重100kg的男⼈穿什么尺码的T恤？

D.根据房屋⼤⼩、卫⽣间数量等特征预估房价

32.多选(2分)

以下哪些是使⽤数据规范化(特征缩放)的原因？

A.它通过降低梯度下降的每次迭代的计算成本来加速梯度下降

√ B.它通过减少迭代次数来获得⼀个好的解，从⽽加快了梯度下降的速度

√ C.它不能防⽌梯度下降陷⼊局部最优

D.它防⽌矩阵XTX不可逆(奇异/退化)

33.多选(2分)

影响KNN算法效果的主要因素包括( )。

√ A.K的值

√ B.距离度量⽅式

√ C.决策规则

D.最邻近数据的距离

34.多选(2分)

⽀持向量机有哪些常⽤的核函数( )。

√ A.⾼斯核

B.拉普拉斯核

√ C.线性核

√ D.多项式核

35.多选(2分)

以下关于⽀持向量机的说法正确的是 ( )。

A.SVM适⽤于⼤规模数据集

B.SVM分类思想就是将分类⾯之间的间隔最⼩化

√ C.SVM⽅法简单，鲁棒性较好

√ D.SVM分类⾯取决于⽀持向量

36.多选(2分)

关于BP算法优点说法正确的是（）。

√ A.BP算法能够⾃适应学习

√ B.BP算法有很强的⾮线性映射能⼒

√ C.BP算法反向传播采⽤链式法则，推导过程严谨

D.BP算法泛化能⼒不强

37.多选(2分)

下⾯关于⽀持向量机的描述正确的是( )。

√ A.是⼀种监督学习的⽅法

√ B.可⽤于多分类的问题

√ C.⽀持⾮线性的核函数

D.是⼀种⽣成模型

38.多选(2分)

下⾯属于降维常⽤的技术的有： ( )。

√ A.主成分分析

B.特征提取

√ C.奇异值分解

D.离散化

P CA算法获取的超平⾯应具有哪些性质（）。

√ A.最近重构性

B.信息增益最⼤性

√ C.最⼤可分性

D.局部极⼩性

40.多选(2分)

关于关联规则，正确的是：( )。

√ A.关联规则挖掘的算法主要有： Apriori和FP-Growth

√ B.⼀个项集满⾜最⼩⽀持度，我们称之为频繁项集

C.啤酒与尿布的故事是聚类分析的典型实例

√ D.⽀持度是衡量关联规则重要性的⼀个指标

41.判断(1分)

⽀持向量是那些最接近决策平⾯的数据点

√ A.正确

B.错误

42.判断(1分)

相关变量的相关系数可以为零，对吗？

√ A.正确

B.错误

43.判断(1分)

P CA会选取信息量最少的⽅向进⾏投影。

A.正确

√ B.错误

44.判断(1分)

⼤部分的机器学习⼯程中，数据搜集、数据清洗、特征⼯程这三个步骤绝⼤部分时间，⽽数据建模，占总时间⽐较少。√ A.正确

B.错误

45.判断(1分)

随机梯度下降，每次迭代时候，使⽤⼀个样本。

√ A.正确

B.错误

46.判断(1分)

朴素贝叶斯法的基本假设是条件独⽴性。

√ A.正确

B.错误

47.判断(1分)

S MOTE算法是⽤了上采样的⽅法。

√ A.正确

B.错误

48.判断(1分)

L2 正则化得到的解更加稀疏。

A.正确

√ B.错误

49.判断(1分)

ID3 算法只能⽤于处理离散分布的特征。

√ A.正确

B.错误

50.判断(1分)

集成学习的数据不需要归⼀化或者标准化。

√ A.正确

B.错误

51.判断(1分)

B P算法“喜新厌旧”，在学习新样本后，会把旧样本逐渐遗忘。

√ A.正确

B.错误

52.判断(1分)

逻辑回归分类的精度不够⾼，因此在业界很少⽤到这个算法

A.正确

√ B.错误

53.判断(1分)

S MOTE算法是⽤了上采样的⽅法。

√ A.正确

B.错误

54.判断(1分)

100万条数据划分训练集、验证集、测试集，数据可以这样划分：98%，1%，1% 。

√ A.正确

B.错误

55.判断(1分)

K均值是⼀种产⽣划分聚类的基于密度的聚类算法，簇的个数由算法⾃动地确定。

A.正确

√ B.错误

56.判断(1分)

朴素贝叶斯法的基本假设是条件独⽴性。

B.错误

57.判断(1分)

特征空间越⼤，过拟合的可能性越⼤。

√ A.正确

B.错误

58.判断(1分)

两个向量的余弦相似度越接近1，说明两者越相似。

√ A.正确

B.错误

59.判断(1分)

K均值是⼀种产⽣划分聚类的基于密度的聚类算法，簇的个数由算法⾃动地确定。

A.正确

B.错误

60.判断(1分)

I D3 算法的核⼼思想就是以信息增益来度量特征选择，选择信息增益最⼤的特征进⾏分裂。√ A.正确

B.错误

688IT编程网

机器学习黄海广老师期末考试-答题记录(得分100分)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

机器学习黄海广老师期末考试-答题记录(得分100分)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则