人工智能机器学习技术练习(习题卷11)说明:答案和解析在试卷最后
第1部分:单项选择题,共155题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]分箱用于处理()
A)连续型数据
B)离散型数据
C)连续型和离散型数据即可
2.[单选题]决策树每个非叶结点表示()
A)某一个特征或者特征组合上的测试
B)某个特征满足的条件
C)某个类别标签
3.[单选题]关于回归问题,说法正确的是()
A)可以不需要label
B)label列是连续型
C)属于无监督学习
4.[单选题]分类模型在进行训练时需要()
A)训练集
B)训练集与测试集
C)训练集、验证集、测试集
5.[单选题]分类问题的label是一个( )值
A)数
B)类别
C)类别或者数
6.[单选题]以下()是 Python 中的二维图形包。
A)Matplotlib
B)Pandas
C)NumPy
D)BoKeh
7.[单选题]唤醒功能作为麦克风阵列技术中重要的一环,误唤醒率指标是低 于( )次/天? [] *
A)1
B)2
C)3
D)0.5
8.[单选题]自然语言处理包括语言识别、语音合成和()
B)语言理解
C)语言交流
D)语言训练
9.[单选题]AGNES是一种采用(__)策略的层次聚类算法。
A)自顶向下
B)自底向上
C)自左至右
D)自右至左
10.[单选题]关于BP算法反向传播的说法正确的是( )。
A)BP算法反向传播进行更新时一般用到微积分的链式传播法则
B)BP算法更新量与步长关系不大
C)BP算法反向传播的预测误差值一般由真实标签值和预测标签值的差计算得来
D)BP算法反向传播的目的是只对权值进行更新
11.[单选题]任何一个核函数都隐式地定义了一个()空间。
A)希尔伯特空间
B)再生希尔伯特空间
C)再生核希尔伯特空间
D)欧式空间
12.[单选题]( )是基于Topic Model的关键词抽取。
A)TF-IDF
B)TextRank
C)LDA
D)PCA
13.[单选题]Spark可以处理的数据任务包括()
A)数据批处理任务
B)准实时处理任务
C)图数据处理任务
D)A, B和C
14.[单选题]下列函数中,用于沿着轴方向堆叠Pandas对象的是()。
A)concat()
B)join()
C)merge()
D)combine_first()正则化可以产生稀疏权值
15.[单选题]有关机器学习工程师下面说法正确的是( )。
A)不需要了解一定的相关业务知识
B)不需要熟悉数据的提取和预处理
C)需要一定的数据分析实际项目训练
D)培训后就能胜任实际数据分析
16.[单选题]()算法可以用于特征选择。
A)朴素贝叶斯
B)感知器
C)支持向量机
17.[单选题]若A与B是任意的两个事件,且P(AB)=P(A)·P(B),则可称事件A与B()。
A)等价
B)互不相容
C)相互独立
D)相互对立
18.[单选题]下列有关KNN算法的流程顺序,描述正确的是()①确定K的大小,和距离的计算方法②根据K个样本的所属类别,投票决定测试样本的类别归属③计算训练集样本与测试样本的距离,选出K个与测试样本最相似的样本
A)① ② ③
B)③ ② ①
C)① ③ ②
D)② ① ③
19.[单选题]文本向量的每个元素表示该词的( )。
A)顺序
B)频率
C)含义
D)语义关系
20.[单选题]关于“回归(Regression)”和“相关(Correlation)”,下列说法正确的是?注意:x 是自变量,y 是因变量。
A)回归和相关在 x 和 y 之间都是互为对称的
B)回归和相关在 x 和 y 之间都是非对称的
C)回归在 x 和 y 之间是非对称的,相关在 x 和 y 之间是互为对称的
D)回归在 x 和 y 之间是对称的,相关在 x 和 y 之间是非对称的
21.[单选题]在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题
A)增加训练集量
B)减少神经网络隐藏层节点数
C)删除稀疏的特征 S
D)SVM算法中使用高斯核/RBF核代替线性核
22.[单选题]关于 k 折交叉验证,下列说法正确的是?
A)k 值并不是越大越好,k 值过大,会降低运算速度
B)选择更大的 k 值,会让偏差更小,因为 k 值越大,训练集越接近整个训练样本
C)选择合适的 k 值,能减小验方差
D)以上说法都正确
23.[单选题]下列哪一种偏移,是我们在最小二乘直线拟合的情况下使用的?图中横坐标是输入 X,纵坐标是输出 Y。
A)垂直偏移(vertical offsets)
B)垂向偏移(perpendicular offsets)
C)两种偏移都可以
D)以上说法都不对
24.[单选题]3.以下哪些是无序属性()
A){1,2,3}
B){飞机,火车、轮船}
C)闵可夫斯基距离
D){小,中,大}
25.[单选题]抖动技术可以()
A)改善图像的空间分辨率
B)改善图像的幅度分辨率
C)利用半输出技术实现
D)消除虚假轮廓现象
26.[单选题]下列关于过拟合的说法错误的是
A)过拟合是指模型在训练集上表现很好,但是在交叉验证集和测试集上表现一般
B)解决过拟合可以采用Dropout方法
C)解决过拟合可以采用参数正则化方法
D)数据集扩增不能用来解决过拟合问题
27.[单选题]在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。
A)互信息
B)最大熵
C)卡方检验
D)最大似然比
28.[单选题]评估完模型之后,发现模型存在高偏差(high bias),应该如何解决?
A)减少模型的特征数量
B)增加模型的特征数量
C)增加样本数量
D)以上说法都正确
29.[单选题]下面对线性模型中偏置值b的说法正确的是(__)。
A)无任何意义
B)决定超平面的位置
C)决定的超平面的方向
D)是样本点到超平面上的映射
30.[单选题]下面不属于客户服务的有(__)。
A)ravel
B)medallia
C)gainsight
D)frame.ai
31.[单选题]建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
A)根据内容检索
B)建模描述
C)预测建模
D)寻模式和规则
32.[单选题]以下说法正确的是( )
A)Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分 类器的正确率决定其权重
B)梯度下降有时会陷于局部极小值,但EM算法不会
C)除了EM算法,梯度下降也可求混合高斯模型的参数
D)基于最小二乘的线性回归问题中,增加L2正则项,总能降低在测试集上的
MSE误差
33.[单选题]下列表述中,在k-fold交叉验证中关于选择K说法正确的是
B)相对于期望误差来说,选择较大的K会导致低偏差(因为训练folds会变得与整个数据集相似)
C)在交叉验证中通过最小化方差法来选择K值
D)以上都正确
34.[单选题]计算 Numpy中元素个数的方法是()。
A)np.sqrt()
B)np.size()
C)np.identity()
D)np.nid()
35.[单选题]在图像识别中,(__)是重中之重。
A)人脸识别
B)物品识别
C)彩识别
D)轮廓识别
36.[单选题]假设你需要调整参数来最小化代价函数(costfunction),会使用()技术。
A)穷举搜索
B)随机搜索
C)Bayesian优化
D)以上全是
37.[单选题]下列哪项关于模型能力(model capacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)
A)隐藏层层数增加,模型能力一定增加
B)Dropout的比例增加,模型能力增加
C)学习率增加,模型能力增加
D)都不正确
38.[单选题]下列算法中属于图象平滑处理的是︰
A)梯度锐化
B)直方图均衡
C)中值滤波
D)Laplacian增强
39.[单选题]下列关于异方差(Heteroskedasticity)说法正确的是?
A)线性回归具有不同的误差项
B)线性回归具有相同的误差项
C)线性回归误差项为零
D)以上说法都不对
40.[单选题]在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的( )(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)
A)Accuracy:(TP+TN)/all
B)F-value:2recallprecision/(recall+precision)
C)G-mean:sqrt(precision*recall)
D)AUC:ROC曲线下面积
41.[单选题]下列关于数据的说法,不正确的是()
A)数据的类别有多种多样
B)数据库中的一列代表一个特征

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。