第一章 机器学习概述
1.机器学习研究什么问题,构建一个完整的机器学习算法需要哪些要素?
机器学习主要研究如何选择统计学习模型,从大量已有数据中学习特定经验。构建一个完整的机器学习算法需要三个方面的要素,分别是数据,模型,性能度量准则。
2.可以生成新数据的模型是什么,请举出几个例子
可以生成新数据的模型是生成模型,典型的生成模型有朴素贝叶斯分类器、高斯混合模型、隐马尔可夫模型、生成对抗网络等。
3.监督学习、半监督学习和无监督学习是什么,降维和聚类属于哪一种?
监督学习是指样本集合中包含标签的机器学习,无监督学习是无标签的机器学习,而半监督学习介于二者之间。降维和聚类是无监督学习。
4.过拟合和欠拟合会导致什么后果,应该怎样避免?
过拟合导致模型泛化能力弱,发生明显的预测错误,往往是由于数据量太少或模型太复杂导致,通过增加训练数据量,对模型进行裁剪,正则化的方式来缓解。而欠拟合则会导致模型不能对数据进行很好地拟合,通常是由于模型本身不能对训练集进行拟合或者训练迭代次数太少,解决方法是对模型进行改进,设计新的模型重新训练,增加训练过程的迭代次数。
5.什么是正则化,L1正则化与L2正则化有什么区别?
正则化是一种抑制模型复杂度的方法。L1正则化能够以较大概率获得稀疏解,起到特征选择的作用,并且可能得到不止一个最优解。L2正则化相比前者获得稀疏解的概率小的多,但得到的解更加平滑。
第二章 逻辑回归与最大熵模型
1.逻辑回归模型解决( B )
A.回归问题
B.分类问题
C.聚类问题
D.推理问题
2.逻辑回归属于( B )回归
A.概率性线性
B.概率性非线性
C.非概率性线性
D.非概率性非线性
3.逻辑回归不能实现( D )
A.二分类
B.多分类
C.分类预测
D.非线性回归
4.下列关于最大熵模型的表述错误的是( B )
A.最大熵模型是基于熵值越大模型越稳定的假设
B.最大熵模型使用最大熵原理中一般意义上的熵建模以此缩小模型假设空间
C.通过定义最大熵模型的参数可以实现与多分类逻辑回归相同的作用
D.最大熵模型是一种分类算法
5.下列关于模型评价指标的表述错误的是( C )
A.准确率、精确率、召回率以及AUC均是建立在混淆矩阵的基础上
B.在样本不平衡的条件下准确率并不能作为很好的指标来衡量结果
C.准确率表示所有被预测为正的样本中实际为正的样本的概率
D.一般来说,置信度阈值越高,召回率越低,而精确率越高
6.简述逻辑回归的原理。
7.最大熵模型的优点和缺点是什么?
第三章 k-近邻算法
1.k-近邻算法的基本要素不包括( C )
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
2.关于k-近邻算法说法错误的是( D )
A.k-近邻算法是机器学习
B.k-近邻算法是无监督学习
C.k代表分类个数
D.k的选择对分类结果没有影响
3.以下关于k-近邻算法的说法中正确的是( B )
A.k-近邻算法不可以用来解决回归问题
B.随着k值的增大,决策边界会越来越光滑
C.k-近邻算法适合解决高维稀疏数据上的问题
D.相对3近邻模型而言,1近邻模型的bias更大,variance更小
4.( B )不可以通过无监督学习方式进行训练
A.k-近邻算法
B.决策树
C.RBM
D.GAN
5.以下关于k-近邻算法的说法中,错误的是( C )
正则化网络A.一般使用投票法进行分类任务
B.k-近邻算法属于懒惰学习
C.k-近邻算法训练时间普遍偏长
D.距离计算方法不同,效果也可能有显著差别
6.简述k-近邻算法的步骤。
7.k-近邻算法有哪些优缺点?
第四章 决策树
1.关于机器学习中的决策树学习,说法错误的是( A )
A.受生物进化启发
B.属于归纳推理
C.用于分类和预测
D.自顶向下递推
2.在构建决策树时,需要计算每个用来划分数据特征的得分,选择分数最高的特征,以下可以作为得分的是( D )
A.熵
B.基尼系数
C.训练误差
D.以上都是
3.在决策树学习过程中,( D )可能会导致问题数据(特征相同但是标签不同)
A.数据噪音
B.现有特征不足以区分或决策
C.数据错误
D.以上都是
4.根据信息增益来构造决策树的算法是( A )
A.ID3决策树
B.递归
C.归约
D.FIFO
5.决策树构成顺序是( A )
A.特征选择、决策树生成、决策树剪枝
B.决策树剪枝、特征选择、决策树生成
C.决策树生成、决策树剪枝、特征选择
D.特征选择、决策树剪枝、决策树生成
6.决策树适用于解决什么样的问题?
7.ID3和CART算法有什么区别?
第五章 朴素贝叶斯分类器
1.朴素贝叶斯分类器的特征不包括( C )
A.孤立的噪声点对该分类器影响不大
B.数据的缺失值影响不大
C.要求数据的属性相互独立
D.条件独立的假设可能不成立
2.朴素贝叶斯分类器基于( B )假设
A.样本分布独立性
B.属性条件独立性
C.后验概率已知
D.先验概率已知
3.下列关于朴素贝叶斯分类器错误的是( D )
A.朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
B.对小规模的数据表现很好,能个处理多分类任务,适合增量式训练
C.对缺失数据不太敏感,算法也比较简单,常用于文本分类
D.对输入数据的表达形式不敏感
4.朴素贝叶斯分类器为( A )
A.生成模型
B.判别模型
C.统计模型
D.预算模型
5.下列关于朴素贝叶斯分类器正确的是( D )
A.朴素贝叶斯分类器的变量必须是非连续型变量
B.朴素贝叶斯模型中的特征和类别变量之间也要相互独立
C.朴素贝叶斯分类器对于小样本数据集效果不如决策树好
D.朴素贝叶斯模型分类时需要计算各种类别的概率,取其中概率最大者为分类预测值
6.如何理解朴素贝叶斯分类器中的拉普拉斯平滑?
7.简述朴素贝叶斯算法的原理。
第六章 支持向量机
1.支持向量指的是( B )
A.对原始数据进行采样得到的样本点
B.决定分类面可以平移的范围的数据点
C.位于分类面上的点
D.能够被正确分类的数据点
2.下面关于支持向量机(SVM)的描述错误的是( D )
A.是一种监督式学习的方法
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论