第一章的题目
填空题
1、常见的机器学习算法有_________、___________、___________(随意列举三个)
答:逻辑回归、最大熵模型、k-近邻模型、决策树、朴素贝叶斯分类器、支持向量机、高斯混合模型、隐马尔可夫模型、降维、聚类、深度学习
2、del_selection中的train_test_split函数的常见用法为
______,______,______,______ = train_test_split(data,target)(填写测试集和训练集名称,配套填写,例如x_train,x_test)
答:x_train x_test y_train y_test
3、根据机器学习模型是否可用于生成新数据,可以将机器学习模型分为_________和_________。
答:生成模型 判别模型
4、训练一个机器学习模型往往需要对大量的参数进行反复调试或者搜索,这一过程称为______。其中在训练之前调整设置的参数,称为_________。
答:调参 超参数
5、根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为____________、____________和______________。
答:监督学习 半监督学习 无监督学习
判断题
1、根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问题和线性问题。(F)(回归问题)
2、决策树属于典型的生成模型。(F)(判别模型)
3、降维、聚类是无监督学习算法(T)
4、当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很强(F)(很差)
5、训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。(T)
选择题
正则匹配原理1、以下属于典型的生成模型的是(D)
A、逻辑回归 B、支持向量机 C、k-近邻算法 D、朴素贝叶斯分类器
2、以下属于解决模型欠拟合的方法的是(C)
A、增加训练数据量 B、对模型进行裁剪 C、增加训练过程的迭代次数 D、正则化
3、构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型、(A)。
A、性能度量准则 B、评估 C、验证 D、训练和验证
4、以下属于典型的判别模型的是(B)
A、高斯混合模型B、逻辑回归 C、隐马尔可夫模型D、生成对抗网络
5、train_test_split函数的test_size参数规定了测试集占完整数据集的比例,默认取(B)
A、0.5 B、0.25 C、0.2 D、0.75
第二章
一、填空题
1.线性回归的目标是求解ω和b,使得f(x)与y尽可能接近。求解线性回归模型的基本方法是最小二乘法。
2.优化目标是让整个样本集合上的预测值与真实值之间的欧氏距离之和最小。
3. 多元线性回归问题中: 当可逆时,线性回归模型存在唯一解。
4. PR曲线以精确率为纵坐标,以召回率为横坐标。
5. 在ROC曲线与AUC曲线中,对于某个二分类分类器来说,输出结果标签(0还是1)往往取决于置信度以及预定的置信度阈值。
二、判断题
1.逻辑回归是一种广义线性回归,通过回归对数几率的方式将线性回归应用于分类任务。(✔)
2.信息论中.熵可以度量随机变量的不确定性。现实世界中.不加约束的事物都会朝着“熵增”的方向发展,也就是向不确定性增加的方向发展。(✔)
3. 机器学习中描述一个概率分布时,在满足所有约束条件的情况下,熵最小的模型是最好的。(✖)(熵最大的模型是最好的)
4. 准确率可以判断总的正确率,在样本不平衡的情况下,也能作为很好的指标来衡量结果。(✖)(虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。)
5. 当TPR=FPR为一条斜对角线时,表示预测为正样本的结果一-半是对的,一半是错的,为随机分类器的预测效果。(✔)
三、简答题
1.简述按卡姆剃刀原则在线性回归模型简化过程中的应用
答:奥卡姆剃刀原则指出,当模型存在多个解时,选择最简单的那个。因此可以在原始线性回归模型的基础上增加正则化项目以降低模型的复杂度,使得模型变得简单。
2.请简述最大熵模型的思路
答:从样本集合使用特征函数f(x,y)抽取特征,然后希望特征函数f(x,y)关于经验联合分布p(x,y)的期望,等于特征函数f(x,y)关于模型p(y\x)和经验边缘分布p(x)的期望。从样本集合使用特征函数f(x,y)抽取特征,然后希望特征函数f(x,y)关于经验联合分布p(x,y)的期望,等于特征函数f(x,y)关于模型p(y\x)和经验边缘分布p(x)的期望。
3.请简述准确率、精确率和召回率的定义
答:准确率是最为常见的指标,即预测正确的结果占总样本的百分比
精确率又叫查准率,精确率表示在所有被预测为正的样本中实际为正的概率
召回率又叫查全率,召回率表示在实际为正的样本中被预测为正样本的概率
4.请解释混淆矩阵包含的四部分信息:真阴率、假阳率、假阴率、真阳率的概念
答:(1)真阴率(True Negative,TN)表明实际是负样本预测成负样本的样本数。
(2)假阳率(False Positive,FP)表明实际是负样本预测成正样本的样本数。
(3)假阴率(False Negative, FN)表明实际是正样本预测成负样本的样本数。
(4)真阳率(True Positive,TP)表明实际是正样本预测成正样本的样本数。
5. 请说明一般情况下PR曲线中置信度阈值、召回率和精确率的变化关系
答:不同的置信度阈值对应着不同的精确率和召回率。一般来说,置信度阈值较低时,大量样本被预测为正例,所以召回率较高,而精确率较低;置信度阈值较高时,大量样本被预测为负例,所以召回率较低,而精确率较高。
第三章
一、填空题
1. 算法的时间复杂度是计算到训练集中所有样本距离的时间加上排序的时间。
2. 对k-近邻算法的研究包含三个方面: k值的选取、距离的度量和如何快速地进行k个近邻的检索。
3. K值很大时,可以通过交叉验证,在验证集上多次尝试不同的K值来挑选最佳K值
4. 对于连续变量,一般使用欧氏距离直接进行距离度量。
5. 当训练集合的规模很大时,如何快速到样本x的k个近邻成为计算机实现近年算法的关键。
二、判断题
1. 投票法的准则是少数服从多数(✔)
2. 对于离散变量,可以直接使用欧氏距离进行度量。(✖)(对于离散变量,可以先将离散变量连续化,然后再使用欧氏距离进行度量。)
3. 最近邻算法中,样本工的预测结果只由训练集中与其距离最近的那个样本决定。(✔)
4. 对于一般的离散变量同样可以采用类似词嵌人的方法进行距离度量。(✔)
5. 词嵌入是自然语言处理领域常用的一种对单词进行编码的方式。(✔)
三、简答题
1. 请简述k-近邻算法的思想
答:给定一个训练样本集合D以及一个需要进行预测的样本x:对于分类问题,k-近邻算法从所有训练样本集合中到与x最近的k个样本,然后通过投票法选择这k个样本中出现次数最多的类别作为x的预测结果;对于回归问题,k近邻算法同样到与x最近的k个样本,然后对这k个样本的标签求平均值,得到x的预测结果。
2. 请简述投票法的特点.
答:K值的选取使用的是投票法,投票法的准则是少数服从多数,所以当k值很小时,得到的结果就容易产生偏差。如果k值选取较大,则可能会将大量其他类别的样本包含进来,极端情况下,将整个训练集的所有样本都包含进来,这样同样可能会造成预测错误。
3. 投票法中K值很大时会怎么样,怎样获得最佳K值?
答:如果k值选取较大,则可能会将大量其他类别的样本包含进来.极端情况下,将整个训练集的所有样本都包含进来,这样同样可能会造成预测错误。一般情况下,可通过交叉验证、在验证集上多次尝试不同的k值来挑选最佳的k值。
4. 请简述kd树在快速检索中的应用
答:kd 树是-种典型的存储k维空间数据的数据结构(此处的k指x的维度大小,与k近邻算法中的k没有任何关系)。建立好kd树后,给定新样本后就可以在树上进行检索,这样就能够大大降低检索k个近邻的时间,特别是当训练集的样本数远大于样本的维度时。
5. 快速检索的一个朴素的思想是:
(1)计算样本工与训练集中所有样本的距离。
(2)将这些点依据距离从小到大进行排序选择前k个。
第四章
一、填空题
1.决策树是一种常用的机器学习算法,既可用于分类,也可用于回归。
2.决策树拥有很强的数据议合能力,往往会产生过拟合现象,因此需要对决策树进行剪枝。
3.信息增益是最早用于决策树模型的特征选择指标,也是ID3算法的核心。
4.信息增益比定义为信息增益与数据集在属性上的分布的熵之比
5. 使用预剪枝的策略容易造成决策树的欠拟合。
二、判断题
1. 如果对决策树进行剪枝可以减小决策树的复杂度,提高决策树的专一性能力。(✖)(提高泛化能力)
2. 经验损失可以使用每个子树上的样本分布的熵之和来描述(✖)(用叶节点的熵之和描述)
3. 结构损失可以用叶节点的个数来描述。(✔)
4. 决策树本身是一种贪心的策略,不一定能够得到全局的最优解。(✔)
5. 由于train_ test_ split函数在划分数据集时存在一定的随机性,所以重复运行上述代码可能会得到不同的准确率。(✔)
三、简答题
1.决策树的思想是什么?
答:决策树的思想非常简单:给定个样本集合,其中每个样本由若 干属性表示 ,决策网通过贪心的策略不断挑选最优的属性。对于离散属性以不同的属性值作为节点:对于连性,以属性值的特定分割点作为节点。将每个样本划分到不同的子树.再在各棵子树上业递归对子树上的样本进行划分,直到满足一定的终止条件为止。
2.一般情况下,非叶节点会包含五个数据,分别是什么?
答:每个非叶节点包含五个数据,分别是:决策条件、熵、样本数、每个类别中样本的个数、类别名称。
3.请简述预剪枝过程的思路。
答:对决策树进行预剪枝时一般通过验证集进行辅助。每次选择信息增益最大的属性进行划分时,应首先在验证集上对模型进行测试。如果划分之后能够提高验证集的准确率,则进行划分;否则,将当前节点作为叶节点,并以当前节点包含的样本中出现次数最多的样本作为当前节点的预测值。
4.后剪枝过程中的代价函数是什么?
答:代价函数定义为经验损失和结构损失两个部分:经验损失是对模型性能的度量,结构损失是对模型复杂度的度量。
5.什么时候停止剪枝?
答:显然,剪枝后叶节点的数目M会减少,决策树的复杂度会降低。而决策树的经验误差则可能会提高,此时决策树的结构损失占主导地位。代价函数的值首先会降低,到达某一个平衡点后,代价函数越过这个点,模型的经验风险会占据主导地位,代价函数的值会升高,此时停止剪枝。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论