中国科学院研究生院
课程编号:712008Z      试 题 专 用 纸          课程名称:机器学习
任课教师:卿来云
———————————————————————————————————————————————
姓名
学号                  成绩
1. 判断题(20分,每小题2分)
(1)给定n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n 的增加而减小。  (T )
(2)当训练数据较少时更容易发生过拟合。
(T ) (3)回归函数A 和B ,如果A 比B 更简单,则A 几乎一定会比B 在测试集上表现更好。(F ) (4)在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。(T ) (5)在Ada
Boost 算法中,所有被错分的样本的权重更新比例相同。(T ) (6)Boosting 的一个优点是不会过拟合。(F )
(7)梯度下降有时会陷于局部极小值,但EM 算法不会。(F ) (8)SVM 对噪声(如来自其他分布的噪声样本)鲁棒。(F )
(9)Boosting 和Bagging 都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重。(F ) (10)在回归分析中,最佳子集选择可以做特征选择,当特征数目较多时计算量大;岭回归和Lasso 模型计算量小,且Lasso 也可以实现特征选择。(T )
2、logistic 回归模型。(20分,每小题10分)
我们对如图1(a)所示的数据采用简化的线性logistic 回归模型进行两类分类,即
()()()
12112211221
1|,,1exp Y w w g w x w x w x w x ==+=
+−−x P 。
(为了简化,我们不采用偏差0w 。
) 训练数据可以被完全分开(训练误差为0,如图1(b)所示的L 1)。
共 3 页        第1页
正则化协方差图1(a) 2维训练数据。
图1(b) 数据点可以被L 1(实线)。L 2、L 3和L 4是另外几个可能的决策
(1) 考虑一个正则化的方法,即最大化
()2
1221
log |,,2
N
i i i C y w w w =−
∑x P 。 注意只有2w 被惩罚。则当C 很大时,如图1(b)所示的4个决策边界中,哪条线可能是有该正则方法得到的?L 2、L 3和L 4 可以通过正则2w 得到吗?
答:L2不可以。当正则w2时,决策边界对x2的依赖越少,因此决策边界变得更垂直。而图中的L2看起来不正则的结果更水平,因此不可能为惩罚w2得到;
L3可以。w2^2相对w1^2更小(表现为斜率更大),虽然该决策对训练数据的log 概率变小(有被错分的样本); L4不可以。当C 足够大时,我们会得到完成垂直的决策边界(线 x 1 = 0 或x 2轴)
。L4跑到了x 2轴的另一边使得其结果比其对边的结果更差。当中等程度的正则时,我们会得到最佳结果(w2较小)。图中的L4不是最佳结果
因此不可能为惩罚w2得到;
(2) 如果我们将正则项给出L1范式,即最大化
()()12121
log |,,2
N
i i i C
y w w w w =−
+∑x P 。 则随着C 增大,下面哪种情形可能出现(单选)?  (a) 1w 将变成0,然后2w 也将变成0。(T)  (b) 1w 和2w 将同时变成0。
(c) 2w 将变成0,然后1w 也将变成0。
(d) 两个权重都不会变成0,只是随着C 的增大而减小0。
该数据可以被完全正确分类(训练误差为0),且仅看x 2的值(w 1 = 0)就可以得到。虽然最佳分类器w 1可能非0,但
随着正则量增大w1会很快接近0。L1正则会使得w 1完全为0。随着C 的增大,最终w 2 会变成0。
3、产生式模型和判别式模型。(16分,每小题8分)
考虑两个分类器:1) 核函数取二次多项式的SVM 分类器 和 2)没有约束的高斯混合模型(每个类别为一个高斯模型)。我们对2
R 空间上的点进行两类分类。假设数据完全可分,SVM 分类器中不加松弛惩罚项,并且假设
有足够多的训练数据来训练高斯模型的协方差。
(1) 这两个分类器的VC 维相同。(判断正误,并给出简短理由)(T ) 因此两个分类器的决策边界都为二次函数,复杂度相同。
(2) 假设我们估计两个分类器的结构风险值,该值为预测误差的上界。则这连个分类器中哪个的结构风险值
更小一些?给出简短理由。
SVM 可能会得到更好的结果。虽然两个分类器的复杂度相同,但SVM 对训练误差做优化从而得到更低(或相同)的
值。
4、SVM 。(16分,每小题8分)
我们采用两个SVM 分类器对2
R 空间上的点进行两类分类,这两个分类器的不同在于核函数不同。其中分类器
1采用的核函数为()1,T
K ′′=x x x x ,分类器2采用的核函数为()()()2,K p p ′′=x x x x ,其中()p x 为根据其
他方法估计得到的概率密度函数。
(1) 采用核函数2K 的分类器2的VC 维是多少?
特征空间为1维(将任意点x 映射成非负数p(x)),因此VC 维是2。.
(2) 如果两个分类器都嫩对N 个训练数据得到0训练误差,则哪个分类器会有较好的推广性能?给出简短
理由。
分类器1的VC 维为3,而分类器2的VC 维为2,因此分类器1更复杂。当训练误差相同时,分类器2得到的预测误差的界更小,从而其推广性更好。
共 3 页        第2页
5、Boosting 。(28分,每小题7分)
考虑如下图2所示的训练样本,其中’X’和’O’分别表示正样本和负样本。我们采用AdaBoost 算法对上述样本进行分类。在Boosting 的每次迭代中,我们选择加权错误率最小的弱分类器。假设采用的弱分类器为平行两个坐标 轴的线性分类器。
图2:训练样本
(1) 在图2中标出第一次迭代选择的弱分类器(L 1)
,并给出决策面的‘+’和‘-’面。 (2) 在图2中用圆圈标出在第一次迭代后权重最大的样本,其权重是多少? (3) 第一次迭代后权重最大的样本在经过第二次迭代后权重变为多少?
(4) 强分类器为弱分类器的加权组合。则在这些点中,存在被经过第二次迭代后的强分类器错分的样本吗?
给出简短理由。
共 3 页第3页

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。