(完整word版)机器学习练习题与答案
《机器学习》练习题与解答
1.⼩刚去应聘某互联⽹公司的算法⼯程师,⾯试官问他“回归和分类有什么相同点和不同点”,他说了以下⾔论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题
[单选题] [必答题]
○对
○错
参考答案:对。
解析:这道题只有⼀个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
有监督学习和⽆监督学习的区别是:
机器学习算法的图谱如下:
在回归问题中,标签是连续值;在分类问题中,标签是离散值。具体差别请看周志华《机器学习》书中的例⼦,⼀看便懂:
2.背景同上题。请判断
2)回归问题和分类问题都有可能发⽣过拟合 [单选题] [必答题]
○对
○错
答案:对
解析:这题有两个同学做错。过拟合的英⽂名称是 Over-fitting(过拟合)。为了说清楚“过”拟合,⾸先说⼀下“拟合”
【拟合的⼏何意义】:
从⼏何意义上讲,拟合是给定了空间中的⼀些点,到⼀个已知形式未知参数的连续曲线或曲⾯来最⼤限度地逼近这些点。⼀个直观的例⼦,是下⾯的电阻和温度的例⼦。
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。现在我们有⼀系列关于“温度”和“电阻”的测量值。⼀个最简单的思路,取两组测量值,解⼀个线性⽅程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提⾼测量精度,我们会测量多次,得到多组的值,这样就相当于得到⼆维平⾯上的多个点,我们的⽬标是寻⼀条直线,让这条直线尽可能地接近各个测量得到的点。
拟合的数学意义:
在数学的意义上,所谓拟合(fit)是指已知某函数的若⼲离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚⾄错误值),通过调整该函数中若⼲待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差
别(最⼩⼆乘意义)最⼩。
【说说过拟合】
古⼈云“过犹不及”。所谓“过”拟合,顾名思义,就是在学习的集合(也就是训练集)上拟合的很不错,但是有点过头了,什么意思?他能够在学过的数据上判断的很准,但是如果再扔给它⼀系列新的没学习过的数据,它判断的⾮常差!⽐如古时候有个教书先⽣教⼩明写数字,“⼀”字是⼀横,“⼆”字是两横,“三”字是三横。然后,⼩明说,⽼师你不⽤教我写数字了,我都会写。⽼师很惊讶,那你说“万”字怎么写,结果⼩明在纸上写下了⽆数个“横”。。⽤台湾⼤学林轩⽥⽼师的话说,过拟合是“书呆
⼦”,“钻⽜⾓尖”。如果⽤过于复杂的模型来刻画简单的问题,就有可能得到“聪明过头”的结果。⽐如下⾯预测房⼦的价格(price)和size之间关系的问题(来源于andrew ng的ppt)
通过五组数据,我们通过⾁眼直观地看,可以初步判断房屋的价格和size之间是⼆次函数的关系,也就是中间这幅图所拟合的情况。⽽右边这幅图中,⾃作聪明地⽤了⼀个四次函数来拟和这五组数据,虽然在已知的五个数据上都是100%准确,却得出了“当房⼦的size⼤于某个值时房⼦的价格会随着房屋⾯积增⼤⽽越来越低”这样的荒谬结论!这样的是过拟合。左边这个⽤⼀条直线来拟合但是拟合的误差很⼤也不置信,这叫“⽋拟合”。
在周志华⽼师的书中,举的例⼦是这样的:
发现了没有?周志华⽼师⽤的是“是不是树叶”这样的分类问题举例,andrew ng⽤的是“房价和房屋⾯积的关系”这样的回归问题举例。这说明,分类和回归都有可能过拟合。
3.背景同上题。请判断
3)⼀般来说,回归不⽤在分类问题上,但是也有特殊情况,⽐如logistic 回归可以⽤来解决0/1分类问题 [单选题] [必答题]
○对
○错
答案:对
解析:Logistic回归是⼀种⾮常⾼效的分类器。它不仅可以预测样本的类别,还可以计算出分
类的概率信息,在⼀线互联⽹公司中⼴泛的使⽤,⽐如应⽤于CTR预估这样的问题中。这⾥我们不详细
说明其原理,后续课程会讲到。很多⼈对它的名字会产⽣疑问,挂着“回归”的头,卖的是“分类”的⾁,别扭的慌。
其实我们不⽤纠结它到底是“回归”,还是“分类”,⾮得⼆选⼀。可以参考⼀下百度百科关于“logistic回归”的词条
其中举了⼀个富⼠康员⼯“⾃杀的⽇期”与“累计⾃杀⼈数”之间关系的例⼦,并通过logistic 回归分析来拟合出⼀条曲线。这说明logistic回归本⾝也有⼀定的解决“回归”问题的能⼒,只是⼯业界都⽤它来解决分类问题。
4.背景同上题。请判断
4)对回归问题和分类问题的评价最常⽤的指标都是准确率和召回率 [单选题] [必答题]○对
正则化可以产生稀疏权值○错
答案:错
解析:本题有四个同学选错。这道题的⽤意是提醒⼤家注意,对回归问题的评价指标通常并不是准确率和召回率,从“房价与房屋⾯积之间关系预测”这个例⼦来说,⼀个已知数据点离预测的曲线之间的距离
是多少时能够判定为“准确”,距离为多少时判定为“不准确”?没办法区别。准确率对于度量回归问题的效果其实并不适⽤。回归问题的误差⼀般通过“误差”来评估,⽐如RMSE等。在滴滴⼤数据竞赛中⽤的是这样的⼀个指标
很显然不是⽤的“准确率”来评定。
5.背景同上题。请判断
5)输出变量为有限个离散变量的预测问题是回归问题;
输出变量为连续变量的预测问题是分类问题; [单选题] [必答题]
○对
○错
答案:错
解析:说反了
6.向量x=[1,2,3,4,-9,0]的L1范数是多少 [单选题] [必答题]
○ 1
○19
○ 6
○sqrt(111)
答案:19
解析:这题错了三个同学,其实很简单。请记住:
L0范数是指向量中⾮0的元素的个数。
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算⼦”(Lasso regularization)。
L2范数是指向量各元素的平⽅和然后求平⽅根。
7.⼩明参加某公司的⼤数据竞赛,他的成绩在⼤赛排⾏榜上原本居于前⼆⼗,后来他保持特征不变,对
原来的模型做了1天的调参,将⾃⼰的模型在⾃⼰本地测试集上的准确率提升了5%,然后他信⼼满满地将新模型的预测结果更新到了⼤赛官⽹上,结果懊恼地发现⾃⼰的新模型在⼤赛官⽅的测试集上准确率反⽽下降了。对此,他的朋友们展开了讨论,请将说法正确的选项打勾(不定项选择题) [多选题] [必答题]
□⼩芳:从机器学习理论的⾓度,这样的情况不应该发⽣,快去⼤赛组委会反应
□⼩刚:你这个有可能是由于过拟合导致的
□⼩⽉:早就和你说过了,乖乖使⽤默认的参数就好了,调参是不可能有收益的
□⼩平:你可以考虑⼀下,使⽤交叉验证来验证⼀下是否发⽣了过拟合
答案:选择第⼆项、第四项
解析:⼤家都同意第⼆项,是过拟合导致的。设置第四项的⽬的,是提醒⼤家,交叉验证可以⽤于防⽌模型过于复杂⽽引起的过拟合。具体什么是交叉验证,请期待后续课程。
8.关于L1正则和L2正则下⾯的说法正确的是 [多选题] [必答题]
□L2范数可以防⽌过拟合,提升模型的泛化能⼒。但L1正则做不到这⼀点
□L2正则化标识各个参数的平⽅的和的开⽅值。
□L2正则化有个名称叫“Lasso regularization”
□L1范数会使权值稀疏
答案:第⼆项、第四项
解析:同第6题
9.判断这个说法对不对:给定 n 个数据点,如果其中⼀半⽤于训练,另⼀半⽤于测试,则训练误差和测试误差之间的差别会随着 n的增加⽽减⼩ [单选题] [必答题]
○对
○错
答案:对
解析:训练数据越多,拟合度越好,训练误差和测试误差距离⾃然越⼩
⼋卦:亲们,这道题曾经出现在《百度2016研发⼯程师笔试题》。
咱们有四个同学做错。
10.Consider a problem of building an online image advertisement system that shows the users the most relevant images. What features can you choose to use? [单选题] [必答题]
○concrete, abstract
○concrete, raw, abstract
○concrete, raw
○concrete
答案:B
解析:本题源于林轩⽥《机器学习基⽯》课件,给在线图⽚⼴告系统挑选特征。
concrete user features,
raw image features,and maybe abstract user/image IDs
⼤致理解⼀下特征的⼏种类型,请做错的同学去看⼀下林轩⽥⽼师的视频
11.【附加题】考虑回归⼀个正则化回归问题。在下图中给出了惩罚函数为⼆次正则函数,当正则化参数C取不同值时,在训练集和测试集上的log似然(mean log-probability)。请判断这个说法是否正确:随着C的增加,图中训练集上的log似然永远不会增加 [单选题] [必答题]
○对
○错
答案:对
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论